CN114124732A - 一种面向云的带内计算部署方法、装置和系统 - Google Patents

一种面向云的带内计算部署方法、装置和系统 Download PDF

Info

Publication number
CN114124732A
CN114124732A CN202111433934.0A CN202111433934A CN114124732A CN 114124732 A CN114124732 A CN 114124732A CN 202111433934 A CN202111433934 A CN 202111433934A CN 114124732 A CN114124732 A CN 114124732A
Authority
CN
China
Prior art keywords
data
aggregation
switch
cloud
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111433934.0A
Other languages
English (en)
Other versions
CN114124732B (zh
Inventor
吉明涛
钱柱中
韦磊
缪巍巍
曾锃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing University
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, State Grid Jiangsu Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical Nanjing University
Priority to CN202111433934.0A priority Critical patent/CN114124732B/zh
Publication of CN114124732A publication Critical patent/CN114124732A/zh
Application granted granted Critical
Publication of CN114124732B publication Critical patent/CN114124732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种面向云的带内计算部署方法、装置和系统。所述方法通过不断地收集当前云数据中心的网络拥塞信息,为当前集群内的交互的计算任务选择恰当的可编程交换机来完成数据聚合。本发明的带内计算系统利用了可编程交换机本身的计算能力,为来自不同任务产生的数据分配相应的缓存并将对应的简单计算,随后将计算后的结果转发至目的节点,以此节省带宽资源从而达到加速云数据中心任务的执行。

Description

一种面向云的带内计算部署方法、装置和系统
技术领域
本发明涉及云计算和数据中心网络领域,具体涉及一种面向云的带内计算部署方法、装置和系统。
背景技术
当前工业界有大量的企业开展云数据中心的建设,通过合理的编排数据中心的计算资源、存储资源、网络资源来为用户提供可靠的服务。
然而,网络状况瞬息万变,特别是由于当前云数据中心中任务的复杂性,合理编排网络资源保证较高的服务质量难以实现。任务的复杂性体现在,大部分的任务由多个阶段的多个子任务组成,同一阶段不同的子任务以及不同阶段的不同子任务阶段往往需要通信。不仅通信的数量众多,通信的数据量更加庞大,这造成了极大的网络带宽开销。如何动态地适应网络的动态变化和任务位置的不同分布,是需要解决的问题。
发明内容
本发明的目的是提出一种面向云的带内计算部署方法、装置和系统,解决现有技术中的问题。
为了实现上述发明目的,本发明采用如下的技术方案:
第一方面,一种面向云的带内计算部署方法,应用于云数据中心,所述云数据中心包括经由交换机连接的若干工作节点和服务节点,所述方法用于在交换机上将来自多个工作节点的数据进行计算并将计算结果转发至服务节点,具体包括以下步骤:
获取当前数据中心网络信息;
响应于接收到工作节点的数据聚合请求,根据获取的网络信息构建带内聚合模型,并根据带内聚合模型构建以最小化数据流的传输时间为目标的优化问题,并对该优化问题进行求解,其中所述带内聚合模型包括数据聚合前从工作节点至聚合节点的传输时间βi,j、数据聚合时的在聚合节点的计算时间γi,j、聚合后从聚合节点传输至服务节点的传输时间αi,j
将求解结果作为当前待更新的并行任务的聚合位置的部署决策,其中所述部署决策为每一组数据流的聚合位置。
进一步地,所述以最小化数据流的传输时间为目标的优化问题为:
优化目标:min max{Ii,j*(βi,ji,ji,j)} (1)
约束条件:
1.1)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000021
1.2)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000022
1.3)对于决策的定义域限制:
Figure BDA0003381114770000023
式中,fi表示一组数据流的集合,包含了多个来自不同工作节点并且具有相同目的地的数据流;F表示当前系统中全部数据流组的集合;Ii,j为决策变量,表示数据流组fi是否选择交换机j来聚合数据;si,k表示数据流组fi的第k条子流,g表示每条流传输的数据量的大小,Mj表示交换机j资源的上限。
进一步地,对该优化问题进行求解包括:
通过等价转换消除问题中(1)中的乘积项,得到新问题(2);
消除新问题(2)中的max操作,将离散性问题转换为连续性问题(3);
利用辅助工具λ-representaion,将问题(3)从整数域上松弛到实数域,得到问题(4);
根据实数域上的变量性质,将问题(4)转换为线性规划问题(5);
利用线性规划求解工具对问题(5)进行求解,解得变量Ii,j,若Ii,j=1则表示数据流组fi选择在交换机j聚合数据,否则不聚合。
进一步地,线性规划问题(5)如下:
优化目标:
Figure BDA0003381114770000024
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure BDA0003381114770000025
5.2)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000026
5.3)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000027
5.4)对于决策的定义域限制:
Figure BDA0003381114770000028
其中
Figure BDA0003381114770000029
Figure BDA00033811147700000210
表示的交换机j到服务节点之间的所有交换机集合,δj′表示在交换机j′转发数据所需的时间;
Figure BDA0003381114770000031
和r为转换到实数域所引入的变量,
Figure BDA0003381114770000032
定义域为正实数,r的定义域为{0,1};w表示决策变量的规模。
第二方面,提出一种面向云的带内计算部署装置,应用于云数据中心,所述云数据中心包括经由交换机连接的若干工作节点和服务节点,所述装置将来自多个工作节点的数据汇聚到交换机上进行计算,具体包括:
网络信息获取模块,被配置为获取当前数据中心网络信息;
部署决策计算模块,被配置为响应于接收到工作节点的数据聚合请求,根据获取的网络信息构建带内聚合模型,并根据带内聚合模型构建以最小化数据流的传输时间为目标的优化问题,并对该优化问题进行求解,其中所述带内聚合模型包括数据聚合前从工作节点至聚合节点的传输时间βi,j、数据聚合时的在聚合节点的计算时间γi,j、聚合后从聚合节点传输至服务节点的传输时间αi,j
部署决策下发模块,被配置为将求解结果作为当前待更新的并行任务的聚合位置的部署决策,其中所述部署决策为每一组数据流的聚合位置。
进一步地,所述部署决策计算模块包括:用于构建以最小化数据流的传输时间为目标的优化问题的问题构建子模块,用于对构建的优化问题等价转换为线性规划问题的问题转换子模块,以及用于对线性转换问题进行求解的问题求解子模块,其中构建的优化问题如下:
优化目标:min max{Ii,j*(βi,ji,ji,j)} (1)
约束条件:
1.1)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000033
1.2)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000034
1.3)对于决策的定义域限制:
Figure BDA0003381114770000035
式中,fi表示一组数据流的集合,包含了多个来自不同工作节点并且具有相同目的地的数据流;F表示当前系统中全部数据流组的集合;Ii,j为决策变量,表示数据流组fi是否选择交换机j来聚合数据;si,k表示数据流组fi的第k条子流,g表示每条流传输的数据量的大小,Mj表示交换机j资源的上限。
进一步地,问题转换子模块包括:
第一转换单元,用于通过等价转换消除问题中(1)中的乘积项,得到新问题(2);
第二转换单元,用于消除新问题(2)中的max操作,将离散性问题转换为连续性问题(3);
第三转换单元,用于通过辅助工具λ-representaion,将问题(3)从整数域上松弛到实数域,得到问题(4);
第四转换单元,用于根据实数域上的变量性质,将问题(4)转换为线性规划问题(5)。
进一步地,线性规划问题(5)如下:
优化目标:
Figure BDA0003381114770000041
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure BDA0003381114770000042
5.2)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000043
5.3)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000044
5.4)对于决策的定义域限制:
Figure BDA0003381114770000045
其中
Figure BDA0003381114770000046
Figure BDA0003381114770000047
表示的交换机j到服务节点之间的所有交换机集合,δj′表示在交换机j′转发数据所需的时间;
Figure BDA0003381114770000048
和r为转换到实数域所引入的变量,
Figure BDA0003381114770000049
定义域为正实数,r的定义域为{0,1};w表示决策变量的规模。
第三方面,提供一种面向云的带内计算系统,包括:若干个工作节点、服务节点、若干个交换机、调度装置,所述工作节点和服务节点经由交换机互连,所述工作节点产生若干组数据流,向调度装置发起传输请求;所述调度装置采用如本发明第一方面所述的面向云的带内计算部署方法实现对各组数据流进行聚合部署,或者所述调度装置实现为如本发明第二方面所述的面向云的带内计算部署装置,所述调度装置将部署决策结果反馈给工作节点,所述工作节点根据部署决策结果选择相应的聚合点交换机。
进一步地,所述工作节点还被配置为:根据指定协议封装本地数据,并将封装后的数据传输至选择的汇聚点交换机,聚合点交换机从多个不同的数据包中提取对应的字段,并将相应的字段组合,组合结果发送至服务节点,其中所述指定协议包括:在数据包的ETH字段和IP字段中嵌入SR字段,用于指示该数据包的路径信息以及控制信息;在数据包的UDP字段后添加AGG字段,用于携带该工作节点的本地数据任务所需要的信息。
相比于现有技术,本发明具有以下有益效果:本发明提出了面向云的带内计算策略,利用带内网络遥测技术获取当前的网络信息,包含网络拓扑以及交换机的拥塞情况,根据当前获得的信息,构建数据更新模型,通过解相应的优化问题来不断地调整数据流的聚合位置。本发明根据当前建立的数据更新模型,构建以最小化数据的传输时间为目标的优化问题并求解,将求解结果作为当前待更新的并行任务的聚合位置的部署决策,决策信息为每一组数据流的聚合位置。本发明的部署方法和部署系统能够在动态变化的网络环境下,最小化数据流的完成时间,最大化任务的执行效率。与现有技术中的部署方案相比,本发明的部署和调度策略可以在线地、动态地适应网络的动态变化和任务位置的不同分布,提高云数据中心任务执行能力。
附图说明
图1为本发明实例提供的集群内带内聚合系统结构示意图;
图2为本发明实例提供的带内聚合协议结构图;
图3为本发明实施例提供的带内计算部署方法流程图;
图4为本发明实例提供的优化问题转化过程示意图;
图5为本发明实例提供的两种策略下数据流的完成时间对比图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
观察云数据中心任务通信的特征,往往是将多个工作节点(如服务器)待通信的数据汇聚到某一服务节点进行简单的计算,如求和运算。而可编程交换机具有协议独立等特性,能够根据用户自定义的逻辑来处理数据包,并且具有一定的计算能力。鉴于此,可以利用带内聚合,在交换机上将来自多个工作节点的数据进行求和并将求和结果转发至服务节点。这样的处理机制能够明显的降低网络流量,降低任务运行时的通信开销。
然而,由于网络的状态随时间推移不断发生变化,简单的将该机制应用在集群中面临着诸多挑战。首先,由于集群规模庞大,这可能使得工作节点的分布不集中从而跨越整个集群,这为聚合位置的选择带来了难度。其次,网络状态变化万千,当网络的状态发生变化时,原有的通信方案极有可能要发生变化。最后,带内数据聚合往往要考虑多条流和多个路径,最小化数据流的完成时间问题本身具有一定的难度。为此,本发明提出一种动态网络环境下的带内计算系统和部署方法,以最小化数据流的完成时间,来最大化任务的执行效率。
参照图1,在一个实施例中,在云数据中心中应用带内数据聚合系统,该带内数据聚合系统包含若干个工作节点以及服务节点、若干个交换机、调度装置,其中工作节点以及服务节点经过若干个交换机连接;在每一轮迭代中,各工作节点基于本地的样本计算出本地模型,随后各工作节点将本地模型同时发送给服务节点,该过程产生了若干个数据流;调度装置会根据当前网络的状况和工作节点的分布,来为数据流选择恰当的数据聚合点;当数据聚合点确定时,调度装置会为各数据流规划路径;由于各交换机的资源有限,被选择的交换机应当保证内存资源充足。
具体的,图1所示的网络拓扑图中,圆形图标表示服务器,各服务器之间经过方形的交换机连接。在该拓扑中部署分布式训练作业,该作业通常部署在两种类型的节点上,其中W1-W3为工作节点,PS为参数服务器(即服务节点),工作节点与参数服务器之间的通信会产生若干组数据流,如图中箭头。在分布式训练的过程中,工作节点训练完本地样本产生本地模型▽1-▽3,随后工作节点向调度装置发起传输请求。调度装置在获取待传输本地模型所在参数服务器后,会根据当前的网络情况为各待传输的本地模型选择恰当的数据聚合点,并将该信息反馈给工作节点。随后,工作节点将按照本发明提出的协议封装本地模型,并将封装后的数据传输至汇聚点,如图中最上侧的P4交换机。在P4中处理过程为,首先从多个不同的数据包中提取对应的字段,随后将相应的字段求和,最终将求和后的结果▽1+▽2+▽3发送至PS节点。
注意,由于整个网络中数据的传输基于源路由通信协议(SR协议,详细在下文描述),也即路径信息会在数据源头嵌入数据包中,所以数据流表经提前配置后不再发生改变。调度装置为拓扑中的某一台服务器,该装置作用主要有两个,首先,调度装置与交换机之间通过特定的探测包来通信,调度装置会通过周期性在网络中注射探测包、回收探测包,来收集网络的信息;其次,为所有待传输的数据计算出恰当的聚合点并将结果反馈至工作节点。
参照图2,在一个实施例中,每一条数据流中的数据都是由工作节点按照基于图中所示数据格式进行封装。其中ETH表示数据链路层协议、IP表示网络层协议、UDP表示传输层协议。其余的字段为本发明所提出的通信协议:SR字段用于指示该数据包的路径信息以及控制信息,二者来源于调度装置。具体地,路径信息包含从工作节点至参数服务器之间每一跳的端口号,由于路径长度不确定,所以该字段往往是可变长度的,字段长度依赖于路径。为了节省空间,该字段中每一项仅仅占用16位,其中9位用于存储端口号,其余7位用于携带控制信息;AGG字段包含模型更新所需要的信息,其中ID字段用于指示不同的作业,FLAG字段为数据包的索引,Num字段用于指示当前数据流包含数据包的总量,Totallen字段用于指示当前数据包中参数的个数,Data字段用于存储实际待更新的模型参数,例如W1产生的▽1
如上所述,该系统中调度装置会周期性的收集当前的网络状况,指导当前数据流的传输,选择恰当的聚合点,进而达到最小化数据流的传输时间。参照图3,面向云的带内计算部署方法包括以下步骤:
(S1)当有新的本地模型产生时,工作节点会向调度装置请求聚合信息;
(S2)调度装置周期性的利用带内网络遥测技术获取当前的网络信息,具体包含交换机内部的数据包队列长度以及通过每一台交换机的时延。
(S3)当调度装置收到(S1)中工作节点的请求后,会基于收集到的上述网络信息来构建数学模型,该模型包含三个方面:数据聚合前从工作节点至聚合节点的传输时间βi,j、数据聚合时的在聚合节点的计算时间γi,j、聚合后从聚合节点传输至参数服务器的传输时间αi,j
(S4)根据当前建立的数学模型,构建以最小化数据的传输时间为目标的优化问题;
(S5)通过等价转换将构建的优化问题转换为便于求解的线性规划问题,参照图4,转换问题的过程包括:
(a)消除问题中的乘积项,将该问题等价转换为更易解决新问题;
(b)消除max操作,将离散性问题转换为更易解决的连续性问题;
(c)利用λ-representaion,将原问题从整数域上松弛到实数域;
(d)根据形式化的特殊性质,将问题进一步转换为能够求解的线性规划问题。
具体而言,调度装置的总体目标是为了在受限于可编程交换机资源下,达到数据流的完成时间最小化的效果(即训练效率最大化),建立的优化问题如下:
优化目标:min max{Ii,j*(βi,ji,ji,j)} (1)
约束条件:
1.1)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000081
1.2)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000082
1.3)对于决策的定义域限制:
Figure BDA0003381114770000083
式中,fi表示一组数据流的集合,包含了多个来自不同工作节点并且具有相同目的地的数据流;F表示当前系统中全部数据流组的集合;Ii,j为决策变量,表示数据流组fi是否选择交换机j来聚合数据;βi,j表示数据流在数据聚合前的传输时间,γi,j表示在聚合节点的时间,αi,j表示数据流在聚合后至服务节点的传输时间;si,k表示数据流组fi的第k条子流,一个数据流组包含多个子流,通常情况下一个任务对应一条数据流,g表示每条流传输的数据量的大小,Mj表示交换机j存储资源的上限。
由于问题(1)中的优化目标包含决策变量的乘积,为了简化目标问题,将优化问题(1)进行等价转换为如下所示的优化问题:
优化目标:min max{Ii,j*(β′i,ji,j+α′i,j)} (2)
约束条件:
2.1)包含问题(1)中的约束1.1)、约束1.2)和约束1.3)
2.2)其中
Figure BDA0003381114770000084
等价于βi,j
2.3)其中
Figure BDA0003381114770000085
等价于αi,j
其中,
Figure BDA0003381114770000086
表示的交换机j到参数服务器的之间所有交换机集合,δj’表示在交换机j′转发数据所需的时间。
Figure BDA0003381114770000087
Figure BDA0003381114770000088
通过分情况讨论Ii,j=1或者Ii,j=1,可得出β′i,j=βi,j,同理α′i,j=αi,j
问题(2)中的优化目标为包含max操作,为了求解该问题,需要将该问题转化为凸函数:
优化目标:
Figure BDA0003381114770000091
约束条件:
3.1)包含问题(1)中的约束1.1)、约束1.2)和约束1.3)
其中,w为消除max操作必须引入的常量,该数值等于交换机数量乘以数据流组数量。
问题(3)为的整数域上的凸优化问题,为了求解该问题,需要借助辅助工具λ-representaion:
Figure BDA0003381114770000092
Figure BDA0003381114770000093
Figure BDA0003381114770000094
λr≥0,r∈R
其中R为变量I所有取值的集合。g为引入的可分离的凸函数,其表达式为
Figure BDA0003381114770000095
r为定义域为实数域上的变量。λr为引入的实数变量,通过引入该变量,能够将原先的离散定义域{0,1},转换为实数定义域[0,+∞]。故,利用上式将问题(3)转化为实数域上的优化问题:
优化目标:
Figure BDA0003381114770000096
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure BDA0003381114770000097
5.2)每一个新实数变量的个数约束:
Figure BDA0003381114770000098
5.3)包含问题(1)中的约束1.1)、约束1.2)和约束1.3)
5.4)对于决策的定义域限制:
Figure BDA0003381114770000099
式中
Figure BDA00033811147700000910
和r为新引入的变量,
Figure BDA00033811147700000911
定义域为正实数,r的定义域为{0,1}。
由于r的取值只能为0和1,故可基于此将问题(5)进行化简:
优化目标:
Figure BDA00033811147700000912
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure BDA0003381114770000101
5.2)包含问题(1)中的约束1.1)、约束1.2)和约束1.3)
5.3)对于决策的定义域限制:
Figure BDA0003381114770000102
此时,问题(1)已等价转换为问题(6),转换过程如图4所示。而问题(6)为实数域上的线性规划问题,可以借助已有的线性规划求解工具来求解此问题,最终解得变量Ii,j。根据该计算结果,若Ii,j=1则表示数据流组i选择在交换机j聚合数据,否则不聚合。调度模块将该结果反馈至工作节点,工作节点依据该结果来封装本地模型并完成带内计算部署。
基于图1中的拓扑进行了实验,发送端1和发送端2分别发送大小为25KB的本地模型,在P4交换机中聚合来自两个工作节点的数据流,具体的聚合策略按照上述提到的方法,聚合完成后将相加后的结果发送给服务节点。统计了分别执行两种控制策略后的数据流完成时间,策略一,网络内部不对数据做处理仅仅转发接收到的数据,策略二,本发明提出的部署控制方法。图5记录了前100次迭代的数据流的完成时间,INA表示采用本发明所提出的带内计算部署方法后数据流的完成时间,JF则表示采用默认的通信机制后的数据流完成时间,从图中可以得出本发明所提出的方法能够将数据流的完成时间缩短至原有的时间的一半,最大化的提高任务的执行效率。
根据本发明的另一实施例,调度装置实施为一种面向云的带内计算部署装置,包括:
网络信息获取模块,被配置为通过带内网络遥测技术获取当前数据中心网络信息,包括网络拓扑以及网络拥塞信息,所述拥塞信息包含数据包经过每一交换机队列的长度和排队时间;
部署决策计算模块,被配置为响应于接收到工作节点的数据聚合请求,根据获取的网络信息构建带内聚合模型,并根据带内聚合模型构建以最小化数据流的传输时间为目标的优化问题,并对该优化问题进行求解,其中所述带内聚合模型包括数据聚合前从工作节点至聚合节点的传输时间βi,j、数据聚合时的在聚合节点的计算时间γi,j、聚合后从聚合节点传输至服务节点的传输时间αi,j
部署决策下发模块,被配置为将求解结果作为当前待更新的并行任务的聚合位置的部署决策,决策信息为每一组数据流的聚合位置。
在本实施例中,部署决策计算模块包括:用于构建以最小化数据流的传输时间为目标的优化问题的问题构建子模块,用于对构建的优化问题等价转换为线性规划问题的问题转换子模块,以及用于对线性转换问题进行求解的问题求解子模块,其中构建的优化问题如下:
优化目标:min max{Ii,j*(βi,ji,ji,j)} (1)
约束条件:
1.1)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000111
1.2)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000112
1.3)对于决策的定义域限制:
Figure BDA0003381114770000113
式中,fi表示一组数据流的集合,包含了多个来自不同工作节点并且具有相同目的地的数据流;F表示当前系统中全部数据流组的集合;Ii,j为决策变量,表示数据流组fi是否选择交换机j来聚合数据;si,k表示数据流组fi的第k条子流,g表示每条流传输的数据量的大小,Mj表示交换机j资源的上限。
进一步地,问题转换子模块包括:
第一转换单元,用于通过等价转换消除问题中(1)中的乘积项,得到新问题(2);
第二转换单元,用于消除新问题(2)中的max操作,将离散性问题转换为连续性问题(3);
第三转换单元,用于通过辅助工具λ-representaion,将问题(3)从整数域上松弛到实数域,得到问题(4);
第四转换单元,用于根据实数域上的变量性质,将问题(4)转换为线性规划问题(5)。
进一步地,线性规划问题(5)如下:
优化目标:
Figure BDA0003381114770000114
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure BDA0003381114770000115
5.2)对于每一组数据流聚合位置的限制:
Figure BDA0003381114770000116
5.3)对于每一个可编程交换机的资源限制:
Figure BDA0003381114770000121
5.4)对于决策的定义域限制:
Figure BDA0003381114770000122
其中
Figure BDA0003381114770000123
Figure BDA0003381114770000124
表示的交换机j到服务节点之间的所有交换机集合,δj′表示在交换机j′转发数据所需的时间;
Figure BDA0003381114770000125
和r为转换到实数域所引入的变量,
Figure BDA0003381114770000126
定义域为正实数,r的定义域为{0,1};w表示决策变量的规模。
应理解,本发明实施例中所提及的部署装置可以实现上述方法实施例中的全部的技术方案,其各个功能模块/单元的功能能够根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,本发明中的网络信息收集与调度装置的交互方式、在线调度方法在各系统中均适用,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种面向云的带内计算部署方法,其特征在于,应用于云数据中心,所述云数据中心包括经由交换机连接的若干工作节点和服务节点,所述方法用于在交换机上将来自多个工作节点的数据进行计算并将计算结果转发至服务节点,具体包括以下步骤:
获取当前数据中心网络信息;
响应于接收到工作节点的数据聚合请求,根据获取的网络信息构建带内聚合模型,并根据带内聚合模型构建以最小化数据流的传输时间为目标的优化问题,并对该优化问题进行求解,其中所述带内聚合模型包括数据聚合前从工作节点至聚合节点的传输时间βi,j、数据聚合时的在聚合节点的计算时间γi,j、聚合后从聚合节点传输至服务节点的传输时间αi,j
将求解结果作为当前待更新的并行任务的聚合位置的部署决策,其中所述部署决策为每一组数据流的聚合位置。
2.根据权利要求1所述的面向云的带内计算部署方法,其特征在于,所述以最小化数据流的传输时间为目标的优化问题为:
优化目标:min max{Ii,j*(βi,ji,ji,j)} (1)
约束条件:
1.1)对于每一组数据流聚合位置的限制:
Figure FDA0003381114760000011
1.2)对于每一个可编程交换机的资源限制:
Figure FDA0003381114760000012
1.3)对于决策的定义域限制:
Figure FDA0003381114760000013
式中,fi表示一组数据流的集合,包含了多个来自不同工作节点并且具有相同目的地的数据流;F表示当前系统中全部数据流组的集合;Ii,j为决策变量,表示数据流组fi是否选择交换机j来聚合数据;si,k表示数据流组fi的第k条子流,g表示每条流传输的数据量的大小,Mj表示交换机j资源的上限。
3.根据权利要求2所述的面向云的带内计算部署方法,其特征在于,对该优化问题进行求解包括:
通过等价转换消除问题中(1)中的乘积项,得到新问题(2);
消除新问题(2)中的max操作,将离散性问题转换为连续性问题(3);
利用辅助工具λ-representaion,将问题(3)从整数域上松弛到实数域,得到问题(4);
根据实数域上的变量性质,将问题(4)转换为线性规划问题(5);
利用线性规划求解工具对问题(5)进行求解,解得变量Ii,j,若Ii,j=1则表示数据流组fi选择在交换机j聚合数据,否则不聚合。
4.根据权利要求3所述的面向云的带内计算部署方法,其特征在于,线性规划问题(5)如下:
优化目标:
Figure FDA0003381114760000021
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure FDA0003381114760000022
5.2)对于每一组数据流聚合位置的限制:
Figure FDA0003381114760000023
5.3)对于每一个可编程交换机的资源限制:
Figure FDA0003381114760000024
5.4)对于决策的定义域限制:
Figure FDA0003381114760000025
其中
Figure FDA0003381114760000026
Figure FDA0003381114760000027
表示的交换机j到服务节点之间的所有交换机集合,δj′表示在交换机j′转发数据所需的时间;
Figure FDA0003381114760000028
和r为转换到实数域所引入的变量,
Figure FDA0003381114760000029
定义域为正实数,r的定义域为{0,1};w表示决策变量的规模。
5.一种面向云的带内计算部署装置,其特征在于,应用于云数据中心,所述云数据中心包括经由交换机连接的若干工作节点和服务节点,所述装置将来自多个工作节点的数据汇聚到交换机上进行计算,具体包括:
网络信息获取模块,被配置为获取当前数据中心网络信息;
部署决策计算模块,被配置为响应于接收到工作节点的数据聚合请求,根据获取的网络信息构建带内聚合模型,并根据带内聚合模型构建以最小化数据流的传输时间为目标的优化问题,并对该优化问题进行求解,其中所述带内聚合模型包括数据聚合前从工作节点至聚合节点的传输时间βi,j、数据聚合时的在聚合节点的计算时间γi,j、聚合后从聚合节点传输至服务节点的传输时间αi,j
部署决策下发模块,被配置为将求解结果作为当前待更新的并行任务的聚合位置的部署决策,其中所述部署决策为每一组数据流的聚合位置。
6.根据权利要求5所述的面向云的带内计算部署装置,其特征在于,所述部署决策计算模块包括:用于构建以最小化数据流的传输时间为目标的优化问题的问题构建子模块,用于对构建的优化问题等价转换为线性规划问题的问题转换子模块,以及用于对线性转换问题进行求解的问题求解子模块,其中构建的优化问题如下:
优化目标:min max{Ii,j*(βi,ji,ji,j)} (1)
约束条件:
1.1)对于每一组数据流聚合位置的限制:
Figure FDA0003381114760000031
1.2)对于每一个可编程交换机的资源限制:
Figure FDA0003381114760000032
1.3)对于决策的定义域限制:
Figure FDA0003381114760000033
式中,fi表示一组数据流的集合,包含了多个来自不同工作节点并且具有相同目的地的数据流;F表示当前系统中全部数据流组的集合;Ii,j为决策变量,表示数据流组fi是否选择交换机j来聚合数据;si,k表示数据流组fi的第k条子流,g表示每条流传输的数据量的大小,Mj表示交换机j资源的上限。
7.根据权利要求6所述的面向云的带内计算部署装置,其特征在于,问题转换子模块包括:
第一转换单元,用于通过等价转换消除问题中(1)中的乘积项,得到新问题(2);
第二转换单元,用于消除新问题(2)中的max操作,将离散性问题转换为连续性问题(3);
第三转换单元,用于通过辅助工具λ-representaion,将问题(3)从整数域上松弛到实数域,得到问题(4);
第四转换单元,用于根据实数域上的变量性质,将问题(4)转换为线性规划问题(5)。
8.根据权利要求7所述的面向云的带内计算部署装置,其特征在于,线性规划问题(5)如下:
优化目标:
Figure FDA0003381114760000034
约束条件:
5.1)每一个原整数变量的拆解约束:
Figure FDA0003381114760000041
5.2)对于每一组数据流聚合位置的限制:
Figure FDA0003381114760000042
5.3)对于每一个可编程交换机的资源限制:
Figure FDA0003381114760000043
5.4)对于决策的定义域限制:
Figure FDA0003381114760000044
其中
Figure FDA0003381114760000045
Figure FDA0003381114760000046
表示的交换机j到服务节点之间的所有交换机集合,δj′表示在交换机j′转发数据所需的时间;
Figure FDA0003381114760000047
和r为转换到实数域所引入的变量,
Figure FDA0003381114760000048
定义域为正实数,r的定义域为{0,1};w表示决策变量的规模。
9.一种面向云的带内计算系统,其特征在于,包括:若干个工作节点、服务节点、若干个交换机、调度装置,所述工作节点和服务节点经由交换机互连,所述工作节点产生若干组数据流,向调度装置发起传输请求;所述调度装置采用如本发明第一方面所述的面向云的带内计算部署方法实现对各组数据流进行聚合部署,或者所述调度装置实现为如本发明第二方面所述的面向云的带内计算部署装置,所述调度装置将部署决策结果反馈给工作节点,所述工作节点根据部署决策结果选择相应的聚合点交换机。
10.根据权利要求9所述的面向云的带内计算系统,其特征在于,所述工作节点还被配置为:根据指定协议封装本地数据,并将封装后的数据传输至选择的汇聚点交换机,聚合点交换机从多个不同的数据包中提取对应的字段,并将相应的字段组合,组合结果发送至服务节点,其中所述指定协议包括:在数据包的ETH字段和IP字段中嵌入SR字段,用于指示该数据包的路径信息以及控制信息;在数据包的UDP字段后添加AGG字段,用于携带该工作节点的本地数据任务所需要的信息。
CN202111433934.0A 2021-11-29 2021-11-29 一种面向云的带内计算部署方法、装置和系统 Active CN114124732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111433934.0A CN114124732B (zh) 2021-11-29 2021-11-29 一种面向云的带内计算部署方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111433934.0A CN114124732B (zh) 2021-11-29 2021-11-29 一种面向云的带内计算部署方法、装置和系统

Publications (2)

Publication Number Publication Date
CN114124732A true CN114124732A (zh) 2022-03-01
CN114124732B CN114124732B (zh) 2022-11-25

Family

ID=80371944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111433934.0A Active CN114124732B (zh) 2021-11-29 2021-11-29 一种面向云的带内计算部署方法、装置和系统

Country Status (1)

Country Link
CN (1) CN114124732B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277698A (zh) * 2022-07-20 2022-11-01 福州大学 基于可靠性的遥测收集方案部署方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200236038A1 (en) * 2019-01-18 2020-07-23 Rise Research Institutes of Sweden AB Dynamic Deployment of Network Applications Having Performance and Reliability Guarantees in Large Computing Networks
CN111459505A (zh) * 2020-05-22 2020-07-28 南京大学 边缘计算环境下多版本推断模型部署方法、装置和系统
CN111556514A (zh) * 2020-04-14 2020-08-18 北京航空航天大学 一种去中心化的移动边缘计算资源发现和选择方法及系统
WO2021129861A1 (zh) * 2019-12-25 2021-07-01 华为技术有限公司 一种数据流控制的方法和装置
CN113301151A (zh) * 2021-05-24 2021-08-24 南京大学 基于云边协同的低时延容器化任务部署方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200236038A1 (en) * 2019-01-18 2020-07-23 Rise Research Institutes of Sweden AB Dynamic Deployment of Network Applications Having Performance and Reliability Guarantees in Large Computing Networks
WO2021129861A1 (zh) * 2019-12-25 2021-07-01 华为技术有限公司 一种数据流控制的方法和装置
CN111556514A (zh) * 2020-04-14 2020-08-18 北京航空航天大学 一种去中心化的移动边缘计算资源发现和选择方法及系统
CN111459505A (zh) * 2020-05-22 2020-07-28 南京大学 边缘计算环境下多版本推断模型部署方法、装置和系统
CN113301151A (zh) * 2021-05-24 2021-08-24 南京大学 基于云边协同的低时延容器化任务部署方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
UTKU BULKAN: "On the Load Balancing of Edge Computing Resources for On-Line Video Delivery", 《 IEEE ACCESS》 *
钱柱中: "面向实时流数据处理的边缘计算资源调度算法", 《计算机应用-信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277698A (zh) * 2022-07-20 2022-11-01 福州大学 基于可靠性的遥测收集方案部署方法
CN115277698B (zh) * 2022-07-20 2024-01-16 福州大学 基于可靠性的遥测收集方案部署方法

Also Published As

Publication number Publication date
CN114124732B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
Qu et al. Delay-aware scheduling and resource optimization with network function virtualization
CN109995583B (zh) 一种延迟保证的nfv云平台动态扩缩容方法及系统
Yao et al. AI routers & network mind: A hybrid machine learning paradigm for packet routing
Liu et al. eBA: Efficient bandwidth guarantee under traffic variability in datacenters
CN108809857A (zh) 一种基于sdn的流量监控与业务服务质量保障策略的方法
CN107729147A (zh) 流计算系统中的数据处理方法、控制节点及流计算系统
CN113472597B (zh) 分布式卷积神经网络细粒度的参数传输调度方法及装置
CN116389365B (zh) 一种交换机数据处理方法及系统
CN115277574B (zh) 一种sdn架构下数据中心网络负载均衡方法
CN114124732B (zh) 一种面向云的带内计算部署方法、装置和系统
Aljoby et al. On SDN-enabled online and dynamic bandwidth allocation for stream analytics
Luo et al. Deadline-guaranteed point-to-multipoint bulk transfers in inter-datacenter networks
Zhao et al. Joint reducer placement and coflow bandwidth scheduling for computing clusters
Lee et al. Enhancing infiniband with openflow-style sdn capability
CN1192563C (zh) 服务于多输出队列的调度方法、程序调度装置及数据交换节点
CN109298932B (zh) 基于OpenFlow的资源调度方法、调度器及系统
US10027557B2 (en) Method for transmitting data streams through a telecommunication network
CN110351204A (zh) 云数据中心网络资源动态分配的方法及系统
CN114938374A (zh) 跨协议负载均衡方法及系统
Li et al. Distributed rate allocation for flows in best path transfer using SCTP multihoming
Pan et al. Orchestrating probabilistic in-band network telemetry for network monitoring
CN108040018A (zh) 一种网络功能虚拟化下的细粒度网络流调度方法及系统
Fang et al. GOAT: Gradient Scheduling with Collaborative In-Network Aggregation for Distributed Training
Lu et al. On maximum elastic scheduling in cloud-based data center networks for virtual machines with the hose model
Luo et al. Flexible and efficient multicast transfers in inter-datacenter networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant