CN110933000A - 分布式数据多阶段聚合方法、设备、服务器和存储介质 - Google Patents

分布式数据多阶段聚合方法、设备、服务器和存储介质 Download PDF

Info

Publication number
CN110933000A
CN110933000A CN201911024064.4A CN201911024064A CN110933000A CN 110933000 A CN110933000 A CN 110933000A CN 201911024064 A CN201911024064 A CN 201911024064A CN 110933000 A CN110933000 A CN 110933000A
Authority
CN
China
Prior art keywords
center
stage
edge computing
aggregation
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911024064.4A
Other languages
English (en)
Other versions
CN110933000B (zh
Inventor
纪越峰
张佳玮
刘真
柏琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911024064.4A priority Critical patent/CN110933000B/zh
Publication of CN110933000A publication Critical patent/CN110933000A/zh
Application granted granted Critical
Publication of CN110933000B publication Critical patent/CN110933000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/41Flow control; Congestion control by acting on aggregated flows or links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/125Shortest path evaluation based on throughput or bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/827Aggregation of resource allocation or reservation requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及互联网技术领域,特别涉及一种分布式数据多阶段聚合方法、设备、服务器和存储介质,用以解决任务响应效率有待提升的技术问题。该方法基于当前光网络的多个边缘计算中心,执行多个阶段的聚合;每个阶段的聚合包括:根据当前光网络中各个边缘计算中心的资源现状,从多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点;调整当前阶段对应的多个初始聚类中心节点,获得多个聚类中心节点;基于多个聚类中心节点,确定当前阶段对应的最优分组数;根据最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。该方法能够有效地降低任务响应时延。

Description

分布式数据多阶段聚合方法、设备、服务器和存储介质
技术领域
本申请涉及互联网技术领域,特别涉及一种分布式数据多阶段聚合方法、设备、服务器和存储介质。
背景技术
随着物联网的发展,大量跨异地分布的物联网用户、物联网设备和传感器等产生大量数据。伴随物联网中数据的快速增长,以及新兴服务在延迟和带宽方面的需求,使得云计算面临着严峻的挑战。一方面,移动终端需要与位于核心网的云数据中心交互数据,数据传输距离相对较远,难以满足超低时延的业务需求;另一方面,由于智能终端和物联网终端的数量急剧增加,在网络高峰时期,核心网要承载大量的数据交互,难以实现大带宽、大规模连接的业务需求。
为了解决上述问题,ETSI(欧洲电信标准化协会,European TelecommunicationsStandards Institute)提出了支持服务边缘化的边缘计算技术。相对于传统云计算,边缘计算将数据存储和处理转移到靠近用户的边缘网络上,不再需要将数据经过核心网传送到远端的核心管理平台,从而降低了核心网的带宽占用,并且减小了业务在网络中的传输时延。
在边缘计算互联网络中,为了保证时延和带宽需求,数据源将生成的数据发送到距离其最近的边缘计算中心内。因此,为了获取全面、多样的分析结果,对跨异地存储的数据进行高效的数据分析是必要的。主流的方法是将所需的所有跨异地存储的数据通过网络经过一次聚合,传送到一个边缘计算中心内进行分析。具体地,跨异地数据的聚合是指将多个存储在不同边缘计算中心的数据通过边缘光网络传送到一个目标边缘计算中心内,在目标边缘计算中心内对数据进行聚合,将最终聚合结果返回给业务请求。
例如,如图1和图2所示,现有技术中,一种基于边缘计算互联网络执行跨异地数据聚合的方案中,设定任务A所需的数据存储在边缘计算中心1,2…n中,任务A包括多个子任务A1、A2、A3…An,通过光网络将任务A所需的数据传送到边缘计算中心3内进行聚合。任务A的完成时间取决于最慢到达聚合计算中心的子任务。如图2所示,子任务A1、子任务A2和子任务An分别在时间t3、t1和t2到达聚合边缘计算中心3。由于子任务A1到达聚合计算中心的时间最晚,则任务A在边缘计算中心3内开始进行数据聚合的时间为t3,最终完成任务A的时间为T。这种跨异地数据聚合方案,为一种单阶段聚合方案,首先确定出一个聚合计算中心,将多个边缘计算中心的数据均经过一次聚合传送到聚合计算中心内。
这种单阶段传送的跨异地数据聚合方案,没有考虑存储所需数据的边缘计算中心的数量和位置,也未考虑到单个边缘计算中心的处理能力和聚合计算中心附近网络资源的限制,具有以下弊端:
第一,由于数据存储在多个不同的边缘计算中心内,当某些存储有所需数据的边缘计算节点距离聚合中心较远时,会导致网络中传送时延较长,占用网络链路过多,从而影响业务响应时延;第二,当存储业务所需数据的边缘计算中心较多时,需要把多个边缘计算中心的数据均传送到一个聚合计算中心,导致聚合计算中心附近网络资源竞争严峻,从而导致发送时延过长;第三,边缘计算中心的处理和存储能力有限,将大量数据同时传送到单个边缘计算中心内处理,导致处理时延过长。
可见,现有技术中的跨异地数据聚合方案,未能充分考虑网络资源中的各个边缘计算中心的处理能力和聚合计算中心的资源竞争,影响了任务的响应时延,拖慢了任务响应的效率,存在一定的局限性,难以有效应对跨异地数据量呈指数增长的趋势。
因此,需要提出一种更为优化的跨异地数据聚合方案,以克服上述缺陷。
发明内容
本申请实施例提供一种分布式数据多阶段聚合方法、设备、服务器和存储介质,用以解决现有技术中存在的技术问题。
本申请实施例提供的具体技术方案如下:
本申请实施例的第一个方面,提供一种分布式数据多阶段聚合方法,基于当前光网络的多个边缘计算中心,执行多个阶段的聚合;其中,每个阶段的聚合包括:
根据当前光网络中各个边缘计算中心的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点;
调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点;
基于所述多个聚类中心节点,确定当前阶段对应的最优分组数;
根据所述最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。
可选的,根据当前光网络的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点,具体包括:
在根据存储有待处理任务所需数据的每个边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的网络节点度,联合确定当前阶段的第一个初始聚类中心节点;
将距离所述第一个初始聚类中心节点最远的边缘计算中心确定为第二个初始聚类中心节点;
依次计算第k个初始聚类中心节点的位置,获得多个初始聚类中心节点。
可选的,调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点,具体包括:
将与每个所述初始聚类中心节点的距离值最小的边缘计算中心,与对应的所述初始聚类中心划分为一个初始组,构成与所述多个初始聚类中心分别对应的多个初始组;
针对每个初始组,分别执行以下步骤:
在每个初始组内,根据所述初始组内存储有待处理数据的边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前初始组内的聚类中心节点;
获得与多个所述初始组分别对应的多个聚类中心节点。
可选的,基于所述多个聚类中心节点,确定当前阶段对应的最优分组数,具体包括:
设置样本xr,根据下式计算样本xr与所述聚类中心节点的距离dk,r
Figure BDA0002248125540000041
根据下式中基于样本组间统计信息和组内统计信息的判断样本最佳分组数的聚类有效性函数F统计量FS,确定当前阶段的最优分组数h;
Figure BDA0002248125540000042
其中,上式中的分子式中,分母表示初始组间的分布距离;分子表示初始组内的分布距离;r表示以边缘数据中心k为聚类中心的组内的第r个样本边缘数据中心,Rm表示当前阶段存储有当前任务所需数据的边缘计算中心的集合,po表示位于初始组所包括的网络中心的边缘计算中心的位置,|gm k|表示以边缘计算中心k为聚类中心节点的初始组内,边缘计算中心的个数,|Rm|表示当前阶段存储有当前任务所需数据的边缘计算中心的数量。
可选的,确定当前阶段对应的最优分组数之后,进一步包括:
计算当前阶段的聚合方案下对任务的响应时延;
结束聚合之后,进一步包括:
将多个阶段的所述响应时延进行汇总,得到综合响应时延。
可选的,计算当前阶段的聚合方案下对任务的响应时延,具体包括:
对于第一阶段,基于第一阶段的最优分组数,计算相应的聚合时延和网络时延;综合所述聚合时延和网络时延,得到第一阶段对应的响应时延;
对于第m个阶段,更新由于第m-1阶段的聚合而变化的参数,基于第m个阶段的最优分组数,计算相应的聚合时延和网络时延,综合所述聚合时延和网络时延,得到第m个阶段对应的响应时延。
本申请实施例的第二个方面,提供一种分布式数据多阶段聚合设备,包括:
聚合模块,用于基于当前网络的多个边缘计算中心,执行多个阶段的聚合;其中,每个阶段的聚合包括以下步骤:
从所述多个边缘计算中心中,确定出当前阶段对应的多个初始聚类中心节点;调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点;基于所述多个聚类中心节点,确定当前阶段对应的最优分组数;根据所述最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。
可选的,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点时,所述聚合单元,具体用于:
在根据存储有待处理数据的每个边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前阶段的第一个初始聚类中心节点;
将距离所述第一个初始聚类中心节点最远的边缘计算中心确定为第二个初始聚类中心节点;
依次计算第k个初始聚类中心节点的位置,获得多个初始聚类中心节点。
本申请实施例的第三个方面,提供一种服务器,包括存储器和处理器;
所述存储器,用于存储可执行指令;
所述处理器,用于读取并执行存储器中存储的可执行指令,以实现如上述任一项所述的方法。
本申请实施例的第四个方面,提供一种存储介质,当存储介质中的指令由处理器执行时,能够执行如上述任一项所述的方法。
本申请实施例中提出的分布式数据多阶段聚合方法,基于当前光网络的多个边缘计算中心,执行多个阶段的聚合;其中,执行一个阶段的聚合时,首先根据当前光网络的各个边缘计算中心的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点,再调整当前阶段对应的所述多个初始聚类中心节点,基于获得的多个聚类中心节点,确定当前阶段对应的最优分组数;基于所述最优分组数,执行待处理任务所需数据的聚合;当待处理任务所需数据汇聚到一个边缘计算中心时,是,则结束聚合,如此,该方法考虑光网络中的边缘计算中心的资源现状,经过多个阶段的聚合,在上一个阶段的基础上进一步优化聚合方案,直到任务所需的数据均能聚合到一个边缘计算中心时,则以当下聚合方案作为执行待处理任务的聚合方案,来响应待处理任务,经多次仿真实验表明,该方法相比于现有技术中的单阶段聚合方式,响应时延有所降低。
附图说明
图1为现有技术中边缘计算互联网络中跨异地数据聚合示意图;
图2为现有技术中跨异地数据聚合的时延示意图;
图3为本申请实施例中分布式数据多阶段聚合方法的流程示意图;
图4为本申请实施例中分布式数据多阶段聚合方法一个完整实施例的流程示意图;
图5为本申请实施例中分布式数据多阶段聚合方法另一个完整实施例的流程示意图。
具体实施方式
在跨异地数据的聚合过程中,会产生网络中传输时延和在目标数据中心的聚合时延,而由于跨异地分布的数据大小、存储位置和所在边缘计算中心的计算能力等均存在差异,因此需要确定数据在网络传送过程中的最优传送路径以及聚合计算中心,以尽量降低任务响应时延,提升任务响应效率。
为了解决现有技术中存在的任务响应效率有待进一步提升的技术问题,本申请实施例中,提出了一种分布式数据多阶段聚合方法、设备、服务器和存储介质。
本申请实施例中,通过联合考虑各数据存储节点(即边缘计算中心)的容量、网络的带宽以及各数据存储节点相对位置,提出了一种跨异地数据多阶段分组与聚合方案,主要面向边缘计算互联光网络架构,该架构中包含多个边缘计算节点,各节点之间通过光纤连接。其中,某些边缘计算节点处部署有边缘计算中心,每个边缘计算中心内存储有不同的数据,业务请求的数据存储在多个边缘计算中心内。
下面结合附图对本申请可选的实施方式作出进一步详细说明:
参阅图3所示,本申请实施例提供的一种分布式数据多阶段聚合方法,基于当前光网络的多个边缘计算中心,执行多个阶段的聚合。其中,每个阶段下进行聚合的具体流程如下:
S301:根据当前光网络中各个边缘计算中心的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点。
边缘计算中心的资源现状,包括边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量、以及边缘计算中心的节点度中的任意一种或任意组合。
具体地,作为一种可实施方式,根据当前光网络中各个边缘计算中心的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点,包括:
在根据存储有待处理任务所需数据的每个边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前阶段的第一个初始聚类中心节点;将距离所述第一个初始聚类中心节点最远的边缘计算中心确定为第二个初始聚类中心节点;依次计算第k个初始聚类中心节点的位置,获得多个初始聚类中心节点。其中,k为正整数,且k≥3。
S302:调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点。
具体地,作为一种可实施方式,按照如下方式调整当前阶段对应的所述多个初始聚类中心节点,以获得多个聚类中心节点:
计算每个边缘数据中心与各个初始聚类中心的最短路径上的距离,将边缘数据中心与距离最近的初始聚类中心划分为距离值小于预设距离值一个初始组,即,确定一个初始聚类中心后,从该初始聚类中心周围的多个边缘计算中心中选择出一个与该初始聚类中心距离最近的边缘计算中心,与该初始聚类中心划分进一个初始组,从而构成与多个初始聚类中心分别对应的多个初始组。
并且,针对每个初始组,分别执行以下步骤:
在每个初始组内,根据所述初始组内存储有待处理数据的边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前初始组内的聚类中心节点;获得与多个所述初始组分别对应的多个聚类中心节点。
S303:基于所述多个聚类中心节点,确定当前阶段对应的最优分组数。
具体地,作为一种可实施方式,按照如下方式确定当前阶段对应的最优分组数:
设置样本xr,根据下式计算样本xr与所述聚类中心节点的距离dk,r
Figure BDA0002248125540000091
根据下式中基于样本组间统计信息和组内统计信息的判断样本最佳分组数的聚类有效性函数F统计量FS,确定当前阶段的最优分组数h;
Figure BDA0002248125540000092
其中,上式中的分子式中,分母表示初始组间的分布距离;分子表示初始组内的分布距离;r表示以边缘数据中心k为聚类中心的组内的第r个样本边缘数据中心,Rm表示当前阶段存储有当前任务所需数据的边缘计算中心的集合,po表示位于初始组所包括的网络中心的边缘计算中心的位置,
Figure BDA0002248125540000093
表示以边缘计算中心k为聚类中心节点的初始组内,边缘计算中心的个数,
Figure BDA0002248125540000094
表示当前阶段存储有当前任务所需数据的边缘计算中心的数量。
可选的,在该步骤中,还计算当前阶段的聚合方案下对任务的响应时延。
具体地,作为一种可实施方式,按照如下方式计算响应时延:
对于第一阶段,基于第一阶段的最优分组数,计算相应的聚合时延和网络时延;综合所述聚合时延和网络时延,得到第一阶段对应的响应时延;
对于第m个阶段,更新由于第m-1阶段的聚合而变化的参数,基于第m个阶段的最优分组数,计算相应的聚合时延和网络时延,综合所述聚合时延和网络时延,得到第m个阶段对应的响应时延。其中m为正整数,且m≥2。
S304:根据所述最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。
需要说明的是,本步骤判断待处理任务所需数据是否汇聚到一个边缘计算中心,可以是依据确定最优分组数后的当前光网络的聚合方案,判断是否能够将任务所需的数据全部汇聚到一个边缘计算中心,是,则说明当前聚合方案可行,不能,则说明需要继续聚合。
可选的,在结束聚合之后,进一步包括:将多个阶段的所述响应时延进行汇总,得到综合响应时延。
下面列举本申请实施例提供的分布式数据多阶段聚合方法的一个完整实施例:
参见图4所示,在该实施例中,主要包括以下步骤:
S401:确定每阶段中初始聚类中心节点。
首先,定义聚合方案的基础输入参数,例如,初始聚类中心节点的集合R,在阶段m初始聚类中心节点的集合Rm,在边缘计算中心(初始聚类中心节点)r内存储的任务请求的原始数据的数据量Dr,经过m次聚合后,存储在聚合中心r内的中间结果的数据量
Figure BDA0002248125540000101
在m阶段子任务分成的组的集合Gm,在m阶段聚合时以边缘计算中心r为聚合节点的组
Figure BDA0002248125540000102
两个边缘计算中心之间第k条路径的距离
Figure BDA0002248125540000103
数据在光纤内传输的速率v(5us/km),两个边缘计算中心之间第k条路径上的可用时隙数
Figure BDA0002248125540000104
每个频谱时隙的容量Cslot,第m阶段聚合时聚合节点的集合Nm,以及数据聚合因子Sa
具体地,根据存储有待处理任务所需数据的每个边缘计算中心的容量(AC)、该边缘计算中心与边缘计算中心之间最短路径上的最大可用带宽(ASPB)、每个边缘计算中心内存储的数据量(D),以及边缘计算中心的网络节点度(Deg),联合确定每个阶段的第一个初始聚类中心节点
Figure BDA0002248125540000105
其中网络节点度,即网络中与边缘数据中心直接相连的链路数目。
作为一种可实施方式,根据公式(1)计算各个边缘计算中心的w值,选择具有最大w值的边缘计算中心作为第一个初始聚类中心节点;
Figure BDA0002248125540000106
其中,Degr表示第r个边缘计算中心的节点度;ASPBr表示第r个边缘计算中心的最大可用带宽;ACr表示第r个边缘计算中心的容量;Dr表示第r个边缘计算中心的数据量;R表示初始聚类中心节点的集合,Rm表示在阶段m初始聚类中心节点的集合。
然后,为了避免所有的初始聚类中心节点聚集到一个区域,将距离第一个聚类中心节点最远的边缘计算中心确定为第二个初始聚类节点,其位置为
Figure BDA0002248125540000111
依次根据公式(2)计算边缘数据中心k和其它已经确定聚类中心之间的最短路径的距离之和Lk,选择Lk最大的边缘数据中心k作为第k(k≥3)个聚类中心节点的位置
Figure BDA0002248125540000112
Figure BDA0002248125540000113
Figure BDA0002248125540000114
表示已经确定的初始聚类中心节点的位置。
之后,将初始距离聚类中心节点较近的边缘计算中心划分为一个组,例如,将周边的边缘计算中心,按照与初始聚类中心节点的距离值,从小到大排序,确定前5-10个边缘计算中心划分为一个初始组,从而构成K个初始组。
S402:调整每阶段每组的聚类中心节点。
根据步骤S401确定的每阶段子任务分成的初始组,对每个初始组内的初始聚类中心节点进行重新调整,得到每个初始组的聚类中心节点
Figure BDA0002248125540000115
具体地,在每个初始组内,可按照根据公式(1)重新确定每个组的实际的聚类中心节点。
S403:确定每阶段聚合的最优分组数。
首先,根据公式(3)计算样本xr与聚类中心节点的距离计算dk,r;然后,根据公式(4)中的F统计量(FS)确定每个阶段的最优分组数h。
Figure BDA0002248125540000116
Figure BDA0002248125540000121
其中,分母表示初始组间的分布距离;分子表示初始组内的分布距离;r表示以边缘数据中心k为聚类中心的组内的第r个样本边缘数据中心,Rm表示当前阶段存储有当前任务所需数据的边缘计算中心的集合,po表示位于初始组所包括的网络中心的边缘计算中心的位置,
Figure BDA0002248125540000122
表示以边缘计算中心k为聚类中心节点的初始组内,边缘计算中心的个数,|Rm|表示当前阶段存储有当前任务所需数据的边缘计算中心的数量。
S404:计算每阶段的时延及任务的响应时延。
本申请实施例中,响应时延包括边缘计算中心内数据的聚合时延、网络中的传输时延以及网络中数据的发送时延,其中聚合时延与待聚合的数据量大小和聚合节点的处理能力相关;传输时延与路径长度相关;发送时延与发送的数据量大小和路径上可用带宽相关。
首先,计算第一阶段的响应时延。基于第1阶段的最优分组数K,计算相应的聚合时间、发送时延和传输时间。
其中,第1阶段聚合时,以边缘计算中心r为聚合中心的第g组的聚合时间:
Figure BDA0002248125540000123
第1阶段聚合时,以边缘计算中心r为聚合中心的第g组中存储在边缘数据中心r’内的数据的发送时延:
Figure BDA0002248125540000131
第1阶段聚合时,以边缘计算中心r为聚合中心的第g组中存储在边缘数据中心r’内的数据的传播时延:
Figure BDA0002248125540000132
则第1阶段聚合时,以边缘计算中心r为聚合中心的第g组的网络时延为:
Figure BDA0002248125540000133
综上,第一阶段聚合中每组的时延:
Figure BDA0002248125540000134
然后,计算第m阶段的聚合时延和网络时延。
由于第一阶段聚合后,边缘计算中心集合和子任务集合中数据量发生变化,因此根据公式(10)计算第m阶段聚合后,以边缘计算中心r为聚合中心的边缘计算中心上的数据量大小为:
Figure BDA0002248125540000135
第m阶段聚合时,以边缘计算中心r为聚合中心节点的第g组的处理时延:
Figure BDA0002248125540000136
第m阶段聚合时,以边缘计算中心r为聚合中心节点的第g组的网络时延:
Figure BDA0002248125540000141
综上,第m阶段聚合中每组的时延:
Figure BDA0002248125540000142
最后,经过m阶段聚合后,所有的数据聚合到一个边缘计算节点,则任务的响应时延为:
Figure BDA0002248125540000143
计算响应时延的目的在于验证本申请聚合方案的有效性,以响应时延作为反馈信息,来进一步调整聚合的相关参数,得到更优化的聚合方案。
下面再列举本申请实施例提供的分布式数据多阶段聚合方法的另一个完整实施例:
参阅图5所示,该实施例主要包括步骤:
初始化第m阶段的聚类数K=1;
计算各个边缘计算中心之间的可用带宽及最短路径的距离;
基于边缘计算中心的可用带宽和最短路径的距离,确定K个初始聚类中心;确定方法同上述实施例,此处不再赘述;
调整K个聚类中心节点;调整方法同上述实施例,此处不再赘述;
设置样本,根据公式(3)计算样本与聚类中心节点的距离;
根据F统计量,计算FS;
判断当前聚类数目K是否等于预先设定的最大聚类个数,否,则执行K=K+1,并返回重新确定K个聚类中心节点;
是,则比较第m阶段的响应时延;具体计算方式同上述实施例,不再赘述;
判断所有的数据是否汇聚到一个边缘计算中心,是,则计算任务的响应时延,否,则返回第一个步骤进行初始化。
基于同一发明构思,本申请实施例还提供一种分布式数据多阶段聚合设备,包括:
聚合模块,用于基于当前网络的多个边缘计算中心,执行多个阶段的聚合;其中,每个阶段的聚合包括以下步骤:
从所述多个边缘计算中心中,确定出当前阶段对应的多个初始聚类中心节点;调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点;基于所述多个聚类中心节点,确定当前阶段对应的最优分组数;根据所述最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。
可选的,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点时,所述聚合单元,具体用于:
在根据存储有待处理数据的每个边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前阶段的第一个初始聚类中心节点;
将距离所述第一个初始聚类中心节点最远的边缘计算中心确定为第二个初始聚类中心节点;
依次计算第k个初始聚类中心节点的位置,获得多个初始聚类中心节点。
基于同一发明构思,本申请实施例中提出一种服务器,至少包括:存储器和处理器,其中,
存储器,用于存储可执行指令;
处理器,用于读取并执行存储器中存储的可执行指令,以实现上述实施例涉及到的任一种密钥管理方法;或者,以实现上述实施例涉及到的任一种分布式数据多阶段聚合方法。
基于同一发明构思,本申请实施例提供一种存储介质,当存储介质中的指令由处理器执行时,使得能够执行上述实施例涉及到的任一种分布式数据多阶段聚合方法。
本申请实施例中,与现有的边缘计算互联网络中跨异地数据聚合方案相比,为了避免距离较远的两个边缘计算中心传输数据,以及减缓与聚类中心节点直接相连的链路上的资源竞争,本申请通过联合考虑各数据存储节点的容量、网络的带宽以及各数据存储节点相对位置,提出了一种根据存储所需数据的边缘计算中心的数量与位置自适应确定跨异地数据聚合的优化处理方案,能够降低业务的响应时延,提升任务响应效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种分布式数据多阶段聚合方法,其特征在于,基于当前光网络的多个边缘计算中心,执行多个阶段的聚合;其中,每个阶段的聚合包括:
根据当前光网络中各个边缘计算中心的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点;
调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点;
基于所述多个聚类中心节点,确定当前阶段对应的最优分组数;
根据所述最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。
2.如权利要求1所述的方法,其特征在于,根据当前光网络的资源现状,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点,具体包括:
在根据存储有待处理任务所需数据的每个边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的网络节点度,联合确定当前阶段的第一个初始聚类中心节点;
将距离所述第一个初始聚类中心节点最远的边缘计算中心确定为第二个初始聚类中心节点;
依次计算第k个初始聚类中心节点的位置,获得多个初始聚类中心节点。
3.如权利要求1所述的方法,其特征在于,调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点,具体包括:
将与每个所述初始聚类中心节点的距离值最小的边缘计算中心,与对应的所述初始聚类中心划分为一个初始组,构成与所述多个初始聚类中心分别对应的多个初始组;
针对每个初始组,分别执行以下步骤:
在每个初始组内,根据所述初始组内存储有待处理数据的边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前初始组内的聚类中心节点;
获得与多个所述初始组分别对应的多个聚类中心节点。
4.如权利要求1所述的方法,其特征在于,基于所述多个聚类中心节点,确定当前阶段对应的最优分组数,具体包括:
设置样本xr,根据下式计算样本xr与所述聚类中心节点的距离dk,r
Figure FDA0002248125530000021
根据下式中基于样本组间统计信息和组内统计信息的判断样本最佳分组数的聚类有效性函数F统计量FS,确定当前阶段的最优分组数h;
Figure FDA0002248125530000022
其中,上式中的分子式中,分母表示初始组间的分布距离;分子表示初始组内的分布距离;r表示以边缘数据中心k为聚类中心的组内的第r个样本边缘数据中心,Rm表示当前阶段存储有当前任务所需数据的边缘计算中心的集合,po表示位于初始组所包括的网络中心的边缘计算中心的位置,
Figure FDA0002248125530000023
表示以边缘计算中心k为聚类中心节点的初始组内,边缘计算中心的个数,|Rm|表示当前阶段存储有当前任务所需数据的边缘计算中心的数量。
5.如权利要求1-4任一项所述的方法,其特征在于,确定当前阶段对应的最优分组数之后,进一步包括:
计算当前阶段的聚合方案下对任务的响应时延;
结束聚合之后,进一步包括:
将多个阶段的所述响应时延进行汇总,得到综合响应时延。
6.如权利要求5所述的方法,其特征在于,计算当前阶段的聚合方案下对任务的响应时延,具体包括:
对于第一阶段,基于第一阶段的最优分组数,计算相应的聚合时延和网络时延;综合所述聚合时延和网络时延,得到第一阶段对应的响应时延;
对于第m个阶段,更新由于第m-1阶段的聚合而变化的参数,基于第m个阶段的最优分组数,计算相应的聚合时延和网络时延,综合所述聚合时延和网络时延,得到第m个阶段对应的响应时延。
7.一种分布式数据多阶段聚合设备,其特征在于,包括:
聚合模块,用于基于当前网络的多个边缘计算中心,执行多个阶段的聚合;其中,每个阶段的聚合包括以下步骤:
从所述多个边缘计算中心中,确定出当前阶段对应的多个初始聚类中心节点;调整当前阶段对应的所述多个初始聚类中心节点,获得多个聚类中心节点;基于所述多个聚类中心节点,确定当前阶段对应的最优分组数;根据所述最优分组数对应的聚合方案,判断待处理任务所需数据是否汇聚到一个边缘计算中心,是,则结束聚合;否,则进行下一个阶段的聚合。
8.如权利要求7所述的设备,其特征在于,从所述多个边缘计算中心,确定出当前阶段对应的多个初始聚类中心节点时,所述聚合单元,具体用于:
在根据存储有待处理数据的每个边缘计算中心的容量、每个所述边缘计算中心与相邻的边缘计算中心之间的最短路径上的最大可用带宽、每个所述边缘计算中心内存储的数据量,以及边缘计算中心的节点度,联合确定当前阶段的第一个初始聚类中心节点;
将距离所述第一个初始聚类中心节点最远的边缘计算中心确定为第二个初始聚类中心节点;
依次计算第k个初始聚类中心节点的位置,获得多个初始聚类中心节点。
9.一种服务器,其特征在于,包括存储器和处理器;
所述存储器,用于存储可执行指令;
所述处理器,用于读取并执行存储器中存储的可执行指令,以实现如权利要求1-6任一项所述的方法。
10.一种存储介质,其特征在于,当存储介质中的指令由处理器执行时,能够执行如权利要求1-6任一项所述的方法。
CN201911024064.4A 2019-10-25 2019-10-25 分布式数据多阶段聚合方法、设备、服务器和存储介质 Active CN110933000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911024064.4A CN110933000B (zh) 2019-10-25 2019-10-25 分布式数据多阶段聚合方法、设备、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911024064.4A CN110933000B (zh) 2019-10-25 2019-10-25 分布式数据多阶段聚合方法、设备、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN110933000A true CN110933000A (zh) 2020-03-27
CN110933000B CN110933000B (zh) 2022-04-19

Family

ID=69849449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911024064.4A Active CN110933000B (zh) 2019-10-25 2019-10-25 分布式数据多阶段聚合方法、设备、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN110933000B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448893A (zh) * 2021-12-24 2022-05-06 天翼云科技有限公司 一种cdn节点任务下发的聚合方法、装置及计算机设备
CN114531276A (zh) * 2022-01-20 2022-05-24 山东大学 一种基于聚合流量的网络流量隐私保护方法
CN115134410A (zh) * 2022-05-18 2022-09-30 北京邮电大学 边缘协作服务领域划分方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109975A (zh) * 2019-05-14 2019-08-09 重庆紫光华山智安科技有限公司 数据聚类方法及装置
US20190288934A1 (en) * 2018-03-14 2019-09-19 International Business Machines Corporation Dynamically redirecting affiliated data to an edge computing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190288934A1 (en) * 2018-03-14 2019-09-19 International Business Machines Corporation Dynamically redirecting affiliated data to an edge computing device
CN110109975A (zh) * 2019-05-14 2019-08-09 重庆紫光华山智安科技有限公司 数据聚类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
W-JLIN: "K-means聚类算法中K的确定及初始簇中心的选择https://blog.csdn.net/u012197703/article/details/79434005?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242", 《CSDN》 *
薛瑞: "基于K-means算法的边缘服务器部署研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448893A (zh) * 2021-12-24 2022-05-06 天翼云科技有限公司 一种cdn节点任务下发的聚合方法、装置及计算机设备
CN114531276A (zh) * 2022-01-20 2022-05-24 山东大学 一种基于聚合流量的网络流量隐私保护方法
CN115134410A (zh) * 2022-05-18 2022-09-30 北京邮电大学 边缘协作服务领域划分方法、装置、电子设备及存储介质
CN115134410B (zh) * 2022-05-18 2023-11-10 北京邮电大学 边缘协作服务领域划分方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110933000B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN108540406B (zh) 一种基于混合云计算的网络卸载方法
CN110933000B (zh) 分布式数据多阶段聚合方法、设备、服务器和存储介质
US11514309B2 (en) Method and apparatus for accelerating distributed training of a deep neural network
CN113708972B (zh) 一种服务功能链部署方法、装置、电子设备及存储介质
CN114338504B (zh) 一种基于网络边缘系统的微服务部署和路由方法
CN113115252B (zh) 延迟敏感任务分布式移动边缘计算资源调度方法及系统
CN110570075B (zh) 一种电力业务边缘计算任务分配方法及装置
US11411865B2 (en) Network resource scheduling method, apparatus, electronic device and storage medium
CN105677447B (zh) 分布式云中基于聚类的时延带宽极小化虚拟机部署方法
CN112118312A (zh) 一种面向边缘服务器的网络突发负载疏散方法
CN111371616A (zh) 一种面向numa架构服务器的虚拟网络功能链部署方法和系统
US20150212973A1 (en) Integrated utility based data processing methods
CN110780985A (zh) 一种有限时间的并行任务调度方法与装置
US9591067B2 (en) Methods and apparatus for allocating cloud-based media resources
CN109361547A (zh) 一种网络切片链路部署方法与装置
WO2022166348A1 (zh) 路由方法、路由装置、控制器和计算机可读存储介质
CN109041236B (zh) 一种不同权重业务的无线资源分配方法及装置
CN107239407B (zh) 一种内存的无线访问方法和装置
CN116367223B (zh) 基于强化学习的xr服务优化方法、装置、电子设备和存储介质
JP2020003860A (ja) 学習システム、処理装置、処理方法、およびプログラム
WO2023184009A1 (en) Systems and methods for cluster-based parallel split learning
CN104660525B (zh) 一种带宽分配方法、控制器及通信系统
CN113949666A (zh) 流量控制方法、装置、设备及系统
CN117527590B (zh) 基于边缘网络的微服务部署与请求路由方法、系统及介质
CN117201319B (zh) 一种基于边缘计算的微服务部署方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant