CN111158902B - 一种移动边缘分布式机器学习系统和方法 - Google Patents

一种移动边缘分布式机器学习系统和方法 Download PDF

Info

Publication number
CN111158902B
CN111158902B CN201911249922.5A CN201911249922A CN111158902B CN 111158902 B CN111158902 B CN 111158902B CN 201911249922 A CN201911249922 A CN 201911249922A CN 111158902 B CN111158902 B CN 111158902B
Authority
CN
China
Prior art keywords
module
communication
data
model parameter
submodule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201911249922.5A
Other languages
English (en)
Other versions
CN111158902A (zh
Inventor
许杰
蔡晓然
莫小鹏
陈俊阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201911249922.5A priority Critical patent/CN111158902B/zh
Publication of CN111158902A publication Critical patent/CN111158902A/zh
Application granted granted Critical
Publication of CN111158902B publication Critical patent/CN111158902B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种移动边缘分布式机器学习系统和方法,方法中,终端设备间利用D2D通信技术进行数据样本卸载,通过调节参与分布式机器学习的终端设备存储的数据样本数量,使得各终端设备的数据样本量与其计算能力相匹配,平衡了各终端设备的计算和通信所消耗的时间,解决了不同终端设备计算和通信能力差异大带来分布式机器学习模型训练效率低下的问题,同时能够降低数据非独立同分布特性对模型准确度的影响。

Description

一种移动边缘分布式机器学习系统和方法
技术领域
本发明涉及边缘智能应用的技术领域,尤其涉及到一种移动边缘分布式机器学习系统和方法。
背景技术
随着物联网和人工智能的快速发展,网络边缘智能化已是一个必然的发展趋势。分布式机器学习(distributed machine learning)是其中的一个重要研究方向,其有效结合人工智能(artificial intelligence,AI)和移动边缘计算(mobile edge computing,MEC)技术,在网络边缘,通过联合边缘服务器和海量的计算和通信能力有限的终端设备实现分布式机器学习。分布式机器学习可分为同步和异步两种训练模式,由于异步训练模式存在很严重的梯度失效问题,因此许多研究工作基于同步训练模式的分布式机器学习进行。本发明亦基于同步训练模式的分布式机器学习进行设计,下文若无说明,分布式机器学习均指代同步训练模式的分布式机器学习。
先对分布式机器学习的基本模型与实施步骤进行介绍。假设有一个边缘服务器和K个终端设备参与分布式机器学习。设终端设备k存有的数据样本集为
Figure BDA0002308739450000011
其数量为Dk。对于任意一条数据样本d,通常由特征向量xd和标签yd组成,特征向量xd作为模型训练的输入,标签yd作为模型结果的输出。机器学习模型通常使用损失函数f(w,d)(简写为fd(w))来描述机器学习模型性能的好坏,其中w为模型参数。机器学习的目标是最小化损失函数fd(w)。不同的机器学习模型其损失函数的表达式也各不相同。
在终端设备k中,根据其本地存储的数据样本集
Figure BDA0002308739450000012
可得其本地损失函数Fk(wk)如下:
Figure BDA0002308739450000021
其中,wk为终端设备k的本地模型参数。在边缘服务器,其全局损失函数F(ws)为:
Figure BDA0002308739450000022
其中,
Figure BDA0002308739450000023
为全局模型参数。
分布式机器学习的目标是最小化全局损失函数F(ws),通常可以使用分布式梯度下降算法实现。实现分布式梯度下降算法按如下四个步骤迭代进行:
1、边缘服务器广播全局模型参数给参与分布式机器学习的K个终端设备;
2、K个终端设备以接收到的全局模型参数为新的更新起点,利用存储在自身的数据样本进行一次或多次的梯度更新(在本实施例中使用批量梯度下降(batch gradientdescent,BGD),即使用所有数据样本进行一次梯度更新),得到更新的本地模型参数,将此过程称为本地模型参数更新;
3、K个终端设备利用频分多址接入(frequency divisionmultiple access,FDMA)技术将其本地模型参数上传到边缘服务器(实施例中使用FDMA技术,但其实不仅局限于FDMA这种多址接入技术,其他多址接入技术也是同样适用于本发明);
4、边缘服务器对接收到的本地模型参数进行加权平均操作,将此过程称为全局模型参数聚合。
然而,由于终端设备计算和通信能力的差异,计算和通信能力较强的终端设备需要等待计算和通信能力最弱的终端设备完成其本地模型参数上传,才能开始下一轮的本地模型参数更新,这造成了计算资源的浪费,降低了分布式机器学习模型训练的效率。因此,如何平衡不同终端设备之间的计算和通信能力的差异来减少计算和通信资源的浪费和提高分布式机器学习模型训练的效率,是一个亟待解决的关键问题。
现有一种自适应任务分配的移动分布式机器学习系统。该系统由边缘服务器和多个终端设备组成。参与分布式机器学习的终端设备发送自身的计算能力的数据给边缘服务器,边缘服务器根据各终端设备的计算能力,对存储在边缘服务器上的数据样本分配进行优化,在给定时间约束下最大化各终端设备进行本地模型参数更新的次数,以最大化分布式机器学习模型训练的准确率。
但该分布式机器学习技术考虑的场景是数据样本存储在边缘服务器上,但通常实际场景中数据样本产生于终端设备中,且边缘服务器的计算能力远强于终端设备的计算能力,边缘服务器直接利用存储在其本地的数据样本进行集中式机器学习比将数据样本分发给多个终端设备进行分布式机器学习的效率和性能都要高,因此该分布式机器学习技术的使用场景有失偏颇,并且该分布式机器学习技术主要关注于分布式机器学习模型训练的准确率,而本发明适用于多个产生并存储数据样本的终端设备,且重点关注模型训练效率。而其他一些分布式机器学习技术主要关注系统中的通信效率问题,而忽略了参与学习的各终端设备之间计算与通信能力的差异对模型训练效率的影响,同时难以克服数据非独立同分布特性对模型训练准确度的影响。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能解决不同终端设备计算和通信能力差异大带来的分布式机器学习模型训练效率低下的问题,同时能够降低数据非独立同分布特性对模型准确度的影响的移动边缘分布式机器学习系统。
为实现上述目的,本发明所提供的技术方案为:
一种移动边缘分布式机器学习系统,包括边缘服务器和多个终端设备,其特征在于,所述边缘服务器包括中心决策模块、全局模型参数聚合模块以及服务器通信模块;服务器通信模块包括响应信息接收子模块、请求信息及决策信息发送子模块、本地模型参数接收子模块和全局模型参数发送子模块;
所述多个终端设备均包括中心控制模块、本地模型参数更新模块、数据样本存储模块以及终端通信模块;终端通信模块包括请求信息及决策信息接收子模块、响应信息发送子模块、全局模型参数接收子模块、本地模型参数发送子模块、D2D通信接收子模块和D2D通信发送子模块;
其中,所述中心决策模块用于控制服务器通信模块中的请求信息及决策信息发送子模块向终端设备发出获取参与分布式机器学习的终端设备的相关计算与通信参数请求,并基于接收到的数据进行系统优化计算,得到各终端设备的数据样本卸载量数据和通信资源分配数据;
所述响应信息接收子模块用于接收参与分布式机器学习的终端设备的相关计算与通信参数,并将接收到的数据发送到中心决策模块;
所述决策信息发送子模块用于将获取参与分布式机器学习的终端设备的相关计算与通信参数的请求以及各终端设备的数据样本卸载量数据和通信资源分配数据发送给各参与分布式机器学习的终端设备;
所述本地模型参数接收子模块用于接收终端设备发送过来的本地模型参数,并将接收到的本地模型参数发送给全局模型参数聚合模块;
所述全局模型参数聚合模块用于对各终端设备的本地模型参数进行加权平均操作,得到全局模型参数;
所述全局模型参数发送子模块用于将通过全局模型参数聚合模块得到的全局模型参数发送给各终端设备;
所述请求信息及决策信息接收子模块用于接收边缘服务器发送过来的请求信息和决策信息,并将接收到的请求信息和决策信息发送给中心控制模块;
所述中心控制模块用于根据请求信息将相关计算与通信参数的响应信息传送到响应信息发送子模块,以及依据决策信息控制数据样本存储模块将数据样本传送到D2D通信发送子模块;
所述D2D通信接收子模块用于接收其他终端设备发送过来的卸载的数据样本,并将接收到的卸载的数据样本发送给数据样本存储模块;
所述全局模型参数接收子模块用于接收边缘服务器发送的全局模型参数,并将接收到的全局模型参数发送给本地模型参数更新模块;
所述本地模型参数更新模块用于根据数据样本进行本地模型参数更新,得到其更新的本地模型参数;
所述本地模型参数发送子模块用于将本地模型参数发送给边缘服务器。
为实现上述目的,本发明另外提供一种用于所述移动边缘分布式机器学习系统的方法,包括以下步骤:
S1:边缘服务器中的中心决策模块控制服务器通信模块中的请求信息及决策信息发送子模块向终端设备发出获取参与分布式机器学习的终端设备的相关计算与通信参数请求;
S2:边缘服务器的请求信息通过终端设备中终端通信模块的请求信息及决策信息接收子模块进入到中心控制模块,中心控制模块根据请求信息将相关计算与通信参数的响应信息传送到终端通信模块的响应信息发送子模块,将响应信息发送给边缘服务器;
S3:参与分布式机器学习的终端设备的相关计算与通信参数从服务器通信模块中的响应信息接收子模块进入到中心决策模块,在中心决策模块进行系统优化计算,得到各终端设备的数据样本卸载量数据和通信资源分配数据;
S4:中心决策模块将得到的各终端设备的数据样本卸载量数据和通信资源分配数据通过请求信息及决策信息发送子模块传输给参与分布式机器学习的各终端设备;
S5:将边缘服务器返回的各终端设备的数据样本卸载量数据和通信资源分配数据通过终端通信模块的请求信息及决策信息接收子模块进入到中心控制模块,中心控制模块依据决策信息控制数据样本存储模块将数据样本传送到D2D通信发送子模块,进行数据样本卸载;
S6:其他终端设备卸载的数据样本通过D2D通信接收子模块进入到数据样本存储模块;
S7:边缘服务器发送最新的全局模型参数给各终端设备;
S8:边缘服务器发送的全局模型参数通过终端设备的全局模型参数子接收模块进入到本地模型参数更新模块,本地模型参数更新模块以接收到的全局模型参数为新的更新起点,根据数据样本进行本地模型参数更新,得到其更新的本地模型参数,再通过本地模型参数发送子模块发送给边缘服务器。
S9:终端设备发送的本地模型参数通过边缘服务器通信模块的本地模型参数接收子模块进入到全局模型参数聚合模块,全局模型参数聚合模块对各终端设备的本地模型参数进行加权平均操作,得到全局模型参数;
S10:判断是否达到可使全局损失函数F(ws)收敛的M次全局模型聚合次数;若是,则模型训练完成,否则,返回步骤S7。
进一步地,所述步骤S1中请求的通信参数具体包括:终端设备在一个时钟周期内能执行的浮点运算操作次数、本地模型参数更新模块的频率、数据样本量以及最大发射功率。
进一步地,所述步骤S3中在中心决策模块进行系统优化计算,得到的各终端设备的数据样本卸载量数据和通信资源分配数据具体包括:数据样本卸载量数据、数据样本卸载时相应的功率、带宽分配以及终端设备进行本地模型参数上传时上行链路的带宽分配。
与现有技术相比,本方案原理及优点如下:
本方案中,终端设备间利用D2D通信技术进行数据样本卸载,通过调节参与分布式机器学习的终端设备存储的数据样本数量,使得各终端设备的数据样本量与其计算能力相匹配,平衡了各终端设备的计算和通信所消耗的时间,解决了不同终端设备计算和通信能力差异大带来分布式机器学习模型训练效率低下的问题,同时能够降低数据非独立同分布特性对模型准确度的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种移动边缘分布式机器学习系统的概念图;
图2为本发明一种移动边缘分布式机器学习系统中边缘服务器的功能模块示意图;
图3为本发明一种移动边缘分布式机器学习系统中终端设备的功能模块示意图;
图4为本发明一种用于移动边缘分布式机器学习系统的方法的工作流程图;
图5为系统所消耗的时间随全局模型聚合次数的变化图;
图6为模型准确度随系统消耗时间的变化。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1-3所示,一种移动边缘分布式机器学习系统,包括边缘服务器和多个终端设备;其中,边缘服务器包括中心决策模块1、全局模型参数聚合模块2以及服务器通信模块3;服务器通信模块3包括响应信息接收子模块3-1、请求信息及决策信息发送子模块3-2、本地模型参数接收子模块3-3和全局模型参数发送子模块3-4;
终端设备均包括中心控制模块4、本地模型参数更新模块5、数据样本存储模块6以及终端通信模块7;终端通信模块7包括请求信息及决策信息接收子模块7-1、响应信息发送子模块7-2、全局模型参数接收子模块7-3、本地模型参数发送子模块7-4、D2D通信接收子模块7-5和D2D通信发送子模块7-6。
如图4所示,具体的工作原理如下:
定义参与分布式机器学习的终端设备的集合为
Figure BDA0002308739450000071
和使用平滑支持向量机(Smooth-Support Vector Machine,SSVM)模型,其损失函数表达式为:
Figure BDA0002308739450000081
考虑到不同终端设备的计算和通信能力不同,计算和通信能力最弱的终端设备将延长整个模型训练过程所消耗的时间、降低模型训练的效率,在进行模型训练之前,边缘服务器通过获取参与分布式机器学习的终端设备相关计算与通信参数,对各终端设备的计算与通信能力进行评估,将各终端设备的数据样本卸载量数据和相应的功率分配数据返回给各终端设备,同时确定终端设备进行数据样本卸载时D2D通信链路的带宽分配和终端设备进行本地模型参数上传时上行链路的带宽分配。相应的步骤如下:
S1:边缘服务器中的中心决策模块1控制服务器通信模块3中的请求信息及决策信息发送子模块3-2向终端设备发出获取参与分布式机器学习的终端设备的相关计算与通信参数请求;
S2:边缘服务器的请求信息通过终端设备中终端通信模块7的请求信息及决策信息接收子模块7-1进入到中心控制模块4,中心控制模块4根据请求信息将相关计算与通信参数的响应信息传送到终端通信模块7的响应信息发送子模块7-2,将响应信息发送给边缘服务器;
S3:参与分布式机器学习的终端设备的相关计算与通信参数从服务器通信模块3中的响应信息接收子模块3-1进入到中心决策模块1,在中心决策模块1进行系统优化计算,得到各终端设备的数据样本卸载量数据和通信资源分配数据(数据样本卸载时相应的功率、带宽分配以及终端设备进行本地模型参数上传时上行链路的带宽分配);
S4:中心决策模块1将得到的各终端设备的数据样本卸载量数据和通信资源分配数据通过请求信息及决策信息发送子模块3-2传输给参与分布式机器学习的各终端设备;
S5:边缘服务器返回的各终端设备的数据样本卸载量数据和通信资源分配数据通过终端通信模块7的请求信息及决策信息接收子模块7-1进入到中心控制模块4,中心控制模块4依据决策信息控制数据样本存储模块6将数据样本传送到D2D通信发送子模块7-6,进行数据样本卸载;
S6:其他终端设备卸载的数据样本通过D2D通信接收子模块7-5进入到数据样本存储模块6;
终端设备间的数据样本卸载使用D2D通信技术和频分复用(frequency divisionmultiplexing,FDM)技术(实施例中使用FDM技术,但其实不仅局限于FDM这种复用技术,其他复用技术也是同样适用于本发明)。
Figure BDA0002308739450000091
为终端设备i发送到终端设备j的数据样本量,pij为终端设备i发送数据样本给终端设备j时的发射功率,bij为边缘服务器分配给终端设备i与终端设备j之间的通信链路的带宽,gij为终端设备i与终端设备j之间的通信链路的信道功率增益,n0为噪声功率谱密度。于是,终端设备i与终端设备j之间的通信链路的传输速率为:
Figure BDA0002308739450000092
因此,终端设备i发送数据样本给终端设备j所消耗的时间为:
Figure BDA0002308739450000093
其中,s为一条数据样本的比特数。
当所有终端设备完成数据样本卸载后,终端设备
Figure BDA0002308739450000094
所存储的数据样本数Di为:
Figure BDA0002308739450000095
此时,系统开始进行分布式机器学习模型训练。
S7:边缘服务器发送最新的全局模型参数给各终端设备:
设q为模型参数的总比特数,B为下行链路的带宽,hi为边缘服务器与终端设备i之间的通信链路的信道功率增益,Ps为边缘服务器的发射功率。于是,下行链路的传输速率为:
Figure BDA0002308739450000101
因此,边缘服务器广播初始化的全局模型参数给各终端设备所消耗的时间为:
Figure BDA0002308739450000102
S8:边缘服务器发送的全局模型参数通过终端设备的全局模型参数子接收模块进入到本地模型参数更新模块5,本地模型参数更新模块5以接收到的全局模型参数为新的更新起点,根据数据样本进行本地模型参数更新,得到其更新的本地模型参数,再通过本地模型参数发送子模块7-4发送给边缘服务器;
其中,
各终端设备进行本地模型参数更新:
设a为使用一条数据样本进行一次梯度更新所需的浮点运算操作次数,N为进行梯度更新的次数,ci和fi分别为终端设备i在一个时钟周期内能进行的浮点运算操作次数和本地模型参数更新模块5的频率。所以,终端设备i完成本地模型更新所消耗的时间为:
Figure BDA0002308739450000103
各终端设备上传本地模型参数给边缘服务器:
各终端设备上传本地模型参数给边缘服务器使用FDMA技术。设bi为系统分配给终端设备i上传本地模型参数给边缘服务器的带宽,Pi为终端设备i的最大发射功率。于是,终端设备i上传本地模型参数给边缘服务器的传输速率为:
Figure BDA0002308739450000104
因此,终端设备i上传本地模型参数给边缘服务器所消耗的时间为:
Figure BDA0002308739450000111
S9:终端设备发送的本地模型参数通过边缘服务器通信模块3的本地模型参数接收子模块3-3进入到全局模型参数聚合模块2,全局模型参数聚合模块2对各终端设备的本地模型参数进行加权平均操作,得到全局模型参数;
由于边缘服务器的计算能力强,且简单的加权平均操作的计算复杂度也较低,因此全局模型参数聚合所消耗的时间可以忽略不计。
S10:判断是否达到可使全局损失函数F(ws)收敛的M次全局模型聚合次数;若是,则模型训练完成,否则,返回步骤S7。
本实施例中,通过优化各终端设备的数据样本卸载量、样本卸载时终端设备的发射功率和终端设备间的通信链路的带宽,以及本地模型参数上传链路的带宽,以最小化数据样本卸载和模型训练所消耗的总时间。基于上述工作原理,系统优化问题可以表示为:
(P1):
Figure BDA0002308739450000112
Figure BDA0002308739450000113
Figure BDA0002308739450000114
Figure BDA0002308739450000115
Figure BDA0002308739450000116
Figure BDA0002308739450000117
Figure BDA0002308739450000118
Figure BDA0002308739450000119
Figure BDA00023087394500001110
其中,约束1为数据样本卸载时各终端设备发射的总功率不能超过其最大发射功率,约束3为各终端设备的数据样本卸载量不能超过其原有的数据样本数量,约束5为数据样本卸载时所有通信链路所占用的带宽不得超过系统总带宽,约束7为本地模型参数上传时所有通信链路所占用的带宽不得超过系统总带宽。
观察优化问题(P1),变量dij是一个离散变量,且tij(dij,bij,pij)由于dij、bij和pij耦合在一起,不是一个凸函数,这使得(P1)很难得到最优解。
优化过程
为便于求解(P1),先将变量dij看出连续变量来进行问题的求解,同时引入辅助变量τ1和τ2,将问题(P1)重新表示为:
(P2):
Figure BDA0002308739450000121
s.t.τ1≥0,τ2≥0,
Figure BDA0002308739450000122
Figure BDA0002308739450000123
Figure BDA0002308739450000124
Figure BDA0002308739450000125
Figure BDA0002308739450000126
Figure BDA0002308739450000127
Figure BDA0002308739450000128
Figure BDA0002308739450000129
Figure BDA00023087394500001210
Figure BDA00023087394500001211
虽然问题(P2)仍是一个非凸问题,但需要注意的是,当τ1给定时,问题(P2)是一个凸优化问题,因此可通过线性查找τ1,找到使得问题(P2)最小的连续解,在此基础上,对求解出所有关于dij的连续解,同时进行向上取整和向下取整,通过遍历对比所有{dij}的取整组合,找出使得所求问题的值最小的解,相对应的{dij}即为求得的问题(P1)的整数解。
由于本实施例的目标是通过调节参与分布式机器学习的各终端设备的数据样本数量来减少系统消耗的总时间,因此可以确定τ1的最大值为不进行数据样本卸载时分布式机器学习模型训练所消耗的时间,即
Figure BDA00023087394500001212
数值实验
在仿真中,考虑系统中有一个边缘服务器与3种不同型号的终端设备,每个型号各有2台,共6台。边缘服务器位于圆心处,6台终端设备随机分布在350米x350米的水平地面上。系统总带宽B为1MHz,接收端的噪声功率谱密度n0为10-16W。边缘服务器的发射功率Ps为20W,类型I的终端设备的一个时钟周期内所能处理的浮点运算操作次数cI为8,本地模型参数更新的频率fI为1.5GHz;类型II的终端设备的一个时钟周期内所能处理的浮点运算操作次数cII为12,本地模型参数更新的频率fII为1.95GHz;类型III的终端设备的一个时钟周期内所能处理的浮点运算操作次数cIII为16,本地模型参数更新的频率fIII为2.5GHz。这3种类型终端设备的最大发射功率均为2W。对于信息传输链路,路径衰落模型参考
Figure BDA0002308739450000131
其中d表示发射端与接收端之间的距离,路径衰弱指数ζ=3,和参考距离d0=1m对应的路径衰弱PL0=-30dB。
另外,在此仿真中,使用MNIST公共数据集(0至9共10种标签的数字手写体)作为数据样本,设每台终端设备原有5000条数据样本,且只含0至9中的2种标签。利用SSVM对MNIST数据集中的数据手写体进行分类,判别数字是奇数还是偶数。一条数据样本的比特数s为6276bits,模型参数的比特数q为6272bits,利用一条数据样本进行一次梯度更新所需要的浮点运算操作次数a为1e6。此外,设定本地模型更新中梯度更新次数N为5。
作为对照,另外设置了一条曲线来与设计的实施例进行比较,即,无数据样本卸载且上行链路带宽均匀分配:进行分布式机器学习模型训练前没有进行数据样本卸载且本地模型参数上传时采用带宽均匀分配方案。
由图5可看出,本实施例提出的方案要优于无数据样本卸载且上行链路带宽均匀分配,且在全局模型聚合次数增大时有显著增益。
由图6可看出,本实施例所提出的方案不仅能有效减少系统所消耗的总时间,且能降低数据非独立同分布特性带来的影响,提高模型准确度。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种移动边缘分布式机器学习系统,包括边缘服务器和多个终端设备,其特征在于,所述边缘服务器包括中心决策模块(1)、全局模型参数聚合模块(2)以及服务器通信模块(3);服务器通信模块(3)包括响应信息接收子模块(3-1)、请求信息及决策信息发送子模块(3-2)、本地模型参数接收子模块(3-3)和全局模型参数发送子模块(3-4);
所述多个终端设备均包括中心控制模块(4)、本地模型参数更新模块(5)、数据样本存储模块(6)以及终端通信模块(7);终端通信模块(7)包括请求信息及决策信息接收子模块(7-1)、响应信息发送子模块(7-2)、全局模型参数接收子模块(7-3)、本地模型参数发送子模块(7-4)、D2D通信接收子模块(7-5)和D2D通信发送子模块(7-6);
其中,所述中心决策模块(1)用于控制服务器通信模块(3)中的请求信息及决策信息发送子模块(3-2)向终端设备发出获取参与分布式机器学习的终端设备的相关计算与通信参数的请求,并基于接收到的数据进行系统优化计算,得到各终端设备的数据样本卸载量数据和通信资源分配数据;
所述响应信息接收子模块(3-1)用于接收参与分布式机器学习的终端设备的相关计算与通信参数,并将接收到的数据发送到中心决策模块(1);
所述决策信息发送子模块(3-2)用于将获取参与分布式机器学习的终端设备的相关计算与通信参数的请求以及各终端设备的数据样本卸载量数据和通信资源分配数据发送给各参与分布式机器学习的终端设备;
所述本地模型参数接收子模块(3-3)用于接收终端设备发送过来的本地模型参数,并将接收到的本地模型参数发送给全局模型参数聚合模块(2);
所述全局模型参数聚合模块(2)用于对各终端设备的本地模型参数进行加权平均操作,得到全局模型参数;
所述全局模型参数发送子模块(3-4)用于将通过全局模型参数聚合模块(2)得到的全局模型参数发送给各终端设备;
所述请求信息及决策信息接收子模块(7-1)用于接收边缘服务器发送过来的请求信息和决策信息,并将接收到的请求信息和决策信息发送给中心控制模块(4);
所述中心控制模块(4)用于根据请求信息将相关计算与通信参数的响应信息传送到响应信息发送子模块(7-2),以及依据决策信息控制数据样本存储模块(6)将数据样本传送到D2D通信发送子模块(7-6);
所述D2D通信接收子模块(7-5)用于接收其他终端设备发送过来的卸载的数据样本,并将接收到的卸载的数据样本发送给数据样本存储模块(6);
所述全局模型参数接收子模块(7-3)用于接收边缘服务器发送的全局模型参数,并将接收到的全局模型参数发送给本地模型参数更新模块(5);
所述本地模型参数更新模块(5)用于根据数据样本进行本地模型参数更新,得到其更新的本地模型参数;
所述本地模型参数发送子模块(7-4)用于将本地模型参数发送给边缘服务器。
2.一种用于权利要求1所述移动边缘分布式机器学习系统的方法,其特征在于,包括以下步骤:
S1:边缘服务器中的中心决策模块控制服务器通信模块中的请求信息及决策信息发送子模块向终端设备发出获取参与分布式机器学习的终端设备的相关计算与通信参数请求;
S2:边缘服务器的请求信息通过终端设备中终端通信模块的请求信息及决策信息接收子模块进入到中心控制模块,中心控制模块根据请求信息将终端设备的相关计算与通信参数的响应信息传送到终端通信模块的响应信息发送子模块,将响应信息发送给边缘服务器;
S3:参与分布式机器学习的终端设备的相关计算与通信参数从服务器通信模块中的响应信息接收子模块进入到中心决策模块,在中心决策模块进行系统优化计算,得到各终端设备的数据样本卸载量数据和通信资源分配数据;
S4:中心决策模块将得到的各终端设备的数据样本卸载量数据和通信资源分配数据通过请求信息及决策信息发送子模块传输给参与分布式机器学习的各终端设备;
S5:边缘服务器返回的各终端设备的数据样本卸载量数据和通信资源分配数据通过终端通信模块的请求信息及决策信息接收子模块进入到中心控制模块,中心控制模块依据决策信息控制数据样本存储模块将数据样本传送到D2D通信发送子模块,进行数据样本卸载;
S6:其他终端设备卸载的数据样本通过D2D通信接收子模块进入到数据样本存储模块;
S7:边缘服务器发送最新的全局模型参数给各终端设备;
S8:边缘服务器发送的全局模型参数通过终端设备的全局模型参数子接收模块进入到本地模型参数更新模块,本地模型参数更新模块以接收到的全局模型参数为新的更新起点,根据数据样本进行本地模型参数更新,得到其更新的本地模型参数,再通过本地模型参数发送子模块发送给边缘服务器;
S9:终端设备发送的本地模型参数通过边缘服务器通信模块的本地模型参数接收子模块进入到全局模型参数聚合模块,全局模型参数聚合模块对各终端设备的本地模型参数进行加权平均操作,得到全局模型参数;
S10:判断是否达到可使全局损失函数F(ws)收敛的M次全局模型聚合次数;若是,则模型训练完成,否则,返回步骤S7。
3.根据权利要求2所述的一种用于移动边缘分布式机器学习系统的方法,其特征在于,所述步骤S1中请求的通信参数具体包括:终端设备在一个时钟周期内能执行的浮点运算操作次数、本地模型参数更新模块的频率、数据样本量以及最大发射功率。
4.根据权利要求2所述的一种用于移动边缘分布式机器学习系统的方法,其特征在于,所述步骤S3中在中心决策模块进行系统优化计算,得到的各终端设备的数据样本卸载量数据和通信资源分配数据具体包括:数据样本卸载量数据、数据样本卸载时各终端设备的发射功率、带宽分配以及终端设备进行本地模型参数上传时上行链路的带宽分配。
CN201911249922.5A 2019-12-09 2019-12-09 一种移动边缘分布式机器学习系统和方法 Expired - Fee Related CN111158902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911249922.5A CN111158902B (zh) 2019-12-09 2019-12-09 一种移动边缘分布式机器学习系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911249922.5A CN111158902B (zh) 2019-12-09 2019-12-09 一种移动边缘分布式机器学习系统和方法

Publications (2)

Publication Number Publication Date
CN111158902A CN111158902A (zh) 2020-05-15
CN111158902B true CN111158902B (zh) 2022-05-10

Family

ID=70556584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911249922.5A Expired - Fee Related CN111158902B (zh) 2019-12-09 2019-12-09 一种移动边缘分布式机器学习系统和方法

Country Status (1)

Country Link
CN (1) CN111158902B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859465A (zh) * 2020-06-29 2020-10-30 交控科技股份有限公司 基于区块链的轨道交通分布式智能运维系统及其运行方法
CN114650288B (zh) * 2020-12-02 2024-03-08 中国科学院深圳先进技术研究院 分布式训练方法及系统、终端设备、计算机可读存储介质
CN112799812B (zh) * 2021-01-27 2022-01-21 苏州科技大学 一种多智能设备协同优化系统
WO2022266999A1 (en) * 2021-06-25 2022-12-29 Intel Corporation Digital edge services orchestration of awareness, on-demand, and event-triggered services
CN115589609A (zh) * 2021-07-05 2023-01-10 索尼集团公司 用于无线通信系统的电子设备、方法和存储介质
CN115829053B (zh) * 2022-11-25 2023-09-19 北京百度网讯科技有限公司 模型运行策略确定方法、装置、电子设备以及存储介质
CN116521150B (zh) * 2023-07-04 2023-10-13 北京凯思昊鹏软件工程技术有限公司 一种支持异构融合的分布式系统及通信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609652A (zh) * 2017-08-30 2018-01-19 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN108009642A (zh) * 2016-10-31 2018-05-08 腾讯科技(深圳)有限公司 分布式机器学习方法和系统
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474951B2 (en) * 2015-10-23 2019-11-12 Nec Corporation Memory efficient scalable deep learning with model parallelization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009642A (zh) * 2016-10-31 2018-05-08 腾讯科技(深圳)有限公司 分布式机器学习方法和系统
CN107609652A (zh) * 2017-08-30 2018-01-19 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN109032671A (zh) * 2018-06-25 2018-12-18 电子科技大学 一种基于数据并行策略的分布式深度学习方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adaptive Federated Learning in Resource Constrained Edge Computing Systems;Shiqiang Wang et.al;《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》;20190630;第37卷(第6期);第1205-1220页 *
Joint Task Assignment and Resource Allocation for D2D-Enabled Mobile-Edge Computing;Jie Xu et.al;《IEEE TRANSACTIONS ON COMMUNICATIONS》;20190630;第67卷(第6期);第4193-4207页 *
Optimal Task Offloading Scheduling for Energy Efficient Adaptive Federated Learning in Resource Constrained Edge Computing Systems;Jie Xu, et.al;《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》;20190630;第23卷(第10期);第1816-1820页 *
全局模型和局部优化的深度网络显著性检测;刘峰 等;《光学学报》;20171231;第37卷(第12期);第1-9页 *

Also Published As

Publication number Publication date
CN111158902A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111158902B (zh) 一种移动边缘分布式机器学习系统和方法
CN111245651B (zh) 一种基于功率控制和资源分配的任务卸载方法
Lee et al. An online secretary framework for fog network formation with minimal latency
CN109951869B (zh) 一种基于云雾混合计算的车联网资源分配方法
Yoshida et al. MAB-based client selection for federated learning with uncertain resources in mobile networks
CN107241767B (zh) 一种移动协同计算的方法及装置
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN111915142B (zh) 一种基于深度强化学习的无人机辅助资源分配方法
US11968122B2 (en) Joint optimization method and system for delay and spectrum occupation in cloud-edge collaborative network
CN111130911B (zh) 一种基于移动边缘计算的计算卸载方法
CN111010684A (zh) 一种基于mec缓存服务的车联网资源分配方法
CN112416603B (zh) 一种基于雾计算的联合优化系统和方法
CN112235387B (zh) 一种基于能量消耗最小化的多节点协作计算卸载方法
Zhang et al. Joint offloading and resource allocation using deep reinforcement learning in mobile edge computing
CN114745383A (zh) 一种移动边缘计算辅助多层联邦学习方法
Yan et al. Deep reinforcement learning based offloading for mobile edge computing with general task graph
Chen et al. Semi-asynchronous hierarchical federated learning for cooperative intelligent transportation systems
Nguyen et al. Joint computation offloading, SFC placement, and resource allocation for multi-site MEC systems
Wang et al. Energy conserved computation offloading for O-RAN based IoT systems
Xu et al. Cybertwin assisted wireless asynchronous federated learning mechanism for edge computing
Chen et al. Joint optimization of task caching, computation offloading and resource allocation for mobile edge computing
CN111580943B (zh) 一种面向低时延边缘计算中多跳卸载的任务调度方法
Wang et al. Distributed User Association and Computation Offloading in UAV-Assisted Mobile Edge Computing Systems
CN116887344A (zh) 一种基于改进二进制多元宇宙算法的云边端协同系统优化方法及装置
CN116761218A (zh) 一种云边端协同系统中的联合优化方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220510

CF01 Termination of patent right due to non-payment of annual fee