CN115729707A - 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质 - Google Patents

用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质 Download PDF

Info

Publication number
CN115729707A
CN115729707A CN202211503705.6A CN202211503705A CN115729707A CN 115729707 A CN115729707 A CN 115729707A CN 202211503705 A CN202211503705 A CN 202211503705A CN 115729707 A CN115729707 A CN 115729707A
Authority
CN
China
Prior art keywords
model
network model
target
training
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211503705.6A
Other languages
English (en)
Inventor
刘智斌
刘昱含
王心水
武骏豪
杨文涛
王进东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN202211503705.6A priority Critical patent/CN115729707A/zh
Publication of CN115729707A publication Critical patent/CN115729707A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种边缘计算的分布式模型训练方法、装置、设备和计算机可读介质,属于计算机技术领域。方法包括:训练移动设备中的子网络模型,获得子网络模型的目标模型参数;将目标模型参数传输至接入计算设备中,更新接入计算设备中的公共网络模型;判断子网络模型是否满足模型更新条件,若满足,则获取公共网络模型当前的公共模型参数,利用获取到的公共模型参数训练子网络模型。本发明实施例提供的分布式模型训练方法用于训练边缘计算系统中的接入设备中的公共网络模型,移动设备中的子网络模型独立与环境交互,根据训练后的子网络模型参数训练接入计算设备中的公共网络模型,可减少公共网络模型的训练模型参数的相关性。

Description

用于边缘计算系统的模型训练方法、装置、设备和计算机可读 介质
技术领域
本发明涉及计算机技术领域,特别涉及一种用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质。
背景技术
近年来,随着智能设备的飞速发展以及广泛普及,传统的数据处理方式难以满足日益增长的计算需求,移动终端(MD)的盛行对于移动网络、无线网络以及触发器有很大的影响。为了减轻移动终端的运行负荷,技术人员将大量的计算任务从移动终端(MD)上卸载并传输到附近的接入点(AP)、基站等边缘服务器上,这一过程被称为移动边缘计算(MobileEdge Computing)。移动边缘计算(MEC)能够分担移动端的计算压力,可以有效避免了移动端的任务溢出和超长等待时间等问题。目前,边缘计算已经广泛应用于智能交通、智慧医疗、智能电网、智能工厂、智能城市等关键领域,是我国国民经济、现代社会以及国家安全的重要基础设施的核心系统。
移动边缘计算技术的核心问题之一是边缘计算卸载问题,边缘计算卸载问题用于确定计算任务是否需要从MD上卸载至边缘服务器上。对于接入设备的模型训练,相关方法中,比如博弈论,往往自适应性低,而深度强化学习计算复杂度高,收敛速度慢,不适用于对时间要求高的无线设备。
发明内容
本发明实施例提供了一种用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质。所述技术方案如下:
第一方面,提供了一种用于边缘计算系统的模型训练方法,所述方法包括:
训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;
将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型,所述接入计算设备利用边缘计算系统中各所述移动设备传输的所述目标模型参数,更新所述公共网络模型;
判断所述子网络模型是否满足模型更新条件,若满足,则获取所述公共网络模型当前的公共模型参数,利用获取到的所述公共模型参数训练所述子网络模型。
进一步地,所述训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数,包括:
采用梯度下降法训练获得所述边缘计算系统的和计算率最大时的所述目标模型参数,所述和计算率采用如下公式计算:
Figure BDA0003967348940000021
其中,Rt为t时刻所述边缘计算系统的和计算率,γ∈(0,1]表示折扣因子,ri表示一个移动设备的计算率;
ri@wi((1-xi)RL,i(λ)+xiRO,i(λ,ai))
其中,i∈N,表示第i个所述移动设备,wi为加权系数,RL,i(λ)表示第i个所述移动设备本地计算所述计算任务的效率,RO,i(λ,ai)表示第i个所述移动设备卸载所述计算任务的效率。
进一步地,所述子网络模型包括:目标行为网络模型,所述目标行为网络模型训练的损失函数为:
La=-Q(siθ(s))
其中,s表示边缘计算网络的状态,s=hi,θ为所述目标行为网络模型的目标行为模型参数,μθ(s)表示基于目标行为模型参数θ且边缘计算网络状态s的卸载策略函数,Q表示基于策略π和状态s做出的动作xi,t的动作值函数。
所述子网络模型包括:目标评价网络模型、辅助评价网络模型和辅助行为网络模型;
所述目标评价网络模型训练的损失函数根据所述目标评价网络模型的动作值函数以及所述辅助评价网络模型的动作值函数获得;
所述目标评价网络模型的动作值函数根据所述目标行为网络模型的动作值函数获得,所述辅助评价网络模型的所述动作值函数根据所述辅助行为网络模型的动作值函数获得。
进一步地,所述目标评价网络模型训练的损失函数为:
Lc=MSE(Qg(si,xi),ri+γQg'(si',xi'))
其中,Qg(si,xi)表示为基于目标评价模型参数g和状态s做出的动作xi,t的动作值函数,
Qg'(si',xi')表示基于所述辅助评价模型参数g'和状态si'做出的动作xi'的动作值函数,
γ表示折扣因子,
ri表示单步奖励,与相应设备的计算效率相等。
进一步地,所述辅助评价模型参数和辅助行为网络模型的辅助行为模型参数采用如下公式计算,包括:
Figure BDA0003967348940000031
其中,g为所述目标评价模型参数,g'为所述辅助评价模型参数,θ为所述目标行为模型参数,θ'为所述辅助行为模型参数,τ表示折扣因子。
进一步地,在训练所述子网络模型之前,所述方法还包括:
将任务数据存储至经验池中,按照数据更新条件更新所述经验池,所述任务数据包括:第一时间的信道增益、卸载行为值、所述子网络模型的计算率、第二时间的信道增益,所述经验池中的所述任务数据用于作为训练样本,训练所述子网络模型。
第二方面,提供了一种用于边缘计算系统的模型训练装置,包括:
模型训练模块,用于训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;
判断模块,用于判断所述子网络模型是否满足模型更新条件;
通讯模块,用于将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型,所述接入计算设备利用边缘计算系统中各所述移动设备传输的所述目标模型参数,更新所述公共网络模型;
所述通讯模块,还用于当所述子网络模型满足所述模型更新条件时获取所述公共网络模型当前的公共模型参数;
所述模型训练模块,还用于利用获取到的所述公共模型参数训练所述子网络模型。
第三方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面任一所述的方法。
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如第一方面任一所述的方法。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的模型训练方法用于训练边缘计算系统中的接入设备中的公共网络模型,移动设备中的子网络模型独立与环境交互,根据训练后的子网络模型参数训练接入计算设备中的公共网络模型,再从公共网络模型中反向拉取模型参数训练,可减少子网络模型的训练模型参数的相关性。
2、本发明实施例提供的模型训练方法直接根据训练后的子网络模型的模型参数训练公共网络模型,可提高公共网络模型的训练速度。
3、本发明实施例提供的模型训练方法采用梯度下降法确定和计算率最大时的子网络模型参数,有利于训练出提高边缘计算系统整体计算率的子网络模型。
4、本发明实施例提供的模型训练方法在移动设备中建立经验池,从经验池中随机抽取数据训练子网络模型,由于经验池中存储有不同环境下的任务数据,由此可避免子网络模型的训练陷入局部最优解的情况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的模型训练方法的流程图;
图2是本发明实施例提供的边缘计算系统结构图;
图3是本发明实施例提供的边缘计算系统网络模型结构图;
图4是本发明实施例提供的子网络模型训练时在不同学习率下的损失示意图;
图5是本发明实施例提供的不同方法训练模型的测试结果图;
图6是本发明实施例提供的不同方法训练模型的收敛速度比较图;
图7是本发明实施例提供的不同噪声条件下移动边缘计算速率比较图;
图8是本发明实施例提供的不同用户量条件下移动边缘计算速率比较图;
图9是本发明实施例提供的模型训练装置的结构示意图;
图10是本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
移动边缘计算系统包括接入设备和移动设备,一个接入设备往往对应多个移动设备,接入设备中配置有公共网络模型,用于执行移动设备卸载下的计算任务。移动设备中配置有子网络模型,用于在接收到计算任务后判断是否需要将计算任务卸载,对于需要卸载的计算任务,则发送至接入设备中计算,对于不需要卸载的计算任务,则本地计算。其中对于公共网络模型由于训练样本较少、样本多样化不足,使得训练出的公共网络模型对环境适应性较差。
本发明实施例为了解决现有技术中存在的问题,提供了一种移动边缘计算任务卸载方法、装置、设备和计算机可读介质,具体技术方案如下:
如图1所示,一种用于边缘计算系统的模型训练方法,包括:
S1、训练移动设备中的子网络模型,获得子网络模型的目标模型参数。
S2、将目标模型参数传输至接入计算设备中,更新接入计算设备中的公共网络模型,接入计算设备利用边缘计算系统中各移动设备传输的目标模型参数,更新公共网络模型。
S3、判断子网络模型是否满足模型更新条件,若满足,则获取公共网络模型当前的公共模型参数,利用获取到的公共模型参数训练子网络模型。
本发明实施例公开的方法中,移动设备中的子网络模型通过与各自的计算环境交互获得目标模型参数,再将目标模型参数发送至公共网络模型中。公共网络模型可以接收到移动边缘计算系统中多个移动设备的目标模型参数,每接收到一个移动设备发送的目标模型参数,公共网络模型均将当前接收到的目标模型参数作为其自身的模型参数。子网络模型需要更新时,从公共网络中拉取目标模型参数为公共网络模型当前接收到的目标模型参数,也就是说,子网络模型拉取的目标模型参数可能是其他移动设备发送的目标模型参数。由此,可减少子网络模型的训练的参数相关性,避免子网络模型的训练仅能适用其所述移动设备的计算环境,而缺乏适用性。
图2所示为边缘计算系统结构图,如图2所示,假设每个移动设备(MD)都有内置充电电池,由接入计算设备(AP)端周期性地向其供电。在供电时,能量直接进入能量收集装置,任务处理装置还是处于空闲状态。在整个时隙T内,对于移动设备来说,可以一边进行充电一边进行任务处理。若任务需要卸载,则需要和无线电能传输(WPT)使用同一通信信道,在信道内部采用时分复用的方式。所以为了实现系统的性能优化,对于WPT和任务数据传输需要进行动态最优规划。
在每个时隙T内,时间被分为λT和aT两个部分。λT的时间用来进行WPT广播能量,aT用来进行数据传输,二者满足约束λ+a≤1。AP广播的能量被MD端接收,第i个MD收集的能量为:
Ei=μPhiλT
其中μ∈(0,1),它表示MD的能量收集效率,hi表示AP与第i个MD之间的无线信道增益,P是AP发送能量的能量发送功率。
MD利用收集的能量在T内完成一个任务或者卸载一个任务。在本实施例中将MD设立为遵循二进制卸载策略,采用卸载行为值xi∈{0,1}表示卸载情况,其中xi=0表示任务留在本地计算,xi=1表示任务相关数据全部卸载给AP,由AP进行计算。
在一个实施例中,步骤S1具体包括:采用梯度下降法训练获得边缘计算系统的和计算率最大时子网络模型的目标参数。
具体地,边缘计算系统的和计算率根据如下公式计算获得:
Figure BDA0003967348940000071
其中,γ∈(0,1]表示折扣因子,rt+k表示每个MD的计算率:
ri=r(h,x,λ,a)@wi((1-xi)RL,i(λ)+xiRO,i(λ,ai))
其中,r(h,x,λ,a)表示移动设备在信道增益h,卸载行为值为xi xi∈{0,1},能量广播时间为λ,λ={λi|i∈N},传输数据的时间为a条件下的计算率;wi为加权系数;RL,i(λ)表示本地计算效率;RO,i(λ,ai)表示计算任务卸载效率。
上述,本发明实施例中,每个MD代表一个agent,通过MD与MEC环境的交互得到反馈。在每个时隙T内,第i个MD会捕捉到一个环境状态st,并根据卸载策略π从二进制动作集合中选择一个动作xi,t。作为环境反馈,MD会获得一个新的环境状态st+1和一个计算获得的rt。进程一直运行直到得到MEC系统中所有的MD均完成是否卸载计算任务的判断,之后进程会重新启动。总的反馈值可以写为边缘计算系统的和计算率Rt,训练模型最终的目的就是最大化Rt
当任务留在本地计算时,需要消耗掉收集到的能量。用fi表示CPU的处理速率(用每秒的圈数表示),ti表示任务计算消耗的时间(0<ti<T),则在ti时间内CPU处理的位数为fiti/ω,其中ω表示处理器处理一位任务数据所需要的周期。CPU的计算功率可以被建模为kifi 3,其中ki为处理器芯片的计算能量效率系数。根据以上假设和公式可以得出能量约束公式为:
kifi 3ti≤Ei
上述,因为能量收集是由专门的电池装置完成,任务处理由CPU完成,二者分属不同的部分,所以想要最大化处理速率,就需要在单位时间T内使CPU不空闲,这种情况下就是ti'=T,并且在处理任务时将收集到的能量完全消耗完,即kifi 3T=Ei。因此本地计算的效率RL,i(λ)为:
Figure BDA0003967348940000081
当第i个MD决定将任务卸载给AP进行计算时,需要利用收集到的能量通过信道把任务相关的数据全部传输给AP。在这一过程中想要最大化传输效率,就要将收集到的能量全部消耗完。假设任务传输的时间为aT,a∈[0,1]。本发明实施例设计了一个通信开销系数b,规定b>1,它表示在信道通信过程中必要的一些数据开销,比如报头加密等。总的数据传输量可以写为bli。在传输时间aT内,最大的数据传输量可以写为:
Figure BDA0003967348940000082
其中B表示信道带宽,N0表示噪声。
本发明实施例假设AP的计算能力远大于移动端,所以任务在AP端的计算时间和MD接收计算结果的时间都可以忽略不计,所以,对于被卸载的任务来说,只需考虑WPT的时间和数据传输的时间。在能量完全被消耗尽和整个时隙T都被用来传输数据的情况下,可以得出
Figure BDA0003967348940000091
则卸载速率为RO,i(λ,ai):
Figure BDA0003967348940000092
其中,μ表示能量收集效率;N0表示噪音;hi表示第i个MD的无线信道增益;ai表示第i位用户的数据传输时间,a∈[0,1];λ表示能量广播时间,λ∈[0,1];P表示是AP发送能量的能量发送功率。
基于以上的情况,参考实际情况,假设在整个MEC环境中,只有无线信道增益h={hi|i∈N}会随时间的变化而改变,a和λ由算法动态规划,其他参数比如μ都是恒定不变的。在实际测试中,发现MD移动到某些位置或者受某些条件干扰较大时会导致信道条件非常不好,为了改善这一情况,本发明实施例设置了一个加权系数wi,根据MD的奇偶设置不同的值。综上所述,在单位时隙T内,边缘计算系统的和计算率rt+k为:
ri@wi((1-xi)RL,i(λ)+xiRO,i(λ,ai))
其中,i∈N,xi∈{0,1},λ={λi|i∈N}。根据公式不难看出,在单位时隙T内和计算率只与hi有关。
在一个实施例中,子网络模型包括:目标行为网络模型(target-actor),目标行为网络模型训练的损失函数为:
La=-Q(siθ(s))
其中,s表示边缘计算网络的状态,s=hi,θ为所述目标行为网络模型的目标行为模型参数,μθ(s)表示基于目标行为模型参数θ且边缘计算网络状态s的卸载策略函数,Q为表示基于策略π和状态s做出的动作xi,t的动作值函数。
在一个实施例中,子网络模型包括:目标评价网络模型(target-critic)、目标行为网络模型(target-actor)、辅助评价网络模型(critic)、辅助行为网络模型(actor)。目标评价网络模型训练的损失函数根据目标评价网络模型的动作值函数以及辅助评价网络模型的动作值函数获得。目标评价网络模型的动作值函数根据目标行为网络模型的动作值函数获得,辅助评价网络模型的动作值函数根据辅助行为网络模型的动作值函数获得。
上述,在每个子网络中,都有四个神经网络,分别是target-actor,target-critic,actor,critic,target-actor和actor的结构相同,target-critic和critic的结构相同。其中target-actor网络负责输出确定性的卸载策略,target-critic负责对target-actor做出的选择进行评价。本发明实施例需要训练的是target-actor和target-critic两个网络,其中:target-actor的网络参数为设置为θ,target-critic的参数设置为g。在中央网络中,只有一个target-actor和target-critic网络。针对强化学习action,state,reword的设置本发明实施例规定如下:
Action:本发明实施例中,action设置为二进制策略,a=xi∈{0,1},其中0表示在本地计算,1表示卸载给边缘服务器计算。
Reword:本发明实施例以计算速率作为奖励值r(h,x,λ,a)=ri,算法最终的目的就是最大化和计算速率Rt
State:在本发明实施例公开的分布式模型中,将state集合S={s1,s2,...sn}设置为无线信道增益,si=hi。其中n代表训练次数。将时变的信道条件作为state和input,得出计算速率。
上述,在本发明实施例中,基于卸载策略π和状态s做出的动作xi,t的动作值函数是:
Qπ(s,xi,t)=Ε[Rt|st=s,x]
对于状态s,动作xi,t基于某一最优策略得到的最优动作值函数可以写为:
Q*(s,xi,t)=maxQπ(s,xi,t)
同样的,基于策略π的状态值函数可以写为:
Vπ(s)=E[Rt|st=s]
上述,子网络模型训练所用的训练样本为移动设备在执行边缘计算任务时产生的任务数据,任务数据更接近移动设备的实际运行,因此训练出的子网络模型更加符合移动设备的运行条件。
在一个实施例中,target-critic网络中对于g的更新,采用的是TD-error的方式,损失函数定义为最小化均方误差。目标评价网络模型训练的损失函数为:
Lc=MSE(Qg(si,xi),ri+γQg'(si',xi'))
其中,Qg(si,xi)为基于目标评价模型参数g和状态s做出的动作xi的动作值函数,ri为MD的计算效率,Qg'(si',xi')表示基于所述辅助评价模型参数g'和状态si'做出的动作xi'的动作值函数,Qg'(si',xi')的计算依赖于critic和actor,这两个网络能够使target-critic网络学习更加稳定,易于收敛。
上述,各个子网络在积累一定的数据之后采用梯度下降的方式计算神经网络损失函数的梯度,计算出的梯度不仅用来更新自身的参数,而且还会更新公共网络的参数。在运行一段时间后,五个子网络同时拉取公共网络的参数,之后再继续学习。可以看出,这种方式不仅能够实现异步运行,大大提高训练速度,而且,各个子网络与自己的环境交互,每个子网络所处的环境不同,得到的数据之间相关性低,能够在一定程度上降低数据相关性的影响。算法结构图如图3所示。
在一个实施例中,辅助评价模型参数和辅助行为网络模型的辅助行为模型参数采用如下公式计算:
Figure BDA0003967348940000111
上述,g表示目标行为网络模型参数,g'表示辅助行为网络模型参数,θ表示目标评价网络模型参数,θ'表示辅助评价网络模型参数,τ表示折扣因子。
本发明实施例采用缓慢平滑的更新方式能够使学习过程更加稳定。目标网络模型在更新自身参数的同时,也会去更新辅助网络模型的参数。
在一个实施例中,本发明公开的方法还包括:
将任务数据存储至经验池中,按照数据更新条件更新经验池
上述,任务数据(st,xt,rt,st+1),分别表示:第一信道增益st、卸载行为值xt、分布式计算系统的和计算率rt、第二信道增益st+1。其中,执行边缘计算任务包括:移动设备(MD)判断是否卸载计算任务,若是,则将计算任务卸载至接入计算设备,若否,则本地完成计算任务。
为了保证公共网络在收敛的同时避免陷入局部最优解,本发明实施例还引入了经验回放机制,每个子网络与环境交互之后的得到的数据组会以(st,xt,rt,st+1)的形式存放在内部一个叫做R的经验池内,经验池大小可设置为固定值,当经验池放满后,新数据会替换掉旧数据,每次更新时,都是从经验池中随机抽取数据进行计算。算法的单线程伪代码如下:
Figure BDA0003967348940000121
Figure BDA0003967348940000131
下表1为本发明实施例中涉及到的参数的参数释义表:
表1参数释义表
Figure BDA0003967348940000132
下面,用Python语言搭建了系统仿真环境,使用PyTorch资源包。通过仿真环境展示本发明公开方法在各个方面的性能,首先介绍实验装置,规定各个固定参数的数值;之后介绍一系列仿真实验,确定最适合的学习率,将提出的方法与其他传统方式进行比较,最后,本发明还研究了信道中噪声、系统中用户数对于模型的影响。
实验装置
假设一个MEC系统,它由一个中央AP和若干个MDs环绕在AP周围,每个AP可以随时移动位置,但是与AP的距离始终保持在3-5米的范围内。无线信道增益表示为hi=[h1 t,h2 t,...hi t],信道增益的均值写为
Figure BDA0003967348940000141
则时变的无线信道增益可以写为
Figure BDA0003967348940000142
其中各部分参数定义如表2所示
表2环境参数
Symbol Definition numeric value
A<sub>d</sub> 天线增益 4.11
f<sub>c</sub> 载波频率 915MHz
d<sub>e</sub> 路径损失指数 2.8
α<sub>i</sub><sup>t</sup> 独立随机信道衰落因子 服从单位均值的指数分布
信道增益在单个时隙T内保持稳定不变,假设在本发明本发明示例的环境中,ω=100,信道带宽B=2MHz,噪声σ=10-10,能量收集系数μ=0.51,AP广播速率P=3。所有的仿真实验都在笔记本Intel(R)Core(TM)i5-1035G1 CPU@1.00GHz 1.19GHz上运行,运行内存8GB。
仿真实验过程及结论
对于DNN结构,考虑在提出的ARLO中采用一个输入层,一个隐藏层和一个输出层的DNN结构。将提出的ARLO算法与Local-only、Edge-only、AdvantageActorCritic三种方式作对比。
Local-onlyscheme:在这个方法中,所有的任务在到达MD后,都会留在MD的服务器中计算,该方法的结果可以作为分析任务卸载技术收益的基准。
Edge-onlyscheme:这是一个完整的卸载方案,所有任务都会被卸载给边缘服务器计算。
A2C scheme:A2C(AdvantageActorCritic)[36]是典型的Actor-Critic框架算法,它的损失函数写为Qπ(si,xi)-Vπ(si),以π表示策略,Qπ(si,xi)称为动作值函数,表示选择当前卸载策略xi对应的动作值函数,Vπ(si)表示该状态下所有可能的动作的动作值函数乘以采取该动作的概率的和,二者的差作为损失函数可以衡量当前行为的优劣。内部的actor和critic网络都和ARLO一样由一个输入层,一个隐藏层和一个输出层构成。每个用户选择动作为一个step,N个用户全部选择完结束一个episode并测试一次。
为了找到最适用于模型的学习率τ,以一个worker的critic网络的损失函数作为输出,研究了不同的学习率下的收敛情况。如图4的(a)、(b)、(c)、(d)所示,从图中可以看出,当学习率过低时,模型将难以收敛到最优结果,当τ=0.01时,收敛速度最快且loss函数波动性最低,所以之后的研究采用学习率为0.01。
图5以10个用户为例展示了这四种任务处理方式在相同情况下的表现。首先将A2C和ARLO先训练24000次,训练完成后测试6000次,并将这6000次的结果取平均值。图中的线段表示测试结果的波动情况。
从图5中可以看出,ARLO比Local-only、Edge-only和单纯的强化学习算法的加权和计算率高出很多,可以看出ARLO在提高计算速率上有着较强的优势。
图6以平均数的方式展示了ARLO、A2C、Edge-only、Local-only的训练过程。以1000次训练为例,每100次训练后对当前加权和计算率做一次平均。从图中可以看出,采用ARLO的收敛速度明显快于A2C。
在图7中,模拟了信道中噪声不同的情况下的模型性能,可以看到,随信道内噪声的增大,计算速率显而易见的有所下降,这也是符合情理的,信道条件不好必然会影响通信速率。但是,可以看到,模型在整体上还是呈现出一种快速收敛的趋势,所以模型有很强大的稳定性,受环境影响较小。
将不同数量的用户放到的实验平台上,观察模型在不同用户数下的表现,结果如图8(a)、(b)、(c)所示。可以看到,随着用户数的增加,系统的平均加权和计算速率反而有所增加,模型依旧可以快速收敛。这也证明了的本发明公开的模型适用于任务密集,用户数量庞大的环境中。
本发明提出一种Asynchronous Deep Deterministic Policy Gradient(ARLO)方法,将分布式学习应用到MEC系统中,以求最大化在移动通信中的加权和计算率。根据仿真实验可以看出本发明提出的方法能够较好地适应环境,且与传统的强化学习方法比较也有一定的优势,与不采用强化学习智能优化的Local-only和Edge-only方法比较更是有明显优势。此外还发现,该模型在信道条件不好时依旧稳定收敛,能够适用于恶劣环境,且随着系统内用户数量的增加,性能只增不减。
如图9所示,基于上述本发明实施例提供的用于边缘计算的分布式模型训练方法,本发明实施例还提供用于边缘计算的分布式模型训练装置,包括:
模型训练模块901,用于初始训练移动设备中的子网络模型,获得子网络模型的目标模型参数,或者用于从公共网络模型中获取到的公共模型参数训练子网络模型。
判断模块902,用于判断子网络模型是否满足模型更新条件。
通讯模块903,用于将目标模型参数传输至接入计算设备中,更新接入计算设备中的公共网络模型,接入计算设备利用边缘计算系统中各移动设备传输的目标模型参数,更新公共网络模型,以及当子网络模型满足模型更新条件时获取公共网络模型当前的公共模型参数。
在一个实施例中,模型训练模块901具体用于:
采用梯度下降法训练获得所述边缘计算系统的和计算率最大时的所述目标模型参数,所述和计算率采用如下公式计算:
Figure BDA0003967348940000171
其中,Rt为t时刻所述边缘计算系统的和计算率,γ∈(0,1]表示折扣因子,ri表示一个移动设备的计算率;
ri@wi((1-xi)RL,i(λ)+xiRO,i(λ,ai))
其中,i∈N,表示第i个所述移动设备,wi为加权系数,RL,i(λ)表示第i个所述移动设备本地计算所述计算任务的效率,RO,i(λ,ai)表示第i个所述移动设备卸载所述计算任务的效率。
在一个实施例中,模型训练模块901包括:
目标行为网络模型训练模块,用于采用目标行为网络模型的损失函数训练目标行为网络模型,目标行为网络模型的损失函数为:
La=-Q(siθ(s))
其中,s表示边缘计算网络的状态,s=hi,θ为所述目标行为网络模型的目标行为模型参数,μθ(s)表示基于目标行为模型参数θ且边缘计算网络状态s的卸载策略函数,Vπ(s)=E[Rt|st=s],Q表示基于策略π和状态s做出的动作xi,t的动作值函数。
在一个实施例中,模型训练参数901还包括:
目标评价网络模型训练模块,用于根据目标评价网络模型训练的损失函数训练目标评价网络模型。所述目标评价网络模型训练的损失函数根据所述目标评价网络模型的动作值函数以及所述辅助评价网络模型的动作值函数获得;
所述目标评价网络模型的动作值函数根据所述目标行为网络模型的动作值函数获得,所述辅助评价网络模型的所述动作值函数根据所述辅助行为网络模型的动作值函数获得。
在一个实施例中,目标评价网络模型训练的损失函数为:
Lc=MSE(Qg(si,xi),ri+γQg'(si',xi')
其中,Qg(si,xi)表示为基于目标评价模型参数g和状态s做出的动作xi,t的动作值函数;Qg'(si',xi')表示基于所述辅助评价模型参数g'和状态si'做出的动作xi'的动作值函数;γ表示折扣因子,ri表示单步奖励,与相应设备的计算效率相等。
在一个实施例中,辅助评价模型参数和辅助行为网络模型的辅助行为模型参数采用如下公式计算,包括:
Figure BDA0003967348940000181
其中,g为目标评价模型参数,g'为辅助评价模型参数,θ为目标行为模型参数,θ'为辅助行为模型参数,τ表示折扣因子。
在一个实施例中,本发明实施例公开的装置,还包括:
存储模块,用于将任务数据存储至经验池中,按照数据更新条件更新经验池,任务数据包括:第一时间的信道增益、卸载行为值、子网络模型的计算率、第二时间的信道增益,经验池中的任务数据用于作为训练样本,训练子网络模型。
另外本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述实施例公开的用于边缘计算的分布式模型训练方法。
其中,如图10所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括—但不限于—操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于边缘计算系统的模型训练方法,其特征在于,包括:
训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;
将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型;
判断所述子网络模型是否满足模型更新条件,若满足,则获取所述公共网络模型当前的公共模型参数,利用获取到的所述公共模型参数训练所述子网络模型。
2.如权利要求1所述的方法,其特征在于,所述训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数,包括:
采用梯度下降法训练获得所述边缘计算系统的和计算率最大时的所述目标模型参数,所述和计算率采用如下公式计算:
Figure FDA0003967348930000011
其中,Rt为t时刻所述边缘计算系统的和计算率,γ∈(0,1]表示折扣因子,ri表示一个移动设备的计算率;
ri@wi((1-xi)RL,i(λ)+xiRO,i(λ,ai))
其中,i∈N,表示第i个所述移动设备,wi为加权系数,RL,i(λ)表示第i个所述移动设备本地计算所述计算任务的效率,RO,i(λ,ai)表示第i个所述移动设备卸载所述计算任务的效率,λ={λi|i∈N}。
3.如权利要求2所述的方法,其特征在于,所述子网络模型包括:目标行为网络模型,所述目标行为网络模型训练的损失函数为:
La=-Q(siθ(s))
其中,s表示边缘计算网络的状态,s=hi,θ为所述目标行为网络模型的目标行为模型参数,μθ(s)表示基于目标行为模型参数θ且边缘计算网络状态s的卸载策略函数,Q表示基于策略π和状态s做出的动作xi,t的动作值函数。
4.如权利要求2所述的方法,其特征在于,所述子网络模型包括:目标评价网络模型、辅助评价网络模型和辅助行为网络模型;
所述目标评价网络模型训练的损失函数根据所述目标评价网络模型的动作值函数以及所述辅助评价网络模型的动作值函数获得;
所述目标评价网络模型的动作值函数根据所述目标行为网络模型的动作值函数获得,所述辅助评价网络模型的所述动作值函数根据所述辅助行为网络模型的动作值函数获得。
5.如权利要求4所述的方法,其特征在于,所述目标评价网络模型训练的损失函数为:
Lc=MSE(Qg(si,xi),ri+γQg'(si',xi'))
其中,Qg(si,xi)表示为基于目标评价模型参数g和状态s做出的动作xi,t的动作值函数,
Qg'(si',xi')表示基于所述辅助评价模型参数g'和状态si'做出的动作xi'的动作值函数,
γ表示折扣因子,
ri表示单步奖励,与相应设备的计算效率相等。
6.如权利要求5所述的方法,其特征在于,所述辅助评价模型参数和辅助行为网络模型的辅助行为模型参数采用如下公式计算,包括:
Figure FDA0003967348930000021
其中,g为所述目标评价模型参数,g'为所述辅助评价模型参数,θ为所述目标行为模型参数,θ'为所述辅助行为模型参数,τ表示折扣因子。
7.如权利要求1-4中任一项所述的方法,其特征在于,在训练所述子网络模型之前,所述方法还包括:
将任务数据存储至经验池中,按照数据更新条件更新所述经验池,所述任务数据包括:第一时间的信道增益、卸载行为值、所述子网络模型的计算率、第二时间的信道增益,所述经验池中的所述任务数据用于作为训练样本,训练所述子网络模型。
8.一种用于边缘计算系统的模型训练装置,其特征在于,包括:
模型训练模块,用于训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;
判断模块,用于判断所述子网络模型是否满足模型更新条件;
通讯模块,用于将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型,所述接入计算设备利用边缘计算系统中各所述移动设备传输的所述目标模型参数,更新所述公共网络模型;
所述通讯模块,还用于当所述子网络模型满足所述模型更新条件时获取所述公共网络模型当前的公共模型参数;
所述模型训练模块,还用于利用获取到的所述公共模型参数训练所述子网络模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202211503705.6A 2023-01-13 2023-01-13 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质 Pending CN115729707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211503705.6A CN115729707A (zh) 2023-01-13 2023-01-13 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211503705.6A CN115729707A (zh) 2023-01-13 2023-01-13 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN115729707A true CN115729707A (zh) 2023-03-03

Family

ID=85298741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211503705.6A Pending CN115729707A (zh) 2023-01-13 2023-01-13 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN115729707A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644802A (zh) * 2023-07-19 2023-08-25 支付宝(杭州)信息技术有限公司 模型训练方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644802A (zh) * 2023-07-19 2023-08-25 支付宝(杭州)信息技术有限公司 模型训练方法及装置

Similar Documents

Publication Publication Date Title
CN110225525B (zh) 一种基于认知无线电网络的频谱共享方法、装置及设备
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN113568727B (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN107708152B (zh) 异构蜂窝网络的任务卸载方法
CN110351754A (zh) 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN111836284B (zh) 基于移动边缘计算的能耗优化计算、卸载方法和系统
CN113271627A (zh) 一种基于混沌量子粒子群优化策略的移动边缘计算卸载方法
CN114938381B (zh) 一种基于深度强化学习的d2d-mec卸载方法
Ren et al. DDPG based computation offloading and resource allocation for MEC systems with energy harvesting
CN115729707A (zh) 用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质
CN115413044A (zh) 一种工业无线网络的计算和通信资源联合分配方法
Cui et al. Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network
CN114528081B (zh) 一种面向移动边缘计算用户隐私保护的任务卸载优化方法
CN114116061B (zh) 一种移动边缘计算环境下的工作流任务卸载方法及系统
KR102562732B1 (ko) Mec 기반 무선 네트워크의 태스크 오프로딩 장치 및 방법
CN112445617B (zh) 一种基于移动边缘计算的负载策略选择方法及系统
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
Jiang et al. Energy-saving Offloading Strategies for Sensor Tasks Based on Three-way Game Theory in Wireless Communications.
Huo et al. DRL-based Federated Learning Node Selection Algorithm for Mobile Edge Networks
Dong et al. Intelligent Multi-resources Allocation for Emergency Communications with Limited User Equipment Energy in UAV-assisted Networks
CN107276702B (zh) 一种认知无线电网络中实时检测多主用户数目的方法
Yu et al. Adaptive federated learning device selection strategy based on edge-end performance prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination