CN116321189A - 一种面向边缘计算中基于深度强化学习的服务器部署方法 - Google Patents

一种面向边缘计算中基于深度强化学习的服务器部署方法 Download PDF

Info

Publication number
CN116321189A
CN116321189A CN202310106800.0A CN202310106800A CN116321189A CN 116321189 A CN116321189 A CN 116321189A CN 202310106800 A CN202310106800 A CN 202310106800A CN 116321189 A CN116321189 A CN 116321189A
Authority
CN
China
Prior art keywords
server
edge
network
model
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310106800.0A
Other languages
English (en)
Inventor
方娟
刘雅祺
滕自怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202310106800.0A priority Critical patent/CN116321189A/zh
Publication of CN116321189A publication Critical patent/CN116321189A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种面向边缘计算中基于深度强化学习的服务器部署方法,该方法在考虑边缘服务器间异构性的同时加以能耗约束,平衡放置成本和平均接入时延两个优化目标。首先,确定边缘计算的网络架构,根据网络架构构建系统模型和计算模型,然后依据问题模型构建问题优化模型。其次,使用基于贪婪的策略优先选取单位资源成本价最低的服务器组成子集合,选取能耗上限大于请求和并且总成本最低的子集合进行后续部署工作。最后,将边缘服务器部署建模为马尔科夫决策过程,使用深度强化学习算法求解合理的边缘服务器部署策略,以充分利用有限的边缘计算资源。

Description

一种面向边缘计算中基于深度强化学习的服务器部署方法
技术领域
本发明属于物联网、人工智能领域,具体涉及一种边缘计算中基于深度强化学习的服务器部署方法。
背景技术
边缘计算技术是实现5G关键性能指标的新兴技术之一,在边缘计算框架下,移动网络和互联网业务实现了有效融合,并进一步扩展至其他应用领域。边缘计算最初被提出为云计算技术的补充和扩展,其基本思想是通过将服务器放置在用户端来提供计算和存储能力,其理念充分适应了互联网发展到物联网时代的基本形态要求——去中心化。相比于云计算,边缘计算可以有效缓解骨干网络拥塞,发掘无线网络的内在能力,具备时延低、带宽高、灵活性强等优点。但是,边缘计算的性能仍有待提升,相比于云中央服务器,边缘服务器具备的存储和计算资源有限,因此充分利用有限的边缘计算资源是提升边缘计算网络性能的方式之一。
现有面向边缘计算中的任务卸载策略得到了宽泛的研究,他们通常直接跳过边缘服务器部署这一前置步骤,将基站本身假设为计算资源或是假设服务器在网络中随机分布,但这些都是不切合实际的:首先,基站是无线电站台的一种,其功能与服务器完全不同,不能等同看待;其次,站在移动用户的角度来看,随机部署策略会对服务响应时间产生不利影响,进而造成请求密集区域用户服务质量的下降;最后,站在边缘供应商的角度来看,如果在每个基站处都放置一台边缘服务器,势必会造成放置成本的增加和资源的浪费。合理地部署服务器是提升边缘计算网络性能的第一个关键步骤,有助于为后续研究打下坚实基础,提升边缘计算网络性能。
近年来,一些研究采用基于聚类的方法部署边缘服务器,这种策略通常将服务器放置在每个用户群的中心处,但是由于没有照顾到偏离集群中心的用户,在实际应用中这些方案无法为平均用户服务质量提供保障。由于边缘服务器放置问题属于NP难问题,即不可能在多项式时间内找到所有最优可行解,现也有一些研究使用近似算法和启发式算法解决此类问题。Dixit Bhatta等人专注于优化服务器部署的成本和用户访问延迟,提出双因子近似算法将优化目标分离并独立分析最坏情况,从而达到多目标的帕累托最优状态,即在不降低其他目标值的情况下,无法提升任何目标函数的值;Yuanzhe Li等人在传统粒子群算法的基础上增添权值q,为大工作量和处于核心区域的基站提供服务质量保障,从而优化服务器的能耗和平均访问延迟,最大化边缘供应商的部署利润;考虑到近似算法和元启发式算法具有可扩展性差、易陷入局部最优解和参数调节困难等不足,Fei Luo等人使用强化学习算法解决边缘服务器放置问题,均衡服务器间工作负载,最大化资源利用率;针对车联网应用场景,Jiawei Lu等人在边缘网络中预先设定放置的服务器数量,利用深度强化学习算法求解令覆盖范围最大化的放置策略,但是以上研究均建立在假设服务器规模一致的基础上,没有考虑到现实边缘网络中服务器之间的异构性。
发明内容
本发明针对边缘计算网络中服务器利用不充分的问题,综合用户与供应商的需求,在考虑服务器间异构性的同时加以能耗约束,平衡放置成本和平均接入时延两个优化目标,提出合理的边缘服务器部署策略,以充分利用有限的边缘计算资源。
为解决上述问题,本发明提出一种面向边缘计算中基于深度强化学习的服务器部署方法,该方法在建立网络模型的基础上,依据问题模型解决服务器的选取和布局两个问题。首先,确定边缘计算的网络架构,根据网络架构构建系统模型和计算模型,然后依据计算模型确定问题优化模型。其次,使用基于贪婪的策略优先选取单位资源成本价最低的服务器组成子集合,选取能耗上限大于请求和并且总成本最低的子集合进行后续部署工作。最后,将边缘服务器部署建模为马尔科夫决策过程,使用深度强化学习算法求解合理的边缘服务器部署策略,以充分利用有限的边缘计算资源。具体包括以下步骤:
S1.确定边缘计算中服务器部署的网络架构;
本发明所涉及的是一种面向边缘计算中基于深度强化学习的服务器部署策略,如图2所示,边缘计算网络通常由三层架构组成:云计算中心层、边缘服务器层与用户层,本发明主要关心边缘服务器层。网络中存在若干个基站与若干台边缘服务器。规定边缘服务器只能放置在基站处,其中每个基站都可以作为服务器的候选放置点。每台服务器可以选择连接一个或多个基站,为了满足边缘计算中所有用户的计算和网络需求,每个基站都必须选择一台且仅有一台服务器相连接,当基站周围有多台服务器可以选择时,可以依据计算模型从中选择最合适的一台。
S2.根据边缘计算网络架构构建系统模型;
系统模型由网络拓扑模型和服务器布局关系模型组成。
网络拓扑模型如下:边缘服务器层的网络拓扑关系用二维无向图G=(V,E)表示。其中V=B∪S,B为基站集合,bi(i=1,2,3,...,m)表示第i个基站,S为服务器集合;sj(j=1,2,3,...,n)表示第j个服务器;
Figure BDA0004075343370000031
表示基站与服务器之间的连接关系,其中
Figure BDA0004075343370000036
表示基站bi是否被分配给了服务器sj
服务器布局关系模型如下:边缘服务器的布局关系用Ω=(L,E)表示,其中
Figure BDA0004075343370000032
表示服务器所在的位置集合,/>
Figure BDA0004075343370000035
代表边缘服务器sj是否被放置在bi处。
S3.根据边缘计算网络架构构建计算模型;
计算模型由服务器的能耗模型、成本模型和延迟模型三个部分组成。
能耗模型如下:对于服务器sj,其能量消耗w(sj)表示为
Figure BDA0004075343370000033
其中,w(bi)为基站bi承担的用户总访问量。
成本模型如下:边缘网络中所有服务器的放置成本和C为
Figure BDA0004075343370000034
其中,C(sj)为服务器sj的放置成本,如下所示:
C(sj)=λ1Wmax(sj)+λ2G(sj) (3)
其中,Wmax(sj)为服务器sj的能量上限,G(sj)为服务器sj的占地面积大小,λ1和λ2表示比例系数,服务器的放置成本与其能量上限和占地面积大小呈正相关,因此比例系数均为正数。
延迟模型如下:网络中的平均接入延迟为
Figure BDA0004075343370000041
其中,x为网络中选取的服务器总数,d(bi,sj)表示基站bi和服务器sj之间的接入时延。由于在5G系统中所有用户数据都需要经过用户平面功能(UPF)进行转发,传统使用欧式距离计算时延的方式不再精确,在计算时延时要将UPF纳入考虑。本方法只关注基站与服务器之间的接入时延,具体由基站与UPF之间的接入时延和UPF与边缘服务器之间的接入时延两部分组成,如下表示:
Figure BDA0004075343370000042
其中,uk表示UPFk(k=1,2,3…),r表示UPF总个数。
S4.依据计算模型,建立考虑能耗上限,平衡成本与平均延迟的优化模型;
采用Z-Score标准化方法将平均时延和总成本两个互相博弈的优化目标归一化,并分别附以相加和为1的权值。综合服务器sj的能耗上限得到优化模型
min(θZC+(1-θ)ZD) (6)
Subject to:
Figure BDA0004075343370000043
其中,ZC是公式(3)中的成本归一化后的结果,ZD是公式(4)中的时延归一化后的结果。公式(7)表示服务器的能耗约束,即每台服务器的能量消耗不可以超过其上限。
S5.选取边缘服务器,包括以下步骤:
步骤一:服务器子集合选取;
首先统计网络中所有基站收到的网络请求和,其次在规格各异的服务器集合中,优先选取单位资源成本价最低的服务器组成子集合,保留能耗上限大于等于请求和的子集合;
步骤二:在所有子集合中,选择总成本价最低的子集合。
S6.将边缘服务器部署过程建立为马尔科夫决策过程,构建包括状态空间、动作空间和奖惩函数三大要素的马尔科夫决策模型,模型定义如下:
状态空间:状态空间S表示为服务器的放置队列和服务器与基站间的映射关系,即S=(S1,…,Sj,…,Sm),其中Sj=(Locationj,Allocationj),Locationj=(latj,lonj)表示边缘服务器sj在二维无向图中的地点坐标,latj表示sj的维度坐标值,lonj表示sj的经度坐标值;Allocationj为边缘服务器sj的基站映射队列,由与sj相连接的基站编号组成。当服务器的放置位置或与基站的连接关系产生变化时,相应生成新的状态。
动作空间:设定每次行动随机改变网络中一个服务器的放置位置,且每个边缘服务器只能向邻近基站移动一步。在二维无向图中,服务器向上移动等同于向维度增大的基站方向移动,向右移动等同于向经度增大的方向移动,向左与向下的移动规则同理。一方面,动作空间A1=(0,1,2,…,m)定义为边缘服务器集合,网络中一共选取m台边缘服务器;另一方面,动作空间A2=(0,1,2,3)定义为边缘服务器的移动方向,其中0表示向上移动,1表示向下移动,2表示向左移动,3表示向右移动。将A1与A2合并为一个动作空间A=(0,1,2,…,4*m),这意味着对于有m台服务器的输入状态序列,一共对应有4*m种行动,最优行动就是其中之一。
奖惩函数:根据权利要求1中步骤2建立的优化模型,奖惩函数设定为:
R=-(θZC+(1-θ)ZD) (8)
S7.使用深度强化学习算法求解部署策略,用于实现优化目标,具体包括以下步骤:
步骤一:初始化参数,初始化算法迭代次数i、执行次数T、折扣因子γ、回放缓冲区容量N、批大小w和目标Q网络更新频率C;
步骤二:构建随机权重θ的评估Q网络以及权重为θ′的目标Q网络,设定θ′=θ;
步骤三:循环i次迭代过程;
步骤四:根据定义的状态空间随机生成初始状态s1
步骤五:为了探索更多的可能性,根据当前状态st,使用ε-greedy算法选择动作at
Figure BDA0004075343370000061
即有ε概率随机选择动作,1-ε概率选取状态s对应的Q值最大的动作;
步骤六:执行动作at,依据奖惩函数计算得到及时奖惩值rt,并依赖评估Q网络获取下一状态st+1,将四元组(st,at,rt,st+1)存入回放缓冲区;
步骤七:进行学习过程;
在回放缓冲区中随机选取w个元组,为每个元组计算目标Q值yt
Figure BDA0004075343370000062
通过反向传播最小化损失函数:
L=E[(yt-Q(st,at,θ))2]
更新θ;
步骤八:每执行C次动作,更新θ′=θ;
步骤九:执行T次动作后进行下一轮迭代过程。
与现有技术相比,本发明具有以下优点:
面向边缘计算中基于深度强化学习的服务器部署策略可应用于任意边缘计算网络架构,有利于充分利用有限的边缘计算资源。该策略为了更接近实际应用场景,对边缘服务器加以能耗限制的同时考虑到服务器之间的异构性,设定计算、存储能力各不相同的服务器集供选择。采用深度强化学习算法求解策略,避免了传统近似算法和启发式算法具有的可扩展性差、易陷入局部最优解和参数调节困难等不足,充分考虑到边缘计算环境下用户和服务商的需求,权衡放置成本和平均接入时延两个优化目标。
附图说明
为使本发明的目的、结构和方案更加通俗易懂,下面将结合附图对本发明进一步说明。
图1为本发明流程图;
图2为边缘计算网络架构图;
图3为本发明的深度强化学习算法结构示意图。
具体实施方式
为使本发明的目的,技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。
本发明所涉及的是一种面向边缘-云异构下的多级事务调度分配策略,如图1所示,包括以下步骤:
S1.确定边缘计算中服务器部署的网络架构;
本发明所涉及的是一种面向边缘计算中基于深度强化学习的服务器部署策略,如图2所示,边缘计算网络通常由三层架构组成:云计算中心层、边缘服务器层与用户层,本课题主要关心边缘服务器层。边缘服务器层中存在若干个基站与若干台边缘服务器。规定边缘服务器只能放置在基站处,可以连接一至多个基站。每个基站都必须选择一台服务器相连接。
S2.根据边缘计算网络架构构建系统模型;
系统模型包括网络拓扑模型和服务器布局关系模型两部分;
网络拓扑关系用二维无向图G=(V,E)表示。其中V=B∪S,B=bi(i=1,2,3,...,m)为基站集合;S=sj(j=1,2,3,...,n)为服务器集合;
Figure BDA0004075343370000071
表示基站与服务器之间的连接关系,/>
Figure BDA0004075343370000074
表示基站bi是否被分配给了服务器sj
服务器布局关系用Ω=(L,E)表示。其中
Figure BDA0004075343370000072
表示服务器所在的位置集合,/>
Figure BDA0004075343370000073
表示边缘服务器sj是否被放置在bi处。
S3.根据边缘计算网络架构构建计算模型;
计算模型包括能耗模型、成本模型和延迟模型三个部分。
对于服务器sj,其能量消耗w(sj)表示为
Figure BDA0004075343370000081
w(bi)为基站bi承担的用户总访问量;放置成本为C(sj)=λ1Wmax(sj)+λ2G(sj),Wmax(sj)为服务器sj的能量上限,G(sj)为服务器sj的占地面积大小,λ1和λ2表示正比例系数,边缘网络中所有服务器的放置成本和为/>
Figure BDA0004075343370000082
网络中的平均接入延迟为/>
Figure BDA0004075343370000083
x为网络中选取的服务器总数,/>
Figure BDA0004075343370000084
表示基站bi和服务器sj之间的接入时延,由基站与UPF之间的接入时延和UPF与边缘服务器之间的接入时延两部分组成,uk表示UPFk(k=1,2,3…),r表示UPF总个数;
S4.依据计算模型,建立考虑能耗上限,平衡成本与平均延迟的优化模型;
建立优化模型min(θZC+(1-θ)ZD),ZC与ZD分别是采用Z-Score标准化方法归一化后的成本和时延。
S5.选取边缘服务器,包括以下步骤:
步骤一:服务器子集合选取;
首先统计网络中所有基站收到的网络请求和,其次在规格各异的服务器集合中,优先选取单位资源成本价最低的服务器组成子集合,保留能耗上限大于等于请求和的子集合;
步骤二:在所有子集合中,选择总成本价最低的子集合。
S6.将边缘服务器部署过程建立为马尔科夫决策过程,构建包括状态空间、动作空间和奖惩函数三大要素的马尔科夫决策模型;
S7.使用深度强化学习算法求解部署策略,用于实现优化目标,包括以下步骤:
步骤一:初始化参数;
步骤二:构建随机权重θ的评估Q网络以及权重为θ′的目标Q网络,设定θ′=θ;
步骤三:循环i次迭代过程;
步骤四:根据定义的状态空间随机生成初始状态s1
步骤五:为了探索更多的可能性,根据当前状态st,使用ε-greedy算法选择动作at
步骤六:将行动后得到的及时奖惩值和下一状态数据存入回放缓冲区;
步骤七:在回放缓冲区中随机取样,使用反向传播最小化损失函数,优化参数,训练神经网络;
步骤八:每执行C次动作,更新θ′=θ;
步骤九:执行T次动作后进行下一轮迭代过程。
具体的步骤可以参照发明内容中的详细说明。

Claims (4)

1.一种面向边缘计算中基于深度强化学习的服务器部署方法,其特征在于,包括以下步骤:
步骤1,确定边缘计算中服务器部署的网络架构;
边缘计算网络由三层架构组成:云计算中心层、边缘服务器层与用户层;边缘服务器层中,网络中存在若干个基站与若干台边缘服务器;规定边缘服务器只能放置在基站处,每台服务器选择连接一个或多个基站;每个基站都必须选择一台服务器相连接;
步骤2,根据边缘计算网络架构构建系统模型;
系统模型由网络拓扑模型和服务器布局关系模型组成;
网络拓扑模型如下:边缘服务器层的网络拓扑关系用二维无向图G=(V,E)表示;其中V=B∪S,B为基站集合,bi(i=1,2,3,...,m)表示基站i,S为服务器集合,sj(j=1,2,3,...,n)表示服务器j;
Figure FDA0004075343360000011
表示基站与服务器之间的连接关系,其中/>
Figure FDA0004075343360000012
表示基站bi是否被分配给了服务器sj
服务器布局关系模型如下:边缘服务器的布局关系用Ω=(L,E)表示,其中
Figure FDA0004075343360000013
表示服务器所在的位置集合,/>
Figure FDA0004075343360000014
代表边缘服务器sj是否被放置在bi处;
步骤3,根据边缘计算网络架构构建计算模型;
计算模型考虑服务器的能耗模型、成本模型和延迟模型三个部分;
能耗模型如下:对于服务器sj,其能量消耗w(sj)表示为
Figure FDA0004075343360000015
其中,w(bi)为基站bi承担的用户总访问量;
成本模型如下:边缘网络中所有服务器的放置成本和为
Figure FDA0004075343360000016
其中,C(sj)为服务器sj的放置成本,如下表示:
C(sj)=λ1Wmax(sj)+λ2G(sj) (3)
其中,Wmax(sj)为服务器sj的能量上限,G(sj)为服务器sj的占地面积大小,λ1和λ2表示比例系数,服务器的放置成本与其能量上限和占地面积大小呈正相关,因此比例系数均为正数;
延迟模型如下:网络中的平均接入延迟为
Figure FDA0004075343360000021
其中,x为网络中选取的服务器总数,d(bi,sj)表示基站bi和服务器sj之间的接入时延;基站与服务器之间的接入时延中,具体由基站与UPF之间的接入时延和UPF与边缘服务器之间的接入时延两部分组成,如下表示:
Figure FDA0004075343360000022
其中,uk表示UPFk(k=1,2,3…),r表示UPF总个数;
步骤4,依据计算模型,建立考虑能耗上限,平衡成本与平均延迟的优化模型;
采用Z-Score标准化方法将平均时延和总成本两个互相博弈的优化目标归一化,并分别附以相加和为1的权值;综合服务器sj的能耗上限得到优化模型:
min(θZC+(1-θ)ZD)(6)
Figure FDA0004075343360000023
其中,ZC是公式(3)中的成本归一化后的结果,ZD是公式(4)中的时延归一化后的结果;公式(7)表示服务器的能耗约束,即每台服务器的能量消耗不超过其上限;
步骤5,选取边缘服务器,包括以下步骤:
步骤5.1,服务器子集合选取;
首先统计网络中所有基站收到的网络请求和,其次在规格各异的服务器集合中,选取单位资源成本价最低的服务器组成子集合,保留能耗上限大于等于请求和的子集合;
步骤5.2,在所有子集合中,选择总成本价最低的子集合。
2.根据权利要求1所述的一种面向边缘计算中基于深度强化学习的服务器部署方法,其特征在于:将边缘服务器部署过程建立为马尔科夫决策过程,使用深度强化学习算法求解部署策略,用于实现优化目标;具体包括以下步骤:
步骤1,构建包括状态空间、动作空间和奖惩函数三大要素的马尔科夫决策模型,模型定义如下:
状态空间:状态空间S表示为服务器的放置队列和服务器与基站间的映射关系,即S=(S1,…,Sj,…,Sm),其中Sj=(Locationj,Allocationj),Locationj=(latj,lonj)表示边缘服务器sj在二维无向图中的地点坐标,latj表示sj的维度坐标值,lonj表示sj的经度坐标值;Allocationj为边缘服务器sj的基站映射队列,由与sj相连接的基站编号组成;当服务器的放置位置或与基站的连接关系产生变化时,相应生成新的状态;
动作空间:设定每次行动随机改变网络中一个服务器的放置位置,且每个边缘服务器只能向邻近基站移动一步;在二维无向图中,服务器向上移动等同于向维度增大的基站方向移动,向右移动等同于向经度增大的方向移动,向左与向下的移动规则相同;动作空间A1=(0,1,2,…,m)定义为边缘服务器集合,网络中一共选取m台边缘服务器;动作空间A2=(0,1,2,3)定义为边缘服务器的移动方向,其中0表示向上移动,1表示向下移动,2表示向左移动,3表示向右移动;将A1与A2合并为一个动作空间A=(0,1,2,…,4*m),对于有m台服务器的输入状态序列,一共对应有4*m种行动,最优行动就是其中之一;
奖惩函数:根据权利要求1中步骤2建立的优化模型,奖惩函数设定为:
R=-(θZC+(1-θ)ZD) (8)
步骤2,引入深度Q网络DQN解决边缘服务器部署问题。
3.根据权利要求2所述的一种面向边缘计算中基于深度强化学习的服务器部署方法,其特征在于,使用贝尔曼最优方程计算Q值,如下所示:
Figure FDA0004075343360000031
其中,折扣因子γ∈[0,1]是平衡当前奖惩值与未来奖惩值的权重;DQN算法获取离开当前状态时的及时奖惩反馈和下一个状态的最大Q值,选择最优策略以最大化总期望回报。
4.根据权利要求2所述的一种面向边缘计算中基于深度强化学习的服务器部署方法,其特征在于,DQN算法包括以下步骤:
步骤1,初始化参数,初始化算法迭代次数i、执行次数T、折扣因子γ、回放缓冲区容量N、批大小w和目标Q网络更新频率C;
步骤2,构建随机权重θ的评估Q网络以及权重为θ′的目标Q网络,设定θ′=θ;
步骤3,循环迭代过程,每次迭代循环执行过程如下:
步骤3.1,根据DQN算法步骤1中定义的状态空间随机生成初始状态s1
步骤3.2,根据当前状态st,使用ε-greedy算法选择动作at
Figure FDA0004075343360000041
即有ε概率随机选择动作,1-ε概率选取状态s对应的Q值最大的动作;
步骤3.3,执行动作at,依据奖惩函数计算得到及时奖惩值rt,并依赖评估Q网络获取下一状态st+1,将四元组(st,at,rt,st+1)存入回放缓冲区;
步骤3.4,进行学习过程;
在回放缓冲区中随机选取w个元组,为每个元组计算目标Q值yt
Figure FDA0004075343360000042
通过反向传播最小化损失函数:
L=E[(yt-Q(st,at,θ))2]
更新θ;
步骤3.5,每执行C次动作,更新θ′=θ;
步骤3.6,执行T次动作后进行下一轮迭代过程。
CN202310106800.0A 2023-02-13 2023-02-13 一种面向边缘计算中基于深度强化学习的服务器部署方法 Pending CN116321189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310106800.0A CN116321189A (zh) 2023-02-13 2023-02-13 一种面向边缘计算中基于深度强化学习的服务器部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310106800.0A CN116321189A (zh) 2023-02-13 2023-02-13 一种面向边缘计算中基于深度强化学习的服务器部署方法

Publications (1)

Publication Number Publication Date
CN116321189A true CN116321189A (zh) 2023-06-23

Family

ID=86823131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310106800.0A Pending CN116321189A (zh) 2023-02-13 2023-02-13 一种面向边缘计算中基于深度强化学习的服务器部署方法

Country Status (1)

Country Link
CN (1) CN116321189A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680091A (zh) * 2023-08-03 2023-09-01 北京交通大学 服务器的部署方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680091A (zh) * 2023-08-03 2023-09-01 北京交通大学 服务器的部署方法、装置、电子设备及存储介质
CN116680091B (zh) * 2023-08-03 2023-10-03 北京交通大学 服务器的部署方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112286677B (zh) 一种面向资源受限边缘云的物联网应用优化部署方法
Chen et al. Energy-efficient offloading for DNN-based smart IoT systems in cloud-edge environments
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
CN110795208B (zh) 基于改进粒子群的移动云计算自适应虚拟机调度方法
CN109600178A (zh) 一种边缘计算中能耗与时延和最小化的优化方法
CN113485826B (zh) 一种边缘服务器负载均衡方法、系统
CN111984419B (zh) 一种边缘环境可靠性约束的复杂任务计算迁移方法
CN111694664B (zh) 一种边缘服务器的计算卸载分配方法
CN112346839A (zh) 一种基于进化算法的关联任务调度方法
CN113407249B (zh) 一种面向位置隐私保护的任务卸载方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN111885493B (zh) 一种基于改进布谷鸟搜索算法的微云部署方法
Abbasi et al. Optimal distribution of workloads in cloud-fog architecture in intelligent vehicular networks
CN113992677A (zh) 一种延迟与能耗联合优化的mec计算卸载方法
CN116321189A (zh) 一种面向边缘计算中基于深度强化学习的服务器部署方法
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
CN113032149B (zh) 基于演化博弈的边缘计算服务放置和请求分配方法及系统
CN117149443B (zh) 一种基于神经网络的边缘计算服务部署方法
Wang et al. Registration area planning for PCS networks using genetic algorithms
Wu et al. An efficient many-objective optimization algorithm for computation offloading in heterogeneous vehicular edge computing network
CN113139639A (zh) 一种基于mombi面向智慧城市应用多目标计算迁移方法和装置
CN114980216B (zh) 基于移动边缘计算的依赖型任务卸载系统及方法
CN116805201A (zh) 一种无人机的能源补给站部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination