CN116321189A

CN116321189A - 一种面向边缘计算中基于深度强化学习的服务器部署方法

Info

Publication number: CN116321189A
Application number: CN202310106800.0A
Authority: CN
Inventors: 方娟; 刘雅祺; 滕自怡
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-06-23

Abstract

本发明公开了一种面向边缘计算中基于深度强化学习的服务器部署方法，该方法在考虑边缘服务器间异构性的同时加以能耗约束，平衡放置成本和平均接入时延两个优化目标。首先，确定边缘计算的网络架构，根据网络架构构建系统模型和计算模型，然后依据问题模型构建问题优化模型。其次，使用基于贪婪的策略优先选取单位资源成本价最低的服务器组成子集合，选取能耗上限大于请求和并且总成本最低的子集合进行后续部署工作。最后，将边缘服务器部署建模为马尔科夫决策过程，使用深度强化学习算法求解合理的边缘服务器部署策略，以充分利用有限的边缘计算资源。

Description

一种面向边缘计算中基于深度强化学习的服务器部署方法

技术领域

本发明属于物联网、人工智能领域，具体涉及一种边缘计算中基于深度强化学习的服务器部署方法。

背景技术

边缘计算技术是实现5G关键性能指标的新兴技术之一，在边缘计算框架下，移动网络和互联网业务实现了有效融合，并进一步扩展至其他应用领域。边缘计算最初被提出为云计算技术的补充和扩展，其基本思想是通过将服务器放置在用户端来提供计算和存储能力，其理念充分适应了互联网发展到物联网时代的基本形态要求——去中心化。相比于云计算，边缘计算可以有效缓解骨干网络拥塞，发掘无线网络的内在能力，具备时延低、带宽高、灵活性强等优点。但是，边缘计算的性能仍有待提升，相比于云中央服务器，边缘服务器具备的存储和计算资源有限，因此充分利用有限的边缘计算资源是提升边缘计算网络性能的方式之一。

现有面向边缘计算中的任务卸载策略得到了宽泛的研究，他们通常直接跳过边缘服务器部署这一前置步骤，将基站本身假设为计算资源或是假设服务器在网络中随机分布，但这些都是不切合实际的：首先，基站是无线电站台的一种，其功能与服务器完全不同，不能等同看待；其次，站在移动用户的角度来看，随机部署策略会对服务响应时间产生不利影响，进而造成请求密集区域用户服务质量的下降；最后，站在边缘供应商的角度来看，如果在每个基站处都放置一台边缘服务器，势必会造成放置成本的增加和资源的浪费。合理地部署服务器是提升边缘计算网络性能的第一个关键步骤，有助于为后续研究打下坚实基础，提升边缘计算网络性能。

近年来，一些研究采用基于聚类的方法部署边缘服务器，这种策略通常将服务器放置在每个用户群的中心处，但是由于没有照顾到偏离集群中心的用户，在实际应用中这些方案无法为平均用户服务质量提供保障。由于边缘服务器放置问题属于NP难问题，即不可能在多项式时间内找到所有最优可行解，现也有一些研究使用近似算法和启发式算法解决此类问题。Dixit Bhatta等人专注于优化服务器部署的成本和用户访问延迟，提出双因子近似算法将优化目标分离并独立分析最坏情况，从而达到多目标的帕累托最优状态，即在不降低其他目标值的情况下，无法提升任何目标函数的值；Yuanzhe Li等人在传统粒子群算法的基础上增添权值q，为大工作量和处于核心区域的基站提供服务质量保障，从而优化服务器的能耗和平均访问延迟，最大化边缘供应商的部署利润；考虑到近似算法和元启发式算法具有可扩展性差、易陷入局部最优解和参数调节困难等不足，Fei Luo等人使用强化学习算法解决边缘服务器放置问题，均衡服务器间工作负载，最大化资源利用率；针对车联网应用场景，Jiawei Lu等人在边缘网络中预先设定放置的服务器数量，利用深度强化学习算法求解令覆盖范围最大化的放置策略，但是以上研究均建立在假设服务器规模一致的基础上，没有考虑到现实边缘网络中服务器之间的异构性。

发明内容

本发明针对边缘计算网络中服务器利用不充分的问题，综合用户与供应商的需求，在考虑服务器间异构性的同时加以能耗约束，平衡放置成本和平均接入时延两个优化目标，提出合理的边缘服务器部署策略，以充分利用有限的边缘计算资源。

为解决上述问题，本发明提出一种面向边缘计算中基于深度强化学习的服务器部署方法，该方法在建立网络模型的基础上，依据问题模型解决服务器的选取和布局两个问题。首先，确定边缘计算的网络架构，根据网络架构构建系统模型和计算模型，然后依据计算模型确定问题优化模型。其次，使用基于贪婪的策略优先选取单位资源成本价最低的服务器组成子集合，选取能耗上限大于请求和并且总成本最低的子集合进行后续部署工作。最后，将边缘服务器部署建模为马尔科夫决策过程，使用深度强化学习算法求解合理的边缘服务器部署策略，以充分利用有限的边缘计算资源。具体包括以下步骤：

S1.确定边缘计算中服务器部署的网络架构；

本发明所涉及的是一种面向边缘计算中基于深度强化学习的服务器部署策略，如图2所示，边缘计算网络通常由三层架构组成：云计算中心层、边缘服务器层与用户层，本发明主要关心边缘服务器层。网络中存在若干个基站与若干台边缘服务器。规定边缘服务器只能放置在基站处，其中每个基站都可以作为服务器的候选放置点。每台服务器可以选择连接一个或多个基站，为了满足边缘计算中所有用户的计算和网络需求，每个基站都必须选择一台且仅有一台服务器相连接，当基站周围有多台服务器可以选择时，可以依据计算模型从中选择最合适的一台。

S2.根据边缘计算网络架构构建系统模型；

系统模型由网络拓扑模型和服务器布局关系模型组成。

网络拓扑模型如下：边缘服务器层的网络拓扑关系用二维无向图G＝(V,E)表示。其中V＝B∪S，B为基站集合，b_i(i＝1,2,3,...,m)表示第i个基站，S为服务器集合；s_j(j＝1,2,3,...,n)表示第j个服务器；

表示基站与服务器之间的连接关系，其中

表示基站b_i是否被分配给了服务器s_j。

服务器布局关系模型如下：边缘服务器的布局关系用Ω＝(L,E)表示，其中

表示服务器所在的位置集合，/>

代表边缘服务器s_j是否被放置在b_i处。

S3.根据边缘计算网络架构构建计算模型；

计算模型由服务器的能耗模型、成本模型和延迟模型三个部分组成。

能耗模型如下：对于服务器s_j，其能量消耗w(s_j)表示为

其中，w(b_i)为基站b_i承担的用户总访问量。

成本模型如下：边缘网络中所有服务器的放置成本和C为

其中，C(s_j)为服务器s_j的放置成本，如下所示：

C(s_j)＝λ₁W_max(s_j)+λ₂G(s_j) (3)

其中，W_max(s_j)为服务器s_j的能量上限，G(s_j)为服务器s_j的占地面积大小，λ₁和λ₂表示比例系数，服务器的放置成本与其能量上限和占地面积大小呈正相关，因此比例系数均为正数。

延迟模型如下：网络中的平均接入延迟为

其中，x为网络中选取的服务器总数，d(b_i,s_j)表示基站b_i和服务器s_j之间的接入时延。由于在5G系统中所有用户数据都需要经过用户平面功能(UPF)进行转发，传统使用欧式距离计算时延的方式不再精确，在计算时延时要将UPF纳入考虑。本方法只关注基站与服务器之间的接入时延，具体由基站与UPF之间的接入时延和UPF与边缘服务器之间的接入时延两部分组成，如下表示：

其中，u_k表示UPFk(k＝1,2,3…)，r表示UPF总个数。

S4.依据计算模型，建立考虑能耗上限，平衡成本与平均延迟的优化模型；

采用Z-Score标准化方法将平均时延和总成本两个互相博弈的优化目标归一化，并分别附以相加和为1的权值。综合服务器s_j的能耗上限得到优化模型

min(θZ_C+(1-θ)Z_D) (6)

Subject to:

其中，Z_C是公式(3)中的成本归一化后的结果，Z_D是公式(4)中的时延归一化后的结果。公式(7)表示服务器的能耗约束，即每台服务器的能量消耗不可以超过其上限。

S5.选取边缘服务器，包括以下步骤：

步骤一：服务器子集合选取；

首先统计网络中所有基站收到的网络请求和，其次在规格各异的服务器集合中，优先选取单位资源成本价最低的服务器组成子集合，保留能耗上限大于等于请求和的子集合；

步骤二：在所有子集合中，选择总成本价最低的子集合。

S6.将边缘服务器部署过程建立为马尔科夫决策过程，构建包括状态空间、动作空间和奖惩函数三大要素的马尔科夫决策模型，模型定义如下：

状态空间：状态空间S表示为服务器的放置队列和服务器与基站间的映射关系，即S＝(S₁,…,S_j,…,S_m)，其中S_j＝(Location_j,Allocation_j)，Location_j＝(lat_j,lon_j)表示边缘服务器s_j在二维无向图中的地点坐标，lat_j表示s_j的维度坐标值，lon_j表示s_j的经度坐标值；Allocation_j为边缘服务器s_j的基站映射队列，由与s_j相连接的基站编号组成。当服务器的放置位置或与基站的连接关系产生变化时，相应生成新的状态。

动作空间：设定每次行动随机改变网络中一个服务器的放置位置，且每个边缘服务器只能向邻近基站移动一步。在二维无向图中，服务器向上移动等同于向维度增大的基站方向移动，向右移动等同于向经度增大的方向移动，向左与向下的移动规则同理。一方面，动作空间A₁＝(0,1,2,…,m)定义为边缘服务器集合，网络中一共选取m台边缘服务器；另一方面，动作空间A₂＝(0,1,2,3)定义为边缘服务器的移动方向，其中0表示向上移动，1表示向下移动，2表示向左移动，3表示向右移动。将A₁与A₂合并为一个动作空间A＝(0,1,2,…,4*m)，这意味着对于有m台服务器的输入状态序列，一共对应有4*m种行动，最优行动就是其中之一。

奖惩函数：根据权利要求1中步骤2建立的优化模型，奖惩函数设定为：

R＝-(θZ_C+(1-θ)Z_D) (8)

S7.使用深度强化学习算法求解部署策略，用于实现优化目标，具体包括以下步骤：

步骤一：初始化参数，初始化算法迭代次数i、执行次数T、折扣因子γ、回放缓冲区容量N、批大小w和目标Q网络更新频率C；

步骤二：构建随机权重θ的评估Q网络以及权重为θ′的目标Q网络，设定θ′＝θ；

步骤三：循环i次迭代过程；

步骤四：根据定义的状态空间随机生成初始状态s₁；

步骤五：为了探索更多的可能性，根据当前状态s_t，使用ε-greedy算法选择动作a_t：

即有ε概率随机选择动作，1-ε概率选取状态s对应的Q值最大的动作；

步骤六：执行动作a_t，依据奖惩函数计算得到及时奖惩值r_t，并依赖评估Q网络获取下一状态s_t+1，将四元组(s_t,a_t,r_t,s_t+1)存入回放缓冲区；

步骤七：进行学习过程；

在回放缓冲区中随机选取w个元组，为每个元组计算目标Q值y_t：

通过反向传播最小化损失函数：

L＝E[(y_t-Q(s_t,a_t,θ))²]

更新θ；

步骤八：每执行C次动作，更新θ′＝θ；

步骤九：执行T次动作后进行下一轮迭代过程。

与现有技术相比，本发明具有以下优点：

面向边缘计算中基于深度强化学习的服务器部署策略可应用于任意边缘计算网络架构，有利于充分利用有限的边缘计算资源。该策略为了更接近实际应用场景，对边缘服务器加以能耗限制的同时考虑到服务器之间的异构性，设定计算、存储能力各不相同的服务器集供选择。采用深度强化学习算法求解策略，避免了传统近似算法和启发式算法具有的可扩展性差、易陷入局部最优解和参数调节困难等不足，充分考虑到边缘计算环境下用户和服务商的需求，权衡放置成本和平均接入时延两个优化目标。

附图说明

为使本发明的目的、结构和方案更加通俗易懂，下面将结合附图对本发明进一步说明。

图1为本发明流程图；

图2为边缘计算网络架构图；

图3为本发明的深度强化学习算法结构示意图。

具体实施方式

为使本发明的目的，技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。

本发明所涉及的是一种面向边缘-云异构下的多级事务调度分配策略，如图1所示，包括以下步骤：

S1.确定边缘计算中服务器部署的网络架构；

本发明所涉及的是一种面向边缘计算中基于深度强化学习的服务器部署策略，如图2所示，边缘计算网络通常由三层架构组成：云计算中心层、边缘服务器层与用户层，本课题主要关心边缘服务器层。边缘服务器层中存在若干个基站与若干台边缘服务器。规定边缘服务器只能放置在基站处，可以连接一至多个基站。每个基站都必须选择一台服务器相连接。

S2.根据边缘计算网络架构构建系统模型；

系统模型包括网络拓扑模型和服务器布局关系模型两部分；

网络拓扑关系用二维无向图G＝(V,E)表示。其中V＝B∪S，B＝b_i(i＝1,2,3,...,m)为基站集合；S＝s_j(j＝1,2,3,...,n)为服务器集合；

表示基站与服务器之间的连接关系，/>

表示基站b_i是否被分配给了服务器s_j。

服务器布局关系用Ω＝(L,E)表示。其中

表示服务器所在的位置集合，/>

表示边缘服务器s_j是否被放置在b_i处。

S3.根据边缘计算网络架构构建计算模型；

计算模型包括能耗模型、成本模型和延迟模型三个部分。

对于服务器s_j，其能量消耗w(s_j)表示为

w(b_i)为基站b_i承担的用户总访问量；放置成本为C(s_j)＝λ₁W_max(s_j)+λ₂G(s_j)，W_max(s_j)为服务器s_j的能量上限，G(s_j)为服务器s_j的占地面积大小，λ₁和λ₂表示正比例系数，边缘网络中所有服务器的放置成本和为/>

网络中的平均接入延迟为/>

x为网络中选取的服务器总数，/>

表示基站b_i和服务器s_j之间的接入时延，由基站与UPF之间的接入时延和UPF与边缘服务器之间的接入时延两部分组成，u_k表示UPFk(k＝1,2,3…)，r表示UPF总个数；

建立优化模型min(θZ_C+(1-θ)Z_D)，Z_C与Z_D分别是采用Z-Score标准化方法归一化后的成本和时延。

S5.选取边缘服务器，包括以下步骤：

步骤一：服务器子集合选取；

步骤二：在所有子集合中，选择总成本价最低的子集合。

S6.将边缘服务器部署过程建立为马尔科夫决策过程，构建包括状态空间、动作空间和奖惩函数三大要素的马尔科夫决策模型；

S7.使用深度强化学习算法求解部署策略，用于实现优化目标，包括以下步骤：

步骤一：初始化参数；

步骤三：循环i次迭代过程；

步骤四：根据定义的状态空间随机生成初始状态s₁；

步骤五：为了探索更多的可能性，根据当前状态s_t，使用ε-greedy算法选择动作a_t；

步骤六：将行动后得到的及时奖惩值和下一状态数据存入回放缓冲区；

步骤七：在回放缓冲区中随机取样，使用反向传播最小化损失函数，优化参数，训练神经网络；

步骤八：每执行C次动作，更新θ′＝θ；

步骤九：执行T次动作后进行下一轮迭代过程。

具体的步骤可以参照发明内容中的详细说明。

Claims

1.一种面向边缘计算中基于深度强化学习的服务器部署方法，其特征在于，包括以下步骤：

步骤1，确定边缘计算中服务器部署的网络架构；

边缘计算网络由三层架构组成：云计算中心层、边缘服务器层与用户层；边缘服务器层中，网络中存在若干个基站与若干台边缘服务器；规定边缘服务器只能放置在基站处，每台服务器选择连接一个或多个基站；每个基站都必须选择一台服务器相连接；

步骤2，根据边缘计算网络架构构建系统模型；

系统模型由网络拓扑模型和服务器布局关系模型组成；

网络拓扑模型如下：边缘服务器层的网络拓扑关系用二维无向图G＝(V,E)表示；其中V＝B∪S，B为基站集合，b_i(i＝1,2,3,...,m)表示基站i，S为服务器集合，s_j(j＝1,2,3,...,n)表示服务器j；

表示基站与服务器之间的连接关系，其中/>

表示基站b_i是否被分配给了服务器s_j；

表示服务器所在的位置集合，/>

代表边缘服务器s_j是否被放置在b_i处；

步骤3，根据边缘计算网络架构构建计算模型；

计算模型考虑服务器的能耗模型、成本模型和延迟模型三个部分；

能耗模型如下：对于服务器s_j，其能量消耗w(s_j)表示为

其中，w(b_i)为基站b_i承担的用户总访问量；

成本模型如下：边缘网络中所有服务器的放置成本和为

其中，C(s_j)为服务器s_j的放置成本，如下表示：

C(s_j)＝λ₁W_max(s_j)+λ₂G(s_j) (3)

其中，W_max(s_j)为服务器s_j的能量上限，G(s_j)为服务器s_j的占地面积大小，λ₁和λ₂表示比例系数，服务器的放置成本与其能量上限和占地面积大小呈正相关，因此比例系数均为正数；

延迟模型如下：网络中的平均接入延迟为

其中，x为网络中选取的服务器总数，d(b_i,s_j)表示基站b_i和服务器s_j之间的接入时延；基站与服务器之间的接入时延中，具体由基站与UPF之间的接入时延和UPF与边缘服务器之间的接入时延两部分组成，如下表示：

其中，u_k表示UPFk(k＝1,2,3…)，r表示UPF总个数；

步骤4，依据计算模型，建立考虑能耗上限，平衡成本与平均延迟的优化模型；

采用Z-Score标准化方法将平均时延和总成本两个互相博弈的优化目标归一化，并分别附以相加和为1的权值；综合服务器s_j的能耗上限得到优化模型：

min(θZ_C+(1-θ)Z_D)(6)

其中，Z_C是公式(3)中的成本归一化后的结果，Z_D是公式(4)中的时延归一化后的结果；公式(7)表示服务器的能耗约束，即每台服务器的能量消耗不超过其上限；

步骤5，选取边缘服务器，包括以下步骤：

步骤5.1，服务器子集合选取；

首先统计网络中所有基站收到的网络请求和，其次在规格各异的服务器集合中，选取单位资源成本价最低的服务器组成子集合，保留能耗上限大于等于请求和的子集合；

步骤5.2，在所有子集合中，选择总成本价最低的子集合。

2.根据权利要求1所述的一种面向边缘计算中基于深度强化学习的服务器部署方法，其特征在于：将边缘服务器部署过程建立为马尔科夫决策过程，使用深度强化学习算法求解部署策略，用于实现优化目标；具体包括以下步骤：

步骤1，构建包括状态空间、动作空间和奖惩函数三大要素的马尔科夫决策模型，模型定义如下：

状态空间：状态空间S表示为服务器的放置队列和服务器与基站间的映射关系，即S＝(S₁,…,S_j,…,S_m)，其中S_j＝(Location_j,Allocation_j)，Location_j＝(lat_j,lon_j)表示边缘服务器s_j在二维无向图中的地点坐标，lat_j表示s_j的维度坐标值，lon_j表示s_j的经度坐标值；Allocation_j为边缘服务器s_j的基站映射队列，由与s_j相连接的基站编号组成；当服务器的放置位置或与基站的连接关系产生变化时，相应生成新的状态；

动作空间：设定每次行动随机改变网络中一个服务器的放置位置，且每个边缘服务器只能向邻近基站移动一步；在二维无向图中，服务器向上移动等同于向维度增大的基站方向移动，向右移动等同于向经度增大的方向移动，向左与向下的移动规则相同；动作空间A₁＝(0,1,2,…,m)定义为边缘服务器集合，网络中一共选取m台边缘服务器；动作空间A₂＝(0,1,2,3)定义为边缘服务器的移动方向，其中0表示向上移动，1表示向下移动，2表示向左移动，3表示向右移动；将A₁与A₂合并为一个动作空间A＝(0,1,2,…,4*m)，对于有m台服务器的输入状态序列，一共对应有4*m种行动，最优行动就是其中之一；

R＝-(θZ_C+(1-θ)Z_D) (8)

步骤2，引入深度Q网络DQN解决边缘服务器部署问题。

3.根据权利要求2所述的一种面向边缘计算中基于深度强化学习的服务器部署方法，其特征在于，使用贝尔曼最优方程计算Q值，如下所示：

其中，折扣因子γ∈[0,1]是平衡当前奖惩值与未来奖惩值的权重；DQN算法获取离开当前状态时的及时奖惩反馈和下一个状态的最大Q值，选择最优策略以最大化总期望回报。

4.根据权利要求2所述的一种面向边缘计算中基于深度强化学习的服务器部署方法，其特征在于，DQN算法包括以下步骤：

步骤1，初始化参数，初始化算法迭代次数i、执行次数T、折扣因子γ、回放缓冲区容量N、批大小w和目标Q网络更新频率C；

步骤2，构建随机权重θ的评估Q网络以及权重为θ′的目标Q网络，设定θ′＝θ；

步骤3，循环迭代过程，每次迭代循环执行过程如下：

步骤3.1，根据DQN算法步骤1中定义的状态空间随机生成初始状态s₁；

步骤3.2，根据当前状态s_t，使用ε-greedy算法选择动作a_t：

步骤3.3，执行动作a_t，依据奖惩函数计算得到及时奖惩值r_t，并依赖评估Q网络获取下一状态s_t+1，将四元组(s_t,a_t,r_t,s_t+1)存入回放缓冲区；

步骤3.4，进行学习过程；

通过反向传播最小化损失函数：

L＝E[(y_t-Q(s_t,a_t,θ))²]

更新θ；

步骤3.5，每执行C次动作，更新θ′＝θ；

步骤3.6，执行T次动作后进行下一轮迭代过程。