CN111683381A

CN111683381A - 基于深度强化学习的端到端网络切片资源分配算法

Info

Publication number: CN111683381A
Application number: CN202010349221.5A
Authority: CN
Inventors: 朱晓荣; 李泰慧
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-09-18
Anticipated expiration: 2040-04-28
Also published as: CN111683381B

Abstract

本发明针对混合业务多切片共享无线资源情况，提出了一种基于深度强化学习(DQN)的端到端网络切片资源分配算法，从端到端的角度联合考虑接入侧和核心侧影响对资源进行动态合理分配。为训练得到合理的DQN网络，求解DQN中环境的反馈，将端到端系统接入率最优化问题解耦为接入侧和核心侧两部分，然后分别设计动态背包算法以及最大接入的链路映射算法求得最大端到端接入。该方法不管是在静态环境还是在动态环境都能利用训练好的网络动态调整资源，使得系统接入率显著提升。

Description

基于深度强化学习的端到端网络切片资源分配算法

技术领域

本发明公开了一种基于深度强化学习的端到端网络切片资源分配算法，能够应用到 5G网络中对含有多种业务的场景进行资源分配。该发明属于通信网络技术领域。

背景技术

5G网络将支持大量来自垂直行业的多样化业务场景，例如智能安防、高清视频、智能家居、自动驾驶和增强现实等，这些业务场景通常具有不同的通信需求。传统移动通信网络主要用来服务单一的移动宽带业务，无法适应未来5G多样化的业务场景。如果为每种业务场景都建设一个专有的物理网络必然会导致网络运维复杂、成本昂贵以及可扩展性差等问题。因此，为应对在一个物理网络上同时支持多种具有不同性能要求的业务场景，满足差异化服务对网络的不同需求，网络切片技术应运而生。

每个网络切片逻辑上都是一个独立的端到端网络，由一组网络功能及相应资源组成，针对特定的业务场景优化，提供端到端的按需定制服务。为了保证端到端正常通信，在接入侧必须进行无线资源的分配，在满足用户QoS前提下使得更多用户能够接入网络。传统的资源分配方法通常只考虑接入侧的性能进行分配。但是对于切片而言只有保证整个端到端的链路走通才算成功接入。因此对于5G网络切片中的资源分配必须联合考虑接入侧和核心侧的影响。

近几年来，深度强化学习迎来了研究的高潮，比如打败了人类为其高手的阿尔法狗。深度强化学习由强化学习和深度神经网络组成，该领域的研究着重于解决一系列在过去无法由机器解决的决策制定问题。深度强化学习在健康、机器人、智能电网、金融等领域，提出了新的应用。那么对于无线网络而言，能否利用它进行一些资源分配的决策呢？这是一个值得思考的问题。

因此，本发明提出了基于深度强化学习实现端到端网络切片资源分配的框架。综合考虑接入侧和核心侧影响，智能动态协调资源分配，从而提高系统容量。

发明内容

技术问题:本发明的目的是针对5G多业务下的网络切片场景，提出一种基于深度强化学习的端到端网络切片资源分配算法，从端到端的角度协调各个切片资源分配。保证整个系统端到端接入用户数量。

技术方案：本发明提出了一种基于深度强化学习的端到端网络切片资源分配算法，该方法包括如下步骤：

1.端到端切片系统模型及无线资源初始化

A.端到端模型之接入网

整个端到端模型由接入侧和核心侧两部分组成，接入侧主要为用户选择基站，核心侧则进行用户服务链的映射，从用户到基站再到核心侧的链路整个构成一条端到端通信链路，如图1所示。

在接入侧考虑上行链路蜂窝网络，假设网络具有完善的同步系统和信道估计，在网络中，所有基站统一用N＝{1,2,....,|N|}，切片表示为M＝{1,2,....,|M|}，所有用户表示为 U＝{1,2,....|U|}，切片m下的所有用户表示为U_m，切片m下的具体一个用户表示为u_m，基站的传输功率表示为P_n，系统总带宽为B，被分为L份，则频率域每个RB的带宽为B_l，时间域分为调度帧，每个调度帧由T个子帧组成，每个子帧的长度为Δ_t，则一个最小的资源块表示为

考虑每个用户选择性的接入一个基站。每个用户属于一种类型的切片，本发明考虑速率约束型和时延约束型两种类型的切片。对于速率约束型的切片，最低速率表示为

对于延迟约束型的切片，最大延迟表示为

假设用户u_m占用基站n的一个RB，

表示信道增益，σ表示噪声的频谱密度，则用户占用一个RB可以获得的速率表示如下：

用户对于基站的选择具有优先级排序，优先选择能够获得

大的基站，对于速率约束型用户，在基站n上传输的用户，需要的RB数量为Nv；

对于时延约束型的用户，将其看作一个排队论的模型，假设用户的数据包到达速率为λ_u，数据包的长度为L_u比特，则在利用Nt个RB传输时，算出此时的平均时延为

需要满足时延

要求需要的最少RB数量为Nt，则有：

B.无线资源初始化

计算每个用户连接不同基站的

的值越大，用户选择这一基站的优先级越高，初始化时假设用户选择优先级最高的基站，并且得到此时用户所需要的资源块的数量Nnum，速率约束切片Nnum等于Nv，对于延迟约束切片Nnum＝Nt。

初始化切片m分得资源A_m

则切片分配给基站的带宽资源计算如下：

初始化无线资源分配完成后，将利用初始分配的无线资源实现用户端到端的资源分配。

C.端到端模型之核心网链路映射

接入侧用户选择完基站，核心侧需要进行服务链的映射，用户才能实现端到端成功接入。用户选定了基站，便明确了用户所在切片的初始虚拟机。每个虚拟机都承载着特定功能的VNF，对于每种切片而言，它所需要的VNF是确定的，并按照一定顺序排列。这种特定顺序排列的VNF链路称作服务功能链如图2所示。

表1服务链符号定义

当一个用户的SFC请求来临时，需要为服务链中的每一个VNF找到一个物理虚拟机承载，并满足虚拟节点的容量需求和虚拟链路的带宽需求。每个用户服务链的初始 VM就是h_n,m即f₀映射的位置就是h_n,m。

y_1,j＝1，当

对于速率约束型切片要保证带宽需求，带宽需求表示为接入侧需要的RB数量Nnum，延迟约束切片延迟按需设定，速率约束型将q₂设置一个较大正整数，

D.问题建模

整个端到端切片问题介绍完毕，需要利用初始化分配的无线资源进行用户链路端到端的匹配，确定用户连接哪个基站，核心侧走哪条链路，使整个系统的接入率达到最大。将整个端到端的问题命名为问题P1,P1的目标和约束如下：

以上问题需要求解用户基站的选择即x_u,n，核心侧节点映射

以及链路映射

接入侧基站选择不同，则会影响核心侧链路映射的起点，只有当接入侧x_u,n和核心侧

同时映射成功，端到端才能实现成功通信。目标是使系统容量最大，约束1-5为接入侧约束，约束1表示一个用户最多只允许接入一个基站，约束2说明变量x_u,n只能取0， 1两个值。约束3表示同一切片的用户占有基站的资源不能超过切片分配给基站的资源，约束4，5分别表示时延和速率约束。约束6-11为核心侧约束，约束6表示服务链每个节点只能映射到一个虚拟机上，约束7表示每个虚拟机的容量约束，约束8表示每条链路的带宽约束，约束9是整条链路的延迟约束，约束10表示链路的流量守恒，约束11 表示核心侧成功标志。

2.基于深度强化学习的端到端切片资源动态调整

控制器在初始化资源分配方案确定后能够根据分配的资源求解P1得到此时系统的最大接入率，但是这种分配并不一定是最优的，因此接下来需要利用DQN网络进行资源动态调整，得到最优的资源分配方案，求解最优方案下的接入率。

A.DQN网络中重要参数设计

状态：s＝(R_m,S_m)R_m表示切片m中接入侧成功接入的概率大小，S_m表示成功实现端到端接入的用户相对接入侧成功接入的用户的比值。用户能否实现端到端成功接入受两方面的影响，一方面是接入侧资源是否足够，第二方面是核心侧节点和链路资源是否足够。定义S_m如下，S_m值较大则表示接入侧接入的用户在核心侧都能找合适链路接入，较小则表示用户无法接入受核心侧影响较大。

行为：定义为切片的资源增加或是减少的百分比，是一组离散的小数，其中负数表示分配给切片m资源增加，0表示切片资源不变，正数则表示资源增加。

a＝[-10％,-8％,-6％,-4％,-2％,0,2％,4％,6％,8％,10％]

奖励：奖励定义为系统总的接入率

Q值的更新：采取贝尔曼等式进行Q值更新，其中γ∈[0，1]表示折扣因子，表达式如下：

下一个状态：动作执行完后切片资源更新为

将切片的资源分散到基站确定

求解最优化问题P1，算出此时的奖励函数。和下一个状态的R_m,S_m。

资源更新：执行完动作首先需要进行切片级资源更新如下

所有切片按照上式进行切片资源调整，调整的结果可能超过系统总资源，需要将资源在此基础上进行归一化如下，这样便保证资源总和保持不变。

切片级资源更新完成就需要将切片资源再反馈到各基站上，同样定义切片m用户在基站n的相对接入成功率如下式

则当切片资源增加时，更新后切片分配到各基站的无线资源如下式

至此执行完动作之后切片级和基站级的资源更新就完成了,利用分得的资源带入最优化问题P1，将资源分配到用户，并实现整个端到端的用户资源分配。得到奖励函数，和下一时刻

Q网络结构：本发明的Q网咯为一个前向反馈的神经网络，网络的输入为切片的状态，输出为各种动作选择下的状态动作对Q值。

B.DQN动态调整资源算法描述

1)初始化DQN网络的参数，基站用户信息，核心侧拓扑信息；

2)根据(6)、(7)计算初始资源分配A_m,n代入P1求解得到端到端映射结果，代入(10)、(11)得到DQN初始状态R_m,S_m；

3)利用贪心策略选择一个行为a^t；

4)根据(14)-(17)更新下一个时刻的资源分配

代入P1求解达到端到端映射结果，从而得到下一个时刻的状态

和当前的奖励r^t；

5)将

存储到经验池；

6)如果存储资源次数达到迷你资源池的倍数，从经验池中选取迷你资源池大小的数据对DQN网络的当前值Q网络进行训练和参数更新；

7)训练次数达到某个时间周期，则将当前值Q网络复制给目标值网络；

8)对步骤2-7进行迭代，一直到网络收敛。

以上利用DQN对网络资源进行更新的过程，需要利用问题P1求解出每种资源分配方案下系统的接入率作为每种状态动作对的奖励。

3.DQN中奖励值的求解

对于DQN奖励值的计算就是问题P1的求解，这是一个0-1规划问题，并且存在多个变量。无法利用最优化的方法求解出其最优解，本文将其解耦成接入侧和核心侧两个子问题。使得两个子问题用户容量最大。

A.接入侧子问题

对于接入侧，切片无线资源确定时，切片之间具有隔离性。因此接入侧的目标函数和约束可以解耦为两个切片单独的目标函数和约束。速率约束型切片表示如下，时延约束型只需将速率约束改为时延约束。解耦的接入侧问题P2如下：

上述子问题属于NP-Hard问题,本发明采取动态背包算法进行求解：

1)输入切片分配给基站的资源A_m,n，基站和用户位置信息；

2)对于所有的基站采取0-1背包算法选定基站接入用户；

3)被多个基站选择的用户，选择需要Nnum最少的基站接入；

4)没有接入的用户重复步骤2，3，一直到基站没有资源或用户全部接入。

以上动态资源分配过程让用户在接入侧选择合适的基站，接入更多用户。

B.核心侧子问题

接入侧确定用户接入基站后，在核心侧需要对每条服务链进行映射使得用户容量最大，这样P1才能完全求解。每种切片的服务链映射也是相互隔离的，因此核心侧对每一种切片可以解耦成子问题P3如下：

上述问题无法采取最优化的方法求解，为了快速求解上述问题，并得到一个较优解，设计以下启发式算法，求解过程如下：

1)输入接入侧用户基站选择结果，核心侧网络拓扑信息；

2)对于速率约束切片，按照带宽要求对服务链进行排序，对于时延约束切片，按照时延要求对服务链进行排序，得到每种切片的服务链集；

3)每条服务链映射前，先将网络拓扑图中不满足带宽要求的边去掉；

4)服务链映射采取逐个点映射，初始点由用户选择的基站确定，对于速率约束切片根据公式：

对下一个进行评估，选择评估值大的作为下一个点；

5)对于时延约束切片根据公式：

对下一个进行评估，选择评估值大的作为下一个点；

6)服务链映射结束，判断时延是否满足要求，满足则映射成功；

7)按照步骤4-7依次对每类切片按照服务链集的顺序进行服务链映射。一直到服务链映射完成；

8)计算成功完成端到端服务链映射的用户总人数。

评估函数中v_i′∈V′指含有下一功能的所有候选节点，hop_i是使用Dijkstra算法计算的到候选节点的最短跳数。delay_i是使用Dijkstra算法计算到候选节点的最短时延，B_i表示最短跳数的剩余平均带宽，rec_i表示候选节点剩余功能数量。

对于速率约束型考虑最短路径并且平均剩余带宽大，同样节点剩余资源多，对于时延约束型主要考虑链路时延最短，且节点剩余资源多，这样做的目的也就是为了达到方便后面链路接入，节点资源能够达到一定程度的均衡，使得接入用户数最多。至此问题 P1就解决了，DQN网络的奖励值求得了，整个DQN网络便能进行训练，利用训练好的网络实现资源动态分配，整个流程如图3所示。

本发明相比现有技术,具有以下有益效果：

1.本发明提出基于深度强化学习的端到端网络切片资源分配算法，能够做到动态实时的进行无线资源分配的更新和服务链路的映射。

2.本发明考虑无线资源分配时不仅考虑了对接入侧的影响也考虑了核心侧的影响。从整个端到端网络切片的角度出发考虑无线虚拟资源的分配。

3.本发明考虑速率约束型切片和延迟约束型切片，对于不同类型的切片采取不同算法进行SFC映射，使得整个端到端的用户接入率最大。

附图说明

图1是端到端网络切片模型

图2是核心侧服务链映射系统模型

图3基于深度强化学习的端到端网络切片资源分配模型

具体实施方式

本发明设计了一种基于深度强化学习的端到端网络切片资源分配算法，该方法综合考虑接入侧和核心侧，动态合理分配资源，旨在提高系统的接入率。为了求得最佳的资源分配策略，利用深度强化学习对环境中影响接入率的因素进行训练,得到网络模型。为了求解在无线资源分配确定下接入率的值，针对接入侧和核心侧设计算法进行端到端资源映射映射，有了这些前提，从而能够利用训练好的网络对动态变化的环境进行合理资源分配。具体实施方法如下：

1.端到端模型及无线资源初始化

A.端到端模型接入侧相关计算

在接入侧考虑上行链路蜂窝网络，假设网络具有完善的同步系统和信道估计，考虑每个用户选择性的接入一个基站。每个用户属于一种类型的切片，本文考虑速率约束型和时延约束型两种类型的切片。对于速率约束型的切片，最低速率表示为

对于延迟约束型的切片，最大延迟表示为

用户u_m占用基站n的一个RB，

表示信道增益，σ表示噪声的频谱密度，计算用户占用一个RB可以获得的速率：

用户优先选择能够获得

大的基站，对于速率约束型用户计算在基站n上传输需要的RB数量Nv：

对于时延约束型的用户，将其看作一个排队论的模型，假设用户的数据包到达速率为λ_u，数据包的长度为L_u比特，用Nt个RB传输时，算出此时平均时延为

计算满足时延

要求需要的最少RB数量Nt：

B.无线资源初始化

计算每个用户连接不同基站的

的值越大用户选择这一基站的优先级越高，初始化时假设用户选择优先级最高的基站，用户所需要的资源块的数量为Nnum，速率约束型切片Nnum等于Nv，对于延迟约束切片Nnum＝Nt。

初始化切片m分得资源A_m

切片分配给基站的带宽资源计算如下：

初始化资源分配完成后，利用初始分配的无线资源实现用户端到端的映射。

C.端到端模型核心网

接入侧用户选择完基站，核心侧需要进行服务链的映射，用户才能实现端到端成功接入。用户选定了基站，便明确了用户所在切片的初始虚拟机。每个用户对应的服务链的初始VM都是h_n,m，f₀映射的位置就是h_n,m表示为：

y_1,j＝1，当

对于每条服务链需要为每一个VNF找到一个物理虚拟机承载，并满足虚拟节点的容量需求和虚拟链路的带宽需求，将带宽需求对应为接入侧需要的RB数量即Nnum，速率约束型的延迟设为一个较大的正整数，延迟约束型切片按需设定。

D.问题建模

整个端到端切片问题介绍完毕，要想知道如何分配资源系统接入率最高，就必须先求得资源分配确定时，用户如何进行基站选择和核心侧链路映射能使得系统接入率最大。将该问题命名为P1，目标和约束如下：

该问题求解的是资源分配确定时，如何进行端到端资源映射，但是本发明的最终目的是要实现资源的动态变化，因此该问题的求解是前提。

2.基于深度强化学习的端到端网络切片资源调整

控制器在初始化资源分配方案确定后求解问题P1得到此时系统的最大接入率，但是这种分配并不一定是最优的，因此接下来需要利用DQN网络进行资源动态调整，得到最优的资源分配方案。

A.DQN网络中重要参数设计

状态：s＝(R_m,S_m)，R_m表示切片m中接入侧成功接入的概率大小，S_m表示成功实现端到端接入的用户相对接入侧成功接入的用户的比值。

行为：定义为切片的资源增加或是减少的百分比，负数表示分配给切片m资源增加， 0表示切片资源不变，正数则表示资源增加。

a＝[-10％,-8％,-6％,-4％,-2％,0,2％,4％,6％,8％,10％]

奖励：奖励定义为系统总的接入率

下一个状态：动作执行完后切片资源更新为

需要将分配给切片的资源再分散到各基站确定

才能通过求解前面的最优化问题，算出此时的奖励函数。和下一个状态的R_m,S_m。

资源更新：切片级资源更新如下

按照上式进行切片资源调整，可能超过系统总资源，将资源进行归一化如下：

则更新后切片分配到各基站的无线资源如下式

至此执行动作后切片级和基站级的资源更新就完成了，将A_m,n带入问题P1求解整个端到端的资源映射。得到奖励函数，和下一时刻

Q网络结构：本发明的Q网咯设置为一个前向反馈的神经网络，网络的输入为切片的状态，输出为各种动作选择下的状态动作对Q值。

B.基于深度强化学习的端到端网络切片资源分配算法描述

1)初始化DQN网络的参数，基站用户信息，核心侧拓扑信息；

3)利用贪心策略选择一个行为a^t(上标t表示t时刻)；

4)根据(14)-(17)更新下一个时刻的资源分配

和当前的奖励r^t；

5)将

存储到经验池；

8)对步骤2-7进行迭代，一直到网络收敛。

以上利用深度强化学习对网络资源分配进行调整，需要利用问题P1求解出每种资源分配方案下系统的接入率作为每种状态动作对的奖励。

3.DQN中奖励值的求解

A.接入侧子问题

对于接入侧而言，切片无线资源确定时，切片之间便具有隔离性，相互之间互不影响。因此对于接入侧的目标函数和约束可以解耦为两个切片单独的目标函数和约束，对于速率约束型切片表示如下，对于时延约束型只需要将速率约束改为时延约束。对于速率约束型切片Nnum等于Nv，对于延迟约束切片Nnum＝Nt。解耦出来的接入侧问题P2 如下所示：

上述子问题的求解属于NP-Hard问题,本发明采取动态背包算法进行求解，求解过程描述如下：

1)输入切片分配给基站的资源A_m,n，基站和用户位置信息；

2)对于所有的基站采取0-1背包算法选定基站接入用户；

3)被多个基站选择的用户，选择需要Nnum最少的基站接入；

4)对于剩下没有接入的用户重复步骤2，3一直到基站没有资源或用户全部接入。

以上动态资源分配过程能够为每个用户在接入侧选择合适的基站，使得接入更多用户。

B.核心侧子问题

为了快速求解上述问题得到一个较优解，设计以下启发式算法：

1)输入接入侧用户基站选择结果，核心侧网络拓扑信息；

对下一个进行评估，选择评估值大的作为下一个点；

5)对于时延约束切片根据公式：

对下一个进行评估，选择评估值大的作为下一个点；

7)按照步骤4-7依次对每类切片按照服务链集的顺序进行服务链映射；一直到服务链映射完成；

8)计算成功完成端到端服务链映射的用户总人数。

至此问题P1就解决了，DQN网络每次训练的奖励值便得到了，整个DQN网络便可以训练，训练好的网络便可以对资源进行动态分配。

Claims

1.基于深度强化学习的端到端网络切片资源分配算法，其特征在于，包括如下步骤：

步骤1：建立端到端切片系统的问题模型P1；

步骤2：初始化切片资源分配方案，根据各基站分配到的资源求解问题模型P1，得到此时系统的最大接入率；

步骤3：以步骤2求解求得的最大接入率作为DQN网络的奖励值，利用DQN网络进行资源动态调整，得到最优的资源分配方案，求解最优方案下的接入率。

2.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法，其特征在于，步骤1中，所述问题模型P1为：

其中，基站表示为N＝{1,2,....,|N|}，切片表示为M＝{1,2,....,|M|}，所有用户表示为U＝{1,2,....|U|}，切片m下的所有用户表示为U_m，切片m下的具体一个用户表示为u_m，用户u接入基站n则x_u,n等于1，否则为0；用户u_m对映的服务链p在核心侧映射成功则

等于1，否则为0；Nnum表示用户u接入基站n所需要的最小资源块数量，A_m,n表示切片m分配给基站n的资源大小；接入侧速率约束切片，最低速率表示为

接入侧延迟约束切片，最大延迟表示为

服务链p的第i个功能映射在物理节点j则

等于1，否则为0；f_i表示服务链的第i个节点所需要的功能；

表示切片m中物理节点j所含有的虚拟网络功能k的数量；

表示服务链p是否占用物理节点j₁和j₂之间的链路，占用为1，不占用为0；

表示切片m中物理节点j₁和j₂之间的带宽；

表示切片m中物理节点j₁和j₂之间的传输带宽；

表示服务链p的带宽约束，

表示服务链p的时延约束。

3.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法，其特征在于，步骤2中，初始化切片m分得资源A_m

L表示总带宽分为L份，T表示每一份由T个子帧组成；则切片m分配给基站的带宽资源计算如下：

对于速率约束切片Nnum等于Nv，对于延迟约束切片Nnum＝Nt；

对于速率约束型用户，假设用户u_m占用基站n的一个资源块RB，

表示信道增益，σ表示噪声的频谱密度，B_l表示频率域每个RB的带宽，P表示用户的传输功率；则用户占用一个RB可获得的速率表示如下：

在基站n上传输的用户，需要的RB数量为Nv；

对于时延约束型的用户，假设用户的数据包到达速率为λ_u，数据包的长度为L_u比特，则在利用Nt个RB传输时，算出此时的平均时延为

需要满足时延

要求需要的最少RB数量为Nt，则有：

4.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法，其特征在于，步骤2求解问题模型P1的步骤包括：

将问题模型P1解耦成接入侧和核心侧两个子问题，使两个子问题用户容量最大；

A.接入侧子问题

接入侧的目标函数和约束可解耦为两个切片单独的目标函数和约束；速率约束型切片表示如下，时延约束型只需将速率约束改为时延约束；解耦的接入侧问题P2如下：

上述子问题属于NP-Hard问题，采取动态背包算法进行求解：

1)输入切片分配给基站的资源A_m,n，基站和用户位置信息；

2)对于所有的基站采取0-1背包算法选定基站接入用户；

3)被多个基站选择的用户，选择需要Nnum最少的基站接入；

4)没有接入的用户重复步骤2、3，一直到基站没有资源或用户全部接入；

B.核心侧子问题

核心侧对每一种切片可解耦成子问题P3如下：

上述问题求解过程如下：

1)输入接入侧用户基站选择结果，核心侧网络拓扑信息；

对下一个进行评估，选择评估值大的作为下一个点；

5)对于时延约束切片根据公式：

对下一个进行评估，选择评估值大的作为下一个点；

8)计算成功完成端到端服务链映射的用户总人数；

评估函数中v_i′∈V′指含有下一功能的所有候选节点，hop_i是使用Dijkstra算法计算的到候选节点的最短跳数；delay_i是使用Dijkstra算法计算到候选节点的最短时延，B_i表示最短跳数的剩余平均带宽，rec_i表示候选节点剩余功能数量。

5.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法，其特征在于，步骤3的具体步骤包括：

1)初始化DQN网络的参数，基站用户信息，核心侧拓扑信息；

2)计算初始资源分配A_m,n代入P1求解得到端到端映射结果，根据端到端映射结果得到DQN初始状态R_m,S_m，R_m表示切片m中接入侧成功接入的概率大小，S_m表示成功实现端到端接入的用户相对接入侧成功接入的用户的比值；

3)利用贪心策略选择一个行为a^t，行为a^t定义为切片的资源增加或是减少的百分比，上标t表示时刻；

4)更新下一个时刻的资源分配

和当前的奖励r^t；

5)将

存储到经验池；

8)对步骤2-7进行迭代，一直到网络收敛。

6.根据权利要求5所述的基于深度强化学习的端到端网络切片资源分配算法，其特征在于，所述DQN网络的参数包括：

状态：定义S_m如下：

行为：定义为切片的资源增加或是减少的百分比，是一组离散的小数，其中负数表示分配给切片m资源增加，0表示切片资源不变，正数则表示资源增加；

a＝[-10％,-8％,-6％,-4％,-2％,0,2％,4％,6％,8％,10％]

奖励：奖励定义为系统总的接入率

下一个状态：动作执行完后切片资源更新为

将切片的资源分散到基站确定

求解最优化问题P1，算出此时的奖励函数；和下一个状态的R_m,S_m；

资源更新：执行完动作首先需要进行切片级资源更新如下

所有切片按照上式进行切片资源调整，调整的结果可能超过系统总资源，需要将资源在此基础上进行归一化如下，这样便保证资源总和保持不变；

至此执行完动作之后切片级和基站级的资源更新就完成了，利用分得的资源带入最优化问题P1，将资源分配到用户，并实现整个端到端的用户资源分配；得到奖励函数，和下一时刻

Q网络结构：Q网络为一个前向反馈的神经网络，网络的输入为切片的状态，输出为各种动作选择下的状态动作对Q值。