CN116669068A

CN116669068A - 一种基于gcn的时延业务端到端切片部署方法及系统

Info

Publication number: CN116669068A
Application number: CN202310439091.8A
Authority: CN
Inventors: 朱晓荣; 吴晨岚
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-08-29

Abstract

本发明公开了一种基于GCN的时延业务端到端切片部署方法及系统，方法包括建立端到端切片的系统模型；对系统模型中无线接入网时延以及核心网时延进行分析，以最小化端到端时延为目标函数，建立最优化问题；以最优化问题为目标采用系统模型中用户服务请求的网络功能依赖关系图为每类切片构建服务功能链，根据计算资源评估值和通信资源评估值选择每类切片的服务功能链；采用深度强化学习算法和图神经网络结合的方式处理每类切片的服务功能链，获得时延最小的最优服务功能链映射。本发考虑无线接入网和核心网的资源分配，并综合考虑了计算资源和通信资源的分配，为划分后的更细粒度的切片提供了端对端的部署策略。

Description

一种基于GCN的时延业务端到端切片部署方法及系统

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于GCN的时延业务端到端切片部署方法及系统。

背景技术

随着在5G时代，国际电信联盟(ITU)定义的三大应用场景分别为：增强移动宽带(eMBB)满足连续广覆盖和热点高容量场景需求；超高可靠低时延通信(uRLLC)满足工业自动化、远程自动驾驶等低时延高可靠应用需求；海量机器类通信(mMTC)满足低功耗大连接的物联网需求。其中为多种时延的需求在1～20ms，可靠性在“4个9”到“6个9”之间的所有业务提供URLLC通信能力。但是，在6G时代，随着通信的发展，新兴业务层出不穷，对时延的要求也越来越高，不仅要求“及时”，还要求“准时”。继电保护、远程医疗、工业现场网络、远程控制等控制场景均要求不同的网络性能。例如：远程医疗要求端到端时延<20ms，抖动<200us，如果不能达到要求，医生就无法及时对患者实施有效的救治；差动保护则要求时延<200us，抖动<50us，在这个时延要求内，才不会导致变电站对故障的误判。这些业务需要更细粒度的时延划分，现有的5G网络切片(NS，network slice)方案不能满足这种业务需求。

但是之前对于网络切片资源管理的研究大多只针对一种资源，或者只考虑无线接入网或者只考虑核心网，即只考虑单一切片的资源，考虑不够全面。但是不同种类的资源和不同切片之间的资源分配互相存在影响，需要综合考虑多种资源的联合分配，以及无线接入网和核心网的联合优化。而且，以往服务功能链的部署研究一般只关注传统的链式SFC，但是随着网络服务的复杂和多样化，SFC在很多情况下会呈现复杂的图结构，链式SFC已经无法充分表示服务请求。

发明内容

本发明的目的在于提供一种基于GCN的时延业务端到端切片部署方法及系统，以解决现有技术中端到端切片部署策略中资源分配考虑不全面导致时延高的问题。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明公开了一种基于GCN的时延业务端到端切片部署方法，包括：

建立端到端切片的系统模型；

对系统模型中无线接入网的排队时延、节点处理时延、传输时延以及核心网的节点处理时延、传输时延进行分析，以最小化端到端时延为目标函数，建立最优化问题；

以最优化问题为目标采用系统模型中用户服务请求的网络功能依赖关系图为每类切片构建服务功能链，根据计算资源评估值和通信资源评估值选择每类切片的服务功能链；

采用深度强化学习算法和图神经网络结合的方式处理每类切片的服务功能链，获得时延最小的最优服务功能链映射。

进一步地，建立端到端切片的系统模型包括：

将系统模型中的基础设施网络表示成无向加权图G_P＝(N_P，E_P，C_P，B_P)；其中，N_p表示物理节点集，N_P包括无线接入网节点N_a和核心网节点N_c；E_P表示一组物理链路，E_I包括无线接入网节点之间的物理链路E_a和核心网节点之间的物理链路E_c；C_P表示物理节点的容量集，B_P表示物理链路的带宽集；

将网络切片请表示为R_NS，其中R_NS＝R_NRT∪R_RT∪R_CT，其中，R_NRT表示非实时型切片，R_RT表示实时型切片，R_CT表示时延敏感型切片；其中，非实时型切片的业务对时延的要求大于100ms，实时型切片的业务对时延的要求为10ms-100ms，且抖动要求在时延的15％以内，时延敏感型切片若业务对时延的要求小于10ms，抖动要求在时延的1％以内，则该业务为时延敏感型业务；切片类型集合M＝{1，2，…，m}，每种类型的切片由不同的VNF组成，切片m的VNF组成为

将系统模型中的服务请求表示成有向无环图G_V＝(N_V，E_V)；其中，N_V表示虚拟节点集，E_V表示一组虚拟链路。

进一步地，对系统模型中无线接入网的排队时延、节点处理时延、传输时延以及核心网的节点处理时延、传输时延进行分析包括如下步骤：

在无线接入网中，假设在一个特定的区域中有多个RRU，J＝{1，2，…，j}，BHz的总带宽被分为多个物理资源块PRB，P＝{1，2，…，p}，用户可以接入不止一个RRU，且不同RRU中的不同物理资源块PRB可以分配给同一个用户，

则RRUj在物理资源块PRBp上给切片m中的用户u^m提供的速率为：

其中，b是RRUj在物理资源块PRBp上给切片m中的用户u^m分配的带宽，σ²为噪声功率，表示RRUj在物理资源块PRBp上给切片m中的用户u^m分配的功率，/>代表信道增益；

假设切片m的服务请求SFC数据包的到达过程满足时变参数为λ_m(t)的泊松分布，数据包大小服从均值为的指数分布；将RRUj在物理资源块PRBp上给切片m中的用户u^m提供的速率/>视为该条链路的服务速率R_m，k(t)，则平均包处理速率为：

在时隙t内，切片m的服务请求SFC的队列长度为q_m(t)，则服务请求SFC在DU侧队列更新公式为：q_m(t+1)＝max{q_m(t)+a_m(t)-d_m(t)，0}；

其中，a_m(t)＝λ_m(t)·T_s为时隙内到达的数据包个数，d_m(t)＝V_m(t)·T_s为时隙内处理的数据包数量，T_s为每个时隙t的持续时间；

根据little定理确定切片m在接入网中的排队时延为：

切片m在接入网及核心网中节点处理时延之和为：

表示第i个VNF是否部署到服务器n，/>当第i个VNF是否部署到服务器n时，/>否则，/>h_n，n′为物理节点n，n′之间的跳数，/>为物理节点n，n′之间的传输速率，/>代表切片m中节点n的计算处理能力；/>表示切片m中/>所需的数据包大小；

切片m在接入网及核心网中的传输时延之和为：

其中，表示第i个VNF是否部署到服务器n′。

进一步地，建立最优化问题的目标函数的表达式为：

min T^m。

其中，切片m的端到端时延为接入网中切片m的排队时延，/>为接入网及核心网中切片m的节点处理时延之和，/>为接入网及核心网中切片m的传输时延之和。

进一步地，根据计算资源评估值和通信资源评估值选择每类切片的服务功能链包括如下步骤：

将网络功能依赖关系图转换成树结构，树结构上每个节点对应一个虚拟网络功能；

集合Fk中各服务请求VNF位于树结构的不同层上，假设位于树结构的层数在集合Fk中是最高的，从/>所在节点寻找父节点、祖父节点直至根节点，将寻找到的节点从低辈分到高辈分的顺序放入集合q_node，将集合q_node和集合F^k做交集后赋给q_init，同时将q_init作为初始值赋给服务功能链Q^k；其中，F^k表示第k个网络服务请求所需虚拟网络功能的集合，对于每种虚拟网络功能/>

删除集合F^k与集合q_init中相同的元素，并将集合F^k中剩余的元素赋给集合q_rem；

从集合q_rem依次选择虚拟网络功能节点与按照添加剩余节点的规则生成新的服务功能链Qk构建方案，并更新集合/>的值；

计算新的服务功能链Q^k中各方案总的计算资源需求和总通信资源需求；

计算集合各方案的评估值；

根据评估值为每类切分配服务功能链。

进一步地，第K个网络服务请求C_K上虚拟网络功能所需总的计算资源的表达式为：

其中，|F^k|为F^k的模，μ_i表示每处理1Mb/s流量所需的计算资源，λ_i表示/>输出数据流带宽与输入数据流带宽的比值，/>表示/>输入数据流时的带宽；

第K个网络服务请求C_K上虚拟网络功能所需总的通信资源的表达式为：

其中，B_ini是当i为0时，的值；

第K个网络服务请求C_K所构建服务功能链的评估值V^k的表达式为：

其中，α、β分别表示通信资源和计算资源在评估中所占的比重。

进一步地，采用深度强化学习算法和图神经网络结合的方式处理每类切片的服务功能链，获得时延最小的最优服务功能链映射包括：

步骤1：初始化经验池大小，Q值网络和目标值网络参数的权重；

步骤2：整个网络每次训练时根据服务功能链构建算法为当前业务构建的服务功能链进行映射，重复步骤3-步骤5，直到整个网络收敛，获得时延最小的最优服务功能链映射；

步骤3：根据当前的网络状态S(t)，根据设定的ε策略从动作空间中选取动作A(t)执行，观察整个网络进入下一个状态S(t+1)；

步骤4：从执行的动作中获取奖励值R_t，更新Q值网络，再每隔C步更新目标值网络参数的权重；

步骤5：将样本(S(t)，A(t)，S(t+1)，R_t)存储到经验池，并从经验池中进行采样，进行Q值网络参数的训练更新。

进一步地，所述Q值网络包括依次连接的第一卷积层、第一激活函数层、第二卷积层和第二激活函数层，第一激活函数层和第二激活函数层均采用ReLu函数。

第二方面，本发明公开了一种基于GCN的时延业务端到端切片部署系统，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，该指令被执行时实现如第一方面任一所述的方法。

第三方面，本发明公开了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如第一方面任一所述的基于GCN的时延业务端到端切片部署方法方法。

根据上述技术方案，本发明的有益效果为：

本发明在建立优化问题时考虑无线接入网和核心网的资源分配，并在选择服务功能链时综合考虑了计算资源和通信资源的分配，为划分后的更细粒度的切片提供了端对端的部署策略，并最大化地降低了端到端时延；采用深度强化学习算法和图神经网络结合的方式能够充分发挥两个模型的优势，一方面可解决深度强化学习算法估计过高的问题，另一方面能够更好地提取图的特征，实现复杂图结构的服务功能链的部署研究问题。

附图说明

图1是本发明的端到端切片示意图；

图2是本发明所使用的网络功能依赖关系图；

图3是本发明所使用的基于深度优先搜索的服务功能链的构建算法示意图；

图4是本发明的基于GCN的低时延业务端到端网络切片算法的架构图；

图5是本发明的流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明为了解决现有的5G网络粗粒度切片划分方案，无法满足车联网、智能电网、工业互联网等的各种网络场景的时延细粒度的业务需求的问题，同时针对6G网络服务的复杂和多样化。本发明综合考虑了计算资源和通信资源的分配，并同时考虑了无线接入网和核心网的资源分配。在此基础上，提出用图结构的SFC来表示服务请求，即将服务请求表示成DAG。基于不同业务的时延要求，对时延型端到端网络切片做了更细粒度的划分，并为划分后的切片提供了端对端的部署策略。

实施例1

如图5所示，本发明公开了一种基于GCN的时延业务端到端切片部署方法，包括：建立端到端切片的系统模型；对系统模型中无线接入网的排队时延、节点处理时延、传输时延以及核心网的节点处理时延、传输时延进行分析，以最小化端到端时延为目标函数，建立最优化问题；以最优化问题为目标采用系统模型中用户服务请求的网络功能依赖关系图为每类切片构建服务功能链，根据计算资源评估值和通信资源评估值选择每类切片的服务功能链；采用深度强化学习算法和图神经网络结合的方式处理每类切片的服务功能链，获得时延最小的最优服务功能链映射。

下面通过具体的实施例对本申请基于GCN的时延业务端到端切片部署方法进行说明。

部署方法具体包括：步骤S1、建立了端到端切片的系统模型。采用时延和抖动两个指标对各种新兴业务就时延方面进行划分。同时将基础设施网络可以抽象为无向加权图，它可以表示为G_P＝(N_P，E_P，C_P，B_P)；其中，N_P表示物理节点集，N_P包括无线接入网节点N_a和核心网节点N_c；E_P表示一组物理链路，E_I包括无线接入网节点之间的物理链路E_a和核心网节点之间的物理链路E_c；C_P表示物理节点的容量集，B_P表示物理链路的带宽集。网络切片请求(NSR)用R_NS表示。每个请求表示为G_R＝(N_R，E_R，C_R，B_R，T_R)。

步骤S2、综合考虑了计算资源和通信资源的分配，同时考虑了无线接入网和核心网的资源分配的情况下，对无线接入网的排队时延、节点处理时延、传输时延和核心网的节点处理时延、传输时延进行了详细分析。

步骤S3、对优化问题进行建模，建立最优化问题并给出约束条件。

步骤S4、先将每个用户服务请求的网络功能依赖关系图单独建立，然后利用算法对每个用户的网络功能依赖关系图进行构建服务功能链。并根据各方案总的计算资源需求和总通信资源需求计算各方案的评估值，从而为每类切片分配合适的服务功能链。

步骤S5、服务功能链的映射问题可以被视为一个马尔科夫决策过程(MDP)，可以通过强化学习的方法进行求解。本发明通过采用GCN的思想对Double DQN的EvaluationNetwork和Target Network进行改进，实现Double DQN和GCN的结合。本发明按照GCN的特点对DDQN的Evaluation Network和Target Network做出了两点修改。一方面修改了神经网络的层结构，使用两层卷积层，两层激活函数层，激活函数使用ReLu。另一方面对层与层之间的传播函数进行了修改。通过引入邻居矩阵，从而更好地提取图的特征。

在步骤S1中，采用时延和抖动两个指标对各种新兴业务就时延方面做出划分，具体分为三类：非实时型、实时型和时延敏感型。其中，非实时业务涵盖数据采集、机器视觉、定位等IT类非实时业务，其对时延的要求一般大于100ms，时延要求较低，对时延确定性要求不高；实时业务包括智能运输系统、生产配电等，其对时延的要求一般在10ms到100ms之间，抖动要求控制在时延的15％以内；时延敏感性业务包括实时交互和工业控制类业务，如远程驾驶、运动控制等，其对时延的要求一般在10ms以内，抖动要求控制在时延的1％以内。

如图1所示，基础设施网络可以抽象为无向加权图，它可以表示为G_P＝(N_P，E_P，C_P，B_P)；其中，N_P表示物理节点集，N_P包括无线接入网节点N_a和核心网节点N_c；E_P表示一组物理链路，E_I包括无线接入网节点之间的物理链路E_a和核心网节点之间的物理链路E_c；C_P表示物理节点的容量集，B_P表示物理链路的带宽集。

网络切片请求(NSR)集由三种类型的切片组成，可以用R_NS表示，R_NS＝R_NRT∪R_RT∪R_CT，其中R_NRT表示非实时型切片，R_RT表示实时型切片，R_CT表示时延敏感型切片。切片类型集合为M＝{1，2，…，m}。每个请求表示为G_R＝(N_R，E_R，C_R，B_R，T_R)。每种类型的切片由不同的VNF组成，切片m的VNF组为本文提出用图结构的SFC来表示服务请求，即将服务请求表示成有向无环图G_V＝(N_V，E_V)。其中N_V表示虚拟节点集，E_V表示一组虚拟链路。

在步骤S2中，对无线接入网的排队时延、节点处理时延、传输时延和核心网的节点处理时延、传输时延进行了详细分析。

无线接入网中，假设在一个特定的区域中有多个RRU，J＝{1，2，…，j}，BHz的总带宽被分为多个物理资源块PRB，P＝{1，2，…，p}，用代表RRUj在PRBp上给切片m中的用户u^m分配的功率，/>代表信道增益，包括路径损耗、多径衰落、阴影衰落和天线增益等。用户可以接入不止一个RRU，且不同RRU中的不同PRB可以分配给同一个用户，RRUj在PRBp上给切片m中的用户u^m提供的速率，可表示为：

其中，b是RRUj在PRBp上给切片m中的用户u^m分配的带宽，σ²为噪声功率。

假设切片m的SFC数据包的到达过程满足时变参数为λ_m(t)的泊松分布，数据包大小服从均值为的指数分布。

将RRUj在PRBp上给切片m中的用户um提供的速率视为该条链路的服务速率R_m，k(t)，则平均包处理速率为：

在时隙t内，切片m的SFC的队列长度为q_m(t)，则SFC在DU侧队列更新公式为：q_m(t+1)＝max{q_m(t)+a_m(t)-d_m(t)，0}；

其中，a_m(t)＝λ_m(t)·T_s为时隙内到达的数据包个数，d_m(t)＝V_m(t)·T_s为时隙内处理的数据包数量，T_s为每个时隙t的持续时间。

根据little定理(系统中物体的平均数量等于物体到达系统的平均速率和物体在系统中停留的平均时间的乘积)，所以接入网中，切片m的排队时延可表示为：

定义，表示第i个VNF是否部署到服务器n，即当第i个VNF是否部署到服务器n时，/>否则，/>h_n，n′为物理节点n，n′之间的跳数，/>为物理节点n，n′之间的传输速率，/>代表切片m中节点n的计算处理能力；/>表示切片m中/>所需的数据包大小。

物理网络节点n在收到数据包后要花费一定的时间进行处理，即为节点处理时延，切片m在接入网及核心网中的的节点处理时延之和表示为：

而链路传输时延指在物理网络的各节点之间的网络链路上传输数据包所需要的时间，切片m在接入网及核心网中的传输时延之和表示为：

在步骤S3中，切片m的端到端时延T^m等于排队时延、处理延迟和传输时延的和：

因此目标函数为

min T^m；

约束条件：

其中，式(a)用于确保SFC上的VNF只能选择一台服务器进行部署；式(b)确保部署在给定服务器上的VNF所需的资源总和不超过该服务器的总计算资源；式(c)保证映射到物理链路的所有虚拟链路的带宽需求之和不超过该物理链路的总带宽；式(d)当SFC中的两个相邻VNF部署到服务器n和服务器m时，物理链路nm之间必须有一条连续路径；式(e)(f)(g)表示VNF部署、虚拟链路映射和服务器状态的二进制变量约束。

在步骤S4中，网络功能之间的关系分为有依赖和无依赖，有依赖关系是指需要按顺序对数据流进行信息的处理。对一个切片网络可以利用网络切片技术进一步划分，为每个用户提供定制化网络服务。将用户的服务请求构建成服务功能链，再将SFC上的虚拟网络功能分配到最优位置上的虚拟机进行处理，再为SFC用到的虚拟机定制链路连接起来，就能为用户生成专属的网络服务。不同用户的网络服务请求不同，网络服务需求也不同，所以需要的网络功能种类和个数也会不同。用户服务请求网络功能的依赖关系和网络功能处理数据流输出与输入带宽比值λ_f及处理1Mb/s流量所需的计算资源μ_f都需要遵循所在切片网络上网络功能依赖关系、网络功能的λ_f和μ_f参数值。

为用户提供定制化网络服务首先要将用户的服务请求构建成服务功能链，服务功能链约束条件主要为：虚拟网络功能之间存在依赖关系和VNF之间的带宽需求。

构建服务功能链算法需要先将每个用户服务请求的网络功能依赖关系图单独建立，然后利用算法根据每个用户的网络功能依赖关系图进行构建服务功能链。

本文所使用的网络功能依赖关系图如图2所示：

其中，服务功能f₂指向f₁的虚线代表f₂依赖f₁，在构建服务链时f₂位于f₁之后；λ_f为输出与输入带宽比值；μ_f为处理1Mb/s流量所需的计算资源。

其中，服务请求包含了源节点S、目的节点T、初始带宽需求B_ini以及虚拟网络功能集。根据网络功能依赖关系图可以生成不同的服务功能链构建方案，不同的构建方案需要的计算资源和通信资源也不一样。

数学模型：

对一个切片网络上的网络功能集合使用F表示。将功能之间依赖关系利用|F|行和|F|列的矩阵D进行表示：

使用表示C_K上虚拟网络功能所需总的计算资源，其中C_K表示第K个网络服务请求。则

其中，|F^k|为F^k的模，μ_i表示每处理1Mb/s流量所需的计算资源，λ_i表示/>输出数据流带宽与输入数据流带宽的比值，/>表示/>输入数据流时的带宽；使用/>表示C_K上虚拟网络功能所需总的通信资源，则

其中，B_ini是当i为0时，的值；

使用V^k表示C_K所构建服务功能链的评估值：

最后根据实际需求选择不同评估值的服务功能链。

服务功能链构建算法：

基于深度优先搜索的服务功能链的构建算法基本思想是：首先，将切片网络上虚拟网络功能约束关系抽象成树结构，树结构上每个节点对应一个虚拟网络功能；其次F^k中虚拟网络功能位于树结构不同层上，选择一个层级最高虚拟网络功能节点来寻找该节点的父节点、祖父节点直到根节点，作为服务功能链构建方案的初始值；最后，依此对初始服务功能链方案中元素寻找兄弟节点，添加在元素的前后，从而生成新的服务功能链。

具体的构建步骤如下：

a)从依赖关系图中寻找被其他节点依赖但不需要依赖其他节点的节点作为根，如图2中用f₁作为树根节点，由于f₂，f₃需要依赖于f₁，但是f₁不需要依赖其他节点。根据依赖关系可以将依赖关系图抽象成以f₁为根节点的树，如图3所示。树结构图生动地展现了各个节点的依赖关系。如f₂和f₃依赖f₁，f₄和f₅依赖f₂。集合F^k中各VNF位于树结构的不同层上。

b)假设位于树结构的层数在集合Fk中是最高的，然后从/>所在节点去寻找父节点、祖父节点直至根节点，将这些节点从低辈分到高辈分的顺序放入集合q_node，然后q_node和F^k做交集后赋给q_init，同时将q_init作为初始值赋给Q^k。

c)去除集合F^k与集合q_init中相同的元素，并将F^k中剩余的元素赋给集合q_rem。其中，gem表示q_rem上第i个元素。

d)从集合q_rem选择依次选择虚拟网络功能节点与按照添加剩余节点规则生成新的服务功能链构建方案并更新/>集合的值。添加剩余节点规则如下：规则1：当/>所在树的层低于或等于/>需在树结构的层时，若m值为0时，/>的前后均可以放置/>若m值大于0时，将/>添加到/>的后面。不同的放置方式就形成不同构建方案；规则2：若/>所在树的层高于/>则前后都不可添加；其中，/>表示集合q_rem上第i个元素。

e)对Q^k中构建方案利用上式计算各方案总的计算资源需求和总通信资源需求。

f)通过上式计算各方案的评估值。

g)根据评估值为各个切片分配合适的服务功能链构建结果。

步骤S5中，服务功能链的映射问题已经被证明是NP难问题。最优化的目标是最小化时延，将整个基础设施网络和构建好的SFC的资源信息和拓扑信息作为整个系统的状态，将VNF的节点映射作为系统的动作。整个系统的奖励值设置为时延相关的值。因此，服务功能链的映射问题可以被视为一个马尔科夫决策过程(MDP)，可以通过强化学习的方法进行求解。

由定义可知，MDP包含一组交互对象，即智能体和环境：智能体(agent)：MDP中进行机器学习的代理，可以感知外界环境的状态进行决策、对环境做出动作并通过环境的反馈调整决策；环境(environment)：MDP模型中智能体外部所有事物的集合，其状态会受智能体动作的影响而改变，且上述改变可以完全或部分地被智能体感知。环境在每次决策后可能会反馈给智能体相应的奖励，智能体与环境的交互如图4所示。

MDP包含5个模型要素，可以对5个元素抽象表示为(S，A，P，R，γ)，其中S为状态空间，A表示的是动作空间，P表示的是状态转移概率，R表示的是奖励值，γ则表示的是折扣因子。在每个时间步τ，DRL代理观察状态S_τ，并选择动作a_τ。在环境执行动作后，环境的状态转移到S_τ+1，代理收到奖励r_τ。

状态s_t是对前时刻t环境的表示，可以是离散的或者是连续的，其状态空间为S。动作a_t，是对智能体当前时刻t执行的行为描述，动作空间为A。策略π(a_t|s_t)，是智能体根据当前所处的环境s_t来决定下一步动作a_t的函数。状态转移概率p(s_t+1|s_t，a_t)，即智能体根据当前时刻t状态s_t做出一个动作a_t之后，下一个时刻环境处于不同状态s_t+1的概率。即时奖励R_t，即智能体根据s_t做出一个动作a_t之后，环境会反馈给智能体一个奖励，这个奖励和动作之后下一个时刻的状态s_t+1有关。

为了来评价策略π(a_t|s_t)的好坏，希望智能体执行一系列的动作来获得尽可能多的平均期望回报奖励。定义状态-动作值函数：Q^π(s，a)状态值函数表示的是在s_t状态下执行策略π(a_t|s_t)a_t的动作，所得到的期望回报奖励。其表达式表示如下：

Q^π(s，a)＝E_π(G_t|s_t＝s，a_t＝a)；

其中G_t＝R_t+1+γR_t+2+γ²R_t+3+...，γ表示的是对下一时刻的奖励值的折扣因子，γ∈[0，1)，G_t则表示的是折扣的总回报。可以对上面的值函数进行贝尔曼函数分解为下面的表达式：

在下面的内容中，我们将会阐述6G网络多粒度低时延业务端到端切片的服务功能链的部署中的系统状态，动作和奖励函数的设定，在此基础上，提出一种基于GCN的6G网络多粒度低时延业务端到端切片的算法。

A.状态空间

状态空间是对整个网络中资源的和当前网络正在处理的VNF的状态的一种描述，定义为S(t)＝{C(t)，M(t)，B(t)，δ(t)}。其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量，M(t)表示的是节点剩余的存储资源的向量其表达式为/>B(t)则表示的是节点之间链路剩余带宽的向量表达式为/> 如果两个节点之间没有连接的链路则/>始终保持为0；δ(t)表示的是各节点映射状态的二进制变量组成的向量，用来定义整条服务功能链各VNF的映射状态。

B.动作空间

在进行下一个动作的节点映射选择时，可以进行选择的节点范围为当前节点的所有的有边直接相连的相邻节点的集合，定义物理网络中节点的nx的相邻的节点的集合为n_x ^nei可以表示为映射在节点n_x中的所有的VNF的下一跳只能在n_x ^nei中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义向量A(t)为t时刻的动作空间，其中/>表示的是在节点n_x上所有映射的VNF的下一跳动作的集合。

C.奖励值的设置

代理通过不断从外部环境中获得奖励r_τ来提高其性能并训练其神经网络，而不是遵循预定义的标签。与监督学习不同，奖励不仅是“正确”(或“错误”)行为的特定指标，而且还告诉代理当前行为相对“好”(或“坏”)的程度。一个可行的操作(即：不违反任何约束的操作)被视为正确的操作，并且环境会为该操作返回正奖励。

此外，时延较低的可行行动是相对较好的行动，环境会为该行动带来更高的积极回报。相反，不可行的操作(即，违反至少一个约束的操作)是错误的操作，环境将返回0的奖励。因此，奖励函数控制算法的优化方向。根据前面的讨论，我们将对应于请求的动作a_τ的奖励r_τ设置为：

基于GCN的6G网络多粒度低时延业务端到端切片算法结构：

图4是基于GCN的低时延业务端到端网络切片算法的架构图，通过神经网络构建的智能体与进行服务功能链部署的网络环境进行互动，做出相应的动作策略。在每次迭代时，智能体获取当前网络系统所处的状态，然后根据制定好的策略执行相应的动作，最终获取在进行相应的动作后的系统奖励值以及网络系统进入的下一个状态。在强化学习中，智能体要通过制定的策略探索最佳的动作，来最大化长期的回报。通过对值函数网络和目标值的神经网络使用梯度下降法来训练寻找最优的策略。

本发明通过对Double DQN的Evaluation Network和Target Network进行改进，实现Double DQN和GCN的结合。本发明按照GCN的特点对Evaluation Network和TargetNetwork做出了两点修改。一方面修改了神经网络的层结构，使用两层卷积层，两层激活函数层，激活函数使用ReLu。另一方面对层与层之间的传播函数进行了修改。我们设这些节点的特征组成一个N×D维的矩阵X，然后各个节点之间的关系也会形成一个N×N维的矩阵A，也称为邻接矩阵(adjacency matrix)。X和A便是我们模型的输入，GCN层与层之间的传播方式为：

其中，I是单位矩阵；/>是/>的度矩阵(degree matrix)，可以用A矩阵计算得到；H是每一层的特征，对于输入层的话，H就是X；W是相连的边的权重参数矩阵；σ是非线性激活函数。

通过Double DQN和GCN的结合，充分发挥两个模型的优势。其中，Double DQN通过解耦目标Q值动作的选择和目标Q值的计算，从而解决了DQN over estimation的问题。GCN通过引入邻居矩阵，从而更好地提取图的特征。

接下来对基于GCN的6G网络多粒度低时延业务端到端切片算法流程的具体阐述，其具体执行步骤阐述如下：

步骤1：初始化经验池大小，Q值网络和目标值网络的权重，。

步骤2：在每一次进行训练的过程中根据3.1为当前业务构建的服务功能链进行映射，在网络训练过程中(到训练结束前)，重复步骤3-步骤5，直到达到整个网络的收敛。

步骤3：根据当前的网络状态S(t)，根据设定的ε策略从动作空间中选取动作A(t)执行，观察整个网络进入下一个状态S(t+1)。

步骤4：从执行的动作中获取奖励值R_t，更新Q值网络，再每隔C步更新目标值网络参数的权值。

步骤5：将样本(S(t)，A(t)，S(t+1)，R_t)存储到经验池。并从经验池中进行采样，进行Q值网络参数的训练更新。

实施例2

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于GCN的时延业务端到端切片部署方法，其特征在于，包括：

建立端到端切片的系统模型；

2.根据权利要求1所述的基于GCN的时延业务端到端切片部署方法，其特征在于，建立端到端切片的系统模型包括：

将系统模型中的基础设施网络表示成无向加权图G_P＝(N_P,E_P,C_P,B_P)；其中，N_P表示物理节点集，N_P包括无线接入网节点N_a和核心网节点N_c；E_P表示一组物理链路，E_I包括无线接入网节点之间的物理链路E_a和核心网节点之间的物理链路E_c；C_P表示物理节点的容量集，B_P表示物理链路的带宽集；

将网络切片请表示为R_NS，其中R_NS＝R_NRT∪R_RT∪R_CT，其中，R_NRT表示非实时型切片，R_RT表示实时型切片，R_CT表示时延敏感型切片；其中，非实时型切片的业务对时延的要求大于100ms，实时型切片的业务对时延的要求为10ms-100ms，且抖动要求在时延的15％以内，时延敏感型切片若业务对时延的要求小于10ms，抖动要求在时延的1％以内，则该业务为时延敏感型业务；切片类型集合M＝{1,2,…,m}，每种类型的切片由不同的VNF组成，切片m的VNF组成为

将系统模型中的服务请求表示成有向无环图G_V＝(N_V,E_V)；其中，N_V表示虚拟节点集，E_V表示一组虚拟链路。

3.根据权利要求2所述的基于GCN的时延业务端到端切片部署方法，其特征在于，对系统模型中无线接入网的排队时延、节点处理时延、传输时延以及核心网的节点处理时延、传输时延进行分析包括如下步骤：

在无线接入网中，假设在一个特定的区域中有多个RRU，J＝{1,2,…,j}，BHz的总带宽被分为多个物理资源块PRB，P＝{1,2,…,p}，用户可以接入不止一个RRU，且不同RRU中的不同物理资源块PRB可以分配给同一个用户，

则RRUj在物理资源块PRBp上给切片m中的用户u^m提供的速率为：

假设切片m的服务请求SFC数据包的到达过程满足时变参数为λ_m(t)的泊松分布，数据包大小服从均值为的指数分布；将RRUj在物理资源块PRBp上给切片m中的用户u^m提供的速率/>视为该条链路的服务速率R_m,k(t)，则平均包处理速率为：

在时隙t内，切片m的服务请求SFC的队列长度为q_m(t)，则服务请求SFC在DU侧队列更新公式为：q_m(t+1)＝max{q_m(t)+a_m(t)-d_m(t),0}；

根据little定理确定切片m在接入网中的排队时延为：

切片m在接入网及核心网中节点处理时延之和为：

表示第i个VNF是否部署到服务器n，/>当第i个VNF是否部署到服务器n时，/>否则，/>h_n,n′为物理节点n,n′之间的跳数，/>为物理节点n,n′之间的传输速率，/>代表切片m中节点n的计算处理能力；/>表示切片m中/>所需的数据包大小；

切片m在接入网及核心网中的传输时延之和为：

其中，表示第i个VNF是否部署到服务器n′。

4.根据权利要求1所述的基于GCN的时延业务端到端切片部署方法，其特征在于，建立最优化问题的目标函数的表达式为：

min T^m。

5.根据权利要求1所述的基于GCN的时延业务端到端切片部署方法，其特征在于，根据计算资源评估值和通信资源评估值选择每类切片的服务功能链包括如下步骤：

集合F^k中各服务请求VNF位于树结构的不同层上，假设位于树结构的层数在集合F^k中是最高的，从/>所在节点寻找父节点、祖父节点直至根节点，将寻找到的节点从低辈分到高辈分的顺序放入集合q_node，将集合q_node和集合F^k做交集后赋给q_init，同时将q_init作为初始值赋给服务功能链Q^k；其中，F^k表示第k个网络服务请求所需虚拟网络功能的集合，对于每种虚拟网络功能/>

从集合q_rem依次选择虚拟网络功能节点与按照添加剩余节点的规则生成新的服务功能链Q^k构建方案，并更新集合/>的值；

计算集合各方案的评估值；

根据评估值为每类切分配服务功能链。

6.根据权利要求5所述的基于GCN的时延业务端到端切片部署方法，其特征在于，

第K个网络服务请求C_K上虚拟网络功能所需总的计算资源的表达式为：

其中，B_ini是当i为0时，的值；

7.根据权利要求1所述的基于GCN的时延业务端到端切片部署方法，其特征在于，采用深度强化学习算法和图神经网络结合的方式处理每类切片的服务功能链，获得时延最小的最优服务功能链映射包括：

步骤5：将样本(S(t),A(t),S(t+1),R_t)存储到经验池，并从经验池中进行采样，进行Q值网络参数的训练更新。

8.根据权利要求7所述的基于GCN的时延业务端到端切片部署方法，其特征在于，所述Q值网络包括依次连接的第一卷积层、第一激活函数层、第二卷积层和第二激活函数层，第一激活函数层和第二激活函数层均采用ReLu函数。

9.一种基于GCN的时延业务端到端切片部署系统，其特征在于，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，该指令被执行时实现如权利要求1-8中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-8中任一所述的基于GCN的时延业务端到端切片部署方法方法。