CN111093203A

CN111093203A - 一种基于环境感知的服务功能链低成本智能部署方法

Info

Publication number: CN111093203A
Application number: CN201911399761.8A
Authority: CN
Inventors: 唐伦; 王晓; 贺小雨; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Wanzhida Technology Transfer Center Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-01
Anticipated expiration: 2039-12-30
Also published as: CN111093203B

Abstract

本发明涉及一种基于环境感知的服务功能链低成本智能部署方法，属于移动通信技术领域。该方法包括以下步骤：S1：以用户无线端可达的无线速率作为SFC资源分配的依据，联合考虑SFC部署与无线子载波分配，建立在用户时延要求、无线速率需求以及资源约束下的SFC部署成本最小化模型；S2：将上述优化问题转化为离散时间下的具有连续状态空间和高维度动作空间的马尔可夫决策过程；S3：最后考虑到该MDP问题的高维性，利用DDPG强化算法获得SFC部署与子载波分配的联合优化策略，达到减少资源消耗，降低SFC部署成本的目的。本方法能够在保证用户时延要求和无线速率需求的同时，有效降低SFC部署的总成本；能够在每个时隙根据当时的环境，做出使部署成本最低的子载波分配及SFC部署策略。

Description

一种基于环境感知的服务功能链低成本智能部署方法

技术领域

本发明属于移动通信技术领域，涉及一种基于环境感知的服务功能链低成本智能部署方法。

背景技术

为了解决如何在同一物理网络上同时支持多元化的业务场景，“网络切片”普遍被业界认为是一种理想的网络模型。网络切片是指在通用且共享的底层网络基础设施上按照不同业务需求切分出的相互隔离的逻辑网络。NFV是支撑网络切片的关键技术之一。NFV技术利用云计算和虚拟化技术编排不同的虚拟网络功能(VNF)，并将其映射在通用物理服务器设备上完成相应网络功能。一个完整的服务请求由多个VNF有序连接而成，形成一条服务功能链(SFC)，多个相同业务类型的SFC组成一个网络切片。如何在底层物理网络上部署SFC是NFV技术的关键问题。SFC部署问题的实质是将VNF和连接VNF的虚拟链路分别在底层物理网络满足资源容量需求的服务器与物理链路上实例化，并将底层网络的物理资源(如计算资源，链路带宽资源)分配给SFC的各个组成部分(VNF，虚拟链路)，形成一条端到端通路，完成相应的用户服务请求。网络资源是有限的，如何在保证用户SFC服务质量的前提下节约资源消耗，降低运营成本，对运营商来说至关重要。

现有的SFC部署方法主要针对于核心网中的VNF部署，通常根据不同的服务需求和网络场景来设定一个服务功能链映射的优化目标并设计启发式算法求解。但针对无线用户来说，要完成完整的端到端服务，除了要进行SFC在核心网的部署外，还需要在接入网对用户进行无线资源分配。其次，在传统SFC部署问题中，通常为一条SFC指定一个流速率，或者为SFC中的每个VNF和虚拟链路指定所需的资源消耗，但由于SFC在有线链路的流速率与最终用户可达的无线速率不匹配，导致核心网资源的大量浪费。再者，启发式算法少于考虑到无线环境的动态性而在单时隙中优化网络性能，面对复杂多变的网络环境，这样的启发式算法难以达到理想的优化效果。

因此，如何联合考虑SFC部署与无线资源分配，降低资源消耗，并提出智能高效的优化算法需要进一步深入研究。

发明内容

有鉴于此，本发明的目的在于提供一种基于环境感知的服务功能链低成本智能部署方法，并使用DDPG强化学习算法解决该优化问题。该方法能在保证满足用户的无线速率需求以及时延约束的前提下，有效降低SFC的部署成本。

为达到上述目的，本发明提供如下技术方案：

一种基于环境感知的服务功能链低成本智能部署方法，该方法包括以下步骤：

S1：以用户无线端可达的无线速率作为SFC资源分配的依据，联合考虑SFC部署与无线子载波分配，建立在用户时延要求、无线速率需求以及资源约束下的SFC部署成本最小化模型；

S2：将上述优化问题转化为离散时间下的具有连续状态空间和高维度动作空间的马尔可夫决策过程；

S3：最后考虑到该MDP问题的高维性，利用DDPG强化算法获得SFC部署与子载波分配的联合优化策略，达到减少资源消耗，降低SFC部署成本的目的。

进一步，所述环境感知包括：在无线接入网端检测用户下行链路的信号强度、干扰功率以及噪声功率，并假设基站采用平均分配的功率控制方法对用户进行发送功率分配，再利用DDPG算法对用户进行子载波分配，则可得到用户无线端可达的下行速率，将此用户可达的无线速率作为其SFC的流速率，使分配给各个VNF的计算资源和虚拟链路的带宽资源与此流速率相匹配；这样以用户无线端可达的速率作为依据来分配SFC各部分资源，可以节约核心网资源消耗，并有效降低了SFC的部署成本。

具体在步骤S1中，网络模型由分布式核心网高性能通用服务器(物理节点)、物理链路和小基站(SBS)组成，由G＝(N,E)表示，其中N＝{n₁,n₂,...}为物理节点集合，用N_r＝{r₁,r₂,...}表示无线接入网中SBS集合，有

E＝{(n_i,n_j)|n_i,n_j∈N,B_i,j＞0}为物理链路集合；用C_1×|N|＝[c₁,c₂,...]表示物理节点计算资源容量，其中c_i为物理节点n_i的计算资源容量；用B_|N|×|N|＝[B_i,j]表示物理节点的关联矩阵，其元素B_i,j表示节点n_i和n_j间的链路带宽容量，若两点间无链路则为零；用

表示SBS的子载波资源向量，其中W_i ⁰表示SBS r_i的子载波个数；

服务请求集合用F＝{1,2,...,f,...}表示，一个SFC请求为一个五元组f＝＜sfc_f,Load_f,r_f,Delay_f,C_f＞，其中sfc_f表示f的SFC逻辑链路，Load_f表示f的负载，单位为Mbit，r_f表示发起该服务请求的用户所关联的SBS，Delay_f表示f的时延要求，C_f表示f的无线速率要求。

进一步，在步骤S1中，需要的部署变量包括每个时隙的VNF部署变量及其计算资源分配、链路映射变量及其带宽分配、以及无线接入网子载波资源分配，其中，VNF计算资源分配和链路带宽资源分配由环境感知决定，链路映射由Dijkstra算法确定，子载波分配和VNF部署变量由DDPG算法决定。

进一步，在步骤S1中，用户的信干噪比γ_i,f(t)由观测到的信号强度以及SBS平均分配的功率得到，通过DDPG算法为每个用户分配子载波资源W_i,f(t)，则可得到该用户可达的无线速率：C^f(t)＝W_i,f(t)B·log₂(1+γ_i,f(t))，其中B为单个子载波带宽；SFC部署成本由无线子载波成本cost_w(t)、物理节点计算资源成本cost_c(t)以及链路带宽资源成本cost_b(t)三部分构成：Cost(t)＝ρ_w·cost_w(t)+ρ_c·cost_c(t)+ρ_b·cost_b(t)，其中，ρ_w,ρ_c,ρ_b为三种成本权重因子，有ρ_w+ρ_c+ρ_b＝1；每条SFC需满足由其自身服务特点所决定的时延需求；一条SFC的总时延D由物理节点处理时延D_c、有线链路传输时延D_l以及无线链路传输时延D_w组成：

优化的目标即为在满足用户时延要求和无线速率需求的同时，最小化系统总部署成本Cost(t)。

进一步，在步骤S2中，将SFC成本最小化模型转化为具有连续状态空间和高维度动作空间的马尔可夫决策过程(MDP)问题，该MDP的状态由所有用户的信干噪比组成：s_t＝(γ₁(t),γ₂(t),...,γ_|F|(t))，动作由子载波分配矩阵W(t)和VNF部署变量

组成：

当环境处于状态s_t时执行动作a_t，系统会进入下一状态s_t+1，并得到即时奖励r_t，优化目标为SFC的部署总成本，因此将成本的相反数设为奖励函数，即r_t＝-Cost(t)，动作a_t的来源为一个确定性策略π，由策略π可得到每个时隙的子载波分配和SFC部署决策，π为状态空间到动作空间的一个映射，即：a＝π(s)；动作值函数Q^π(s,a)表示从当前状态s并采取动作a后执行策略π得到的累计奖励的期望值：

定义策略目标函数：J(π)来衡量策略的性能表现，它表示为动作值函数的均值，表示为：J(π)＝∫_sd(s)Q^π(s,a)ds＝E_s～d[Q^π(s,a)]，此MDP的优化目标即为，找到一个策略π，使J(π)最大化。

进一步，在步骤S3中，使用DDPG(DeepDeterministicPolicyGradient，深度强化学习)算法解决上一步骤中的MDP问题，该算法基于AC算法架构，利用神经网络从连续状态空间和高维动作空间中提取特征，并结合深度Q网络(DQN)算法中经验回放和固定目标网络的思想，使算法达到理想的收敛速率和稳定性；该算法包括Actor和Critic两部分，其中，Actor负责构建参数化的策略，根据当前状态输出动作，Critic负责构建Q网络，根据环境反馈的奖励值来评估当前策略，输出时间差分(TD)误差(目标Q网络与在线Q网络输出之差)来更新Actor和Critic两部分的参数，使MDP的优化目标J(π)最大化。

本发明的有益效果在于：通过本发明提出的基于环境感知的服务功能链低成本智能部署方法，能够在保证用户时延要求和无线速率需求的同时，有效降低SFC部署的总成本。通过DDPG强化学习算法得到的参数化的策略，能够在每个时隙根据当时的环境，做出使部署成本最低的子载波分配及SFC部署策略。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为NFV/SDN环境下的SFC部署及无线接入网场景图；

图2为单个SFC中VNF及虚拟链路部署示意图；

图3为DDPG强化学习算法框架图；

图4为本发明所述的基于环境感知的服务功能链低成本部署方法流程图。

具体实施方式

在本发明的技术方案中，在网络功能虚拟化环境下，针对无线用户的服务功能链请求，联合考虑SFC在核心网中的部署与无线资源分配，提出一种基于环境感知的SFC资源分配机制，并结合深度确定性策略梯度强化学习算法对用户的无线载波和VNF部署进行智能决策，达到降低SFC部署成本的目的，包括：

1)、环境感知：在下行链路中，监测用户在接入网一端的信号强度、干扰以及噪声强度，通过小基站以平均分配的方式对用户进行发送功率分配，则可以得到用户下行链路的信干噪比，再通过DDPG强化学习算法对用户进行子载波分配，则通过香农公式可以得到用户可达的无线速率。

2)、SFC资源分配：以S1中环境感知得到的用户无线速率作为用户SFC的流速率，以此作为SFC资源分配的依据。SFC中节点计算速率和链路传输速率与流速率保持一致，则对SFC中的VNF分配相应的CPU资源以及对虚拟链路分配相应的链路带宽资源。

3)、成本模型：本发明考虑到的成本由三部分组成，包括子载波资源成本，物理节点计算资源成本以及链路带宽成本。将所有用户SFC请求所消耗的资源通过权重因子ρ_w,ρ_c,ρ_b累和起来，作为我们要优化的目标，即最小化系统总成本。

4)、问题转化：上述优化问题建立后，需要通过对子载波分配和VNF映射进行决策，得到最小的部署成本策略。该优化问题的决策维度很高，因此将上述优化模型转化为具有连续状态空间和高维度动作空间的离散时间马尔科夫决策过程(MDP)问题。每个时隙的状态由所有用户的信干噪比组成，每个时隙的动作由每个用户的子载波分配变量和每条SFC中的VNF部署变量组成。

5)、算法求解：采用DDPG强化学习算法求解上述MDP问题。强化学习通过其智能体不断与环境交互，通过梯度下降法，使参数化的策略向优化目标(系统总成本)降低的方向学习，最终得到最小化系统总成本的SFC部署策略。

在1)中，环境感知的机制基于NFV/SDN(软件定义网络，Software DefinedNetwork)的控制面与数据面相分离的架构。控制面负责对用户的SFC进行部署和资源分配决策，数据面的NFV基础设施(NFV infrastructure，NFVI)是标准化的高性能通用服务器，负责用户SFC中VNF的实例化和链路传输。底层物理网络用无向图G＝(N,E)表示，其中N＝{n₁,n₂,...}为物理节点集合，由分布式的标准化高性能通用服务器组成，用N_r＝{r₁,r₂,...}表示无线接入网中小基站(SBS)集合，有

E＝{(n_i,n_j)|n_i,n_j∈N,B_i,j＞0}为物理链路集合。用C_1×|N|＝[c₁,c₂,...]表示物理节点计算资源容量，其中c_i为物理节点n_i的计算资源容量；用B_|N|×|N|＝[B_i,j]表示物理节点的关联矩阵，其元素B_i,j表示节点n_i和n_j间的链路带宽容量，若两点间无链路则为零；用

表示SBSs的子载波资源向量，其中W_i ⁰表示SBS r_i的子载波个数。

服务请求集合用F＝{1,2,...,f,...}表示，一个SFC请求为一个五元组f＝＜sfc_f,Load_f,r_f,Delay_f,C_f＞，其中sfc_f表示f的SFC逻辑链路，Load_f表示f的负载(单位：Mbit)，r_f表示发起该服务请求的用户所关联的SBS，Delay_f表示f的时延要求，C_f表示f的无线速率要求。

在1)中，用二进制矩阵

表示用户服务与SBS的关联矩阵，当用户服务f关联到SBS r_i上，即r_f＝r_i时，有

易得矩阵

每一行有且只有一个值为1；用有向图G^f＝(N^f,E^f)表示服务f的SFC逻辑图，即sfc_f，其中

为sfc_f的VNF虚拟节点集合，任一条SFC的最后一个VNF

均为“无线发送功能”，且必须将其映射到该服务指定的SBS r_f上；

表示sfc_f的SFC虚拟链路集合，其中

是

和

间的虚拟链路。用二进制矩阵

表示VNF部署矩阵，其中

表示在t时隙

部署在物理节点n_j上，否者为0；用

表示sfc_f链路部署变量，在t时隙当sfc_f中从v_i出发的虚拟链路映射在物理链路(n_p,n_q)上时，有

否则为0，进而可用

表示sfc_f中所有链路的映射集合。当节点映射完成后，以SFC相邻节点间映射的物理节点的Dijkstra最短路径作为该虚拟链路的映射结果。用矩阵W(t)＝[W_i,f(t)]表示SBS子载波分配矩阵，其中W_i,f(t)表示r_i分配给服务请求f的子载波数量。根据本技术方案提出的基于环境感知的SFC资源分配机制，首先要在每一时隙开始时监测用户无线接入网端的信号强度，SBS通过平均分配的方法对用户进行功率分配，从而得到用户的信干噪比γ_i,f(t)。再对其进行子载波分配后可得该用户服务请求f的无线速率C^f(t)，即：C^f(t)＝W_i,f(t)B·log₂(1+γ_i,f(t))，其中B是单个子载波带宽。将此用户可达的无线速率作为该用户SFC的流速率，作为对SFC进行资源分配的依据。

在2)中，用cpu^f(t)表示t时隙分配给sfc_f中的VNF的计算资源，用B^f(t)表示分配给sfc_f的链路带宽资源。假设t时隙节点处理速率

与所分配的计算资源cpu^f(t)成正比：

其中

为转化因子，根据本技术方案所提出的基于环境感知的SFC资源分配机制，节点处理速率

和链路带宽B^f(t)应与用户无线端可达的速率C^f(t)一致，即

B^f(t)＝C^f(t)，则可得计算资源的需求量为：

其中

在3)中，部署成本由无线子载波资源成本、物理节点计算资源成本以及链路带宽资源成本三部分组成，可表示为：Cost(t)＝ρ_w·cost_w(t)+ρ_c·cost_c(t)+ρ_b·cost_b(t)，其中，ρ_w,ρ_c,ρ_b为三种成本权重因子，有ρ_w,ρ_c,ρ_b，cost_w(t)为子载波资源成本，cost_c(t)为物理节点计算资源成本，cost_b(t)为有线链路带宽资源成本。每条SFC需满足由其自身服务特点所决定的时延需求。一条SFC的总时延D由物理节点处理时延D_c、有线链路传输时延D_l以及无线链路传输时延D_w组成，因此服务请求f的总时延为：

则该优化模型的时延约束和无线速率需求约束为：D^f(t)≤Delay_f，C^f(t)≥C^f。

在4)中，MDP模型的状态由每个用户信干噪比组成，即：s_t＝(γ₁(t),γ₂(t),...,γ_|F|(t))，动作有子载波分配矩阵和SFC部署矩阵组成，即：

当环境处于状态s_t时执行动作a_t，系统会进入下一状态s_t+1，并得到即时奖励r_t，本技术方案优化目标为SFC的部署总成本，因此将成本的相反数设为奖励函数，即：r_t＝-Cost(t)。动作a的来源为一个确定性策略π，由策略π可得到每个时隙的子载波分配和SFC部署决策，π为状态空间S到动作空间A的一个映射，可表示为a＝π(s)，动作值函数Q(s,a)表示从当前状态并采取某一动作后执行某一策略得到的累计奖励的期望值，即在一段时间k内的累积部署成本Cost(t)的相反数，因此在状态s根据策略π采取动作a的动作值函数可表示为：

定义一个“策略目标函数”J(π)来衡量策略的性能表现，它表示为动作值函数的均值，如下式所示：J(π)＝∫_sd(s)Q^π(s,a)ds＝E_s～d[Q^π(s,a)]，其中，d(s)为状态空间的分布函数。该MDP模型的优化目标即为，找到一个子载波分配和SFC部署策略π，使Q函数的期望值最大，从而达到本发明最小化SFC部署成本的优化目标。

在5)中，DDPG算法利用神经网络从高维空间中提取特征，从而输出Q值的近似值，解决了维度灾问题。DDPG算法在Actor-Critic(AC)算法的基础上结合了DQN算法中“经验回放”和“固定目标网络”的思想，相比于AC算法提高了稳定性与收敛性。其智能体包括Actor和Critic两部分。其中，Actor负责构建参数化的策略，根据当前状态输出动作，Critic负责构建Q网络，根据环境反馈的奖励值来评估当前策略，输出时间差分(temporal differenceerror，TD)误差(目标Q网络与在线Q网络输出之差)来更新Actor和Critic两部分的参数，使MDP的优化目标J(π)最大化。

下面将结合说明书附图，对本发明实施例中的技术方案进行清楚、详细地描述。

参见图1，图1为NFV/SDN环境下的SFC部署及无线接入网场景图。在本发明实例中，网络场景采用基于NFV/SDN的控制面与数据面相分离的架构，控制面的NFV管理编排器(MANO)负责对用户的SFC进行部署和资源分配决策，数据面的NFV基础设施(NFVinfrastructure，NFVI)是标准化的高性能通用服务器，负责用户SFC中VNF的实例化和链路传输。针对无线用户的下行SFC请求，想要完成完整的端到端通信，除了需要常规的VNF部署之外，还需要在无线接入网一端为无线用户分配无线频谱和发送功率等无线资源。在传统SFC部署问题中，通常为一条SFC指定一个流速率，或者为SFC中的每个VNF和虚拟链路指定所需的资源消耗，但由于SFC在有线链路的流速率与最终用户可达的无线速率不匹配，导致核心网资源浪费。本发明针对这一问题，提出了一种基于环境感知的SFC资源分配机制。所谓“环境感知”，即在无线端监测用户的信道状态，并分配相应无线资源，从而根据香农公式获得用户可达的无线速率，以此速率作为整个SFC的流速率，进行相应VNF和虚拟链路的计算资源和链路带宽资源的分配。这样，以用户可达的无线速率作为依据来分配SFC各部分资源，节约了核心网资源消耗，并有效降低了SFC的部署成本。

参见图2，图2为单个SFC中VNF及虚拟链路部署示意图。在本发明实例中，假设一条SFC中含有4个VNF，其中VNF r为“无线发送功能”，该VNF必须映射在该SFC对应用户发起的小区小基站上，其余VNF映射在NFVI中的任意物理节点上，完成相应的网络功能。当节点映射完成后，以SFC相邻节点间映射的物理节点的Dijkstra最短路径作为该虚拟链路的映射结果，如图2所示：SFC中一条虚拟链路(VNF2,VNF3)的相邻两个VNF分别映射在物理节点n₂和n₄上，则该虚拟链路映射即为节点n₂和n₄间的Dijkstra最短路径n₂→n₃→n₄，而不是更长的路径n₂→n₅→n₆→n₄。因此影响SFC部署成本的关键在于虚拟节点如何映射，即VNF部署矩阵

参见图3，图3为DDPG强化学习算法框架图。本优化模型中用户无线端的信道增益是随机变化的，其信干噪比具有马尔可夫性且为连续值，同时，决策变量包括每个用户的子载波分配及其SFC中每一个VNF的部署，维度极高，因此上述优化问题可转化为具有连续状态空间和高维度动作空间的离散时间MDP模型，并利用强化学习算法求解。深度确定性策略梯度(DDPG)算法基于AC算法架构，它利用神经网络从连续状态空间和高维动作空间中提取特征，并结合了深度Q网络(DQN)算法中“经验回放”和“固定目标网络”的思想，可以使算法达到理想的收敛速率和稳定性。DDPG算法的智能体包括Actor和Critic两部分。其中，Actor负责构建参数化的策略，根据当前状态输出动作，Critic负责构建Q网络，根据环境反馈的奖励值来评估当前策略，输出时间差分(TD)误差(目标Q网络与在线Q网络输出之差)来更新Actor和Critic两部分的参数，使MDP的优化目标J(π)最大化。所谓“经验回放”是指设置一个存放状态转移过程＜s_t,a_t,r_t,s_t+1＞的经验池，它将每一次与环境交互的过程记录下来，每次训练时从该经验池中随机抽取小批量状态转移过程进行学习，其目的是为了打破学习样本中数据间的时间相关性，这样网络可以从过去更广泛的经验中进行学习而不仅仅局限于当前环境。由于状态空间和动作空间的高维性，在Actor和Critic两部分智能体中，均使用神经网络来构建参数化的策略和动作值函数，而神经网络往往因其目标值的参数与估计值的参数同时变化，从而导致学习过程不稳定和发散。DQN中“固定目标网络”的方法可以有效解决这一问题，即在用一个神经网络估计值的同时，建立另一个神经网络作为目标网络，其参数在一定的迭代过程中保持不变，经过指定迭代次数后再用当前评估网络的参数替换该目标网络的参数，这种目标网络的更新方式称为“硬更新”，但与DQN算法不同的是，DDPG采用“软更新”的方式来更新目标网络参数，即每一步都会更新目标网络，但更新的幅度非常小，这样做使学习过程更接近于监督式学习，这样的方法可以使神经网络的收敛过程更加稳定。

参见图3，Critic部分利用两个神经网络来估计Q值，从而评估当前策略。其中一个神经网络为“在线Q网络”，其参数设为w，在线Q网络的输出为动作值函数的估计值Q_w(s_t,a_t)，另一个神经网络为“目标Q网络”，其参数为w'，输出为动作值函数的目标值y_t，有：y_t＝r_t+λQ_w'(s_t+1,a'_t+1)，其中a'_t+1来自Actor中的目标策略网络。TD误差δ_t定义为动作值函数的目标值与估计值之差：δ_t＝r_t+λQ_w'(s_t+1,a'_t+1)-Q_w(s_t,a_t)，训练时，将从经验池中随机抽取M组状态转移过程＜s_i,a_i,r_i,s_i+1＞进行训练，根据损失函数来更新在线Q网络的参数w，Critic的损失函数L(w)定义为TD误差的均方值：

利用损失函数L(w)关于参数w的梯度，使用梯度下降法来更新在线Q网络的参数，使w朝着L(w)下降的方向进行更新，即：

其中，α_c为Critic的学习率。同时，使用上述“软更新”的方式更新目标Q网络的参数w'，设置“软更新系数”τ来控制每一步目标网络更新的幅度，则目标Q网络的更新方式为：w'←τw+(1-τ)w'。

参见图3，Actor部分负责构建参数化的策略并根据状态输出动作。与Critic部分一样，Actor也使用了两个神经网络来构建参数化的策略，分别为“在线策略网络”和“目标策略网络”。其中，目标策略网络用于构建目标策略π_θ'(s)，其参数为θ'，其输出为目标Q网络提供动作a'＝π_θ'(s)，用于计算动作值函数的目标值y_t，从而计算TD误差；在线策略网络用于构建在线策略π_θ(s)，其参数为θ，为整个智能体输出动作a并与环境进行交互，其参数采用策略梯度算法进行更新。所谓策略梯度，指的是策略目标函数J(π)关于参数θ的梯度：

与Critic一样，Actor的训练样本也来自经验池中的M组状态转移过程＜s_i,a_i,r_i,s_i+1＞。于是，上述策略梯度可改写为：

由此，可以得出Critic的参数更新公式为：Δθ＝α_a▽_θJ(π)。同样地，使用“软更新”方式对目标策略网络参数进行更新：θ'←τθ+(1-τ)θ'。另外，为了让智能体输出的动作更有可能获得更大的奖励，我们为Actor输出的动作增加探索机制，即在在线策略网络输出的动作中加入一个随机的探索噪声noise，则Actor输出动作为：a_t＝π_θ(s_t)+noise。

参见图4，图4为本发明所述的基于环境感知的服务功能链低成本部署方法流程图。步骤如下：

步骤401：初始化t＝0时的网络环境，生成底层物理网络(NFVI以及无线接入网SBS)与用户服务请求；

步骤402：对无线用户信道状态进行环境感知，检测用户的信号强度，以及干扰强度和噪声强度；

步骤403：基站以平均分配的方法对用户进行功率分配，联合步骤402中得到的数据，可已得到每个用户下行链路的信干噪比；

步骤404：通过DDPG算法为每个用户进行子载波分配，则可通过香农公式计算出每个用户可达的无线速率；

步骤405：判断步骤404中得到的无线速率是否达到用户服务请求中要求的无线速率，若达到则进行下一步骤，否则返回步骤404；

步骤406：将步骤404中得到的无线速率作为用户SFC的流速率，为每个VNF和虚拟链路分配相应的计算资源和链路带宽资源；

步骤407：通过DDPG算法进行用户SFC的部署站点和链路选择。则可得到整个S系统的总成本和每条SFC的时延；

步骤408：判断步骤407中得到的时延是否满足用户服务请求中的时延要求，若满足则进行下一步，否则返回步骤407；

步骤409：判断训练回合是否达到预订回合数，若满足则可得到子载波分配与SFC部署策略，若不满足则返回步骤402，进行下一回合的训练。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于环境感知的服务功能链低成本智能部署方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法，其特征在于：所述环境感知包括：在无线接入网端检测用户下行链路的信号强度、干扰功率以及噪声功率，并假设基站采用平均分配的功率控制方法对用户进行发送功率分配，再利用DDPG算法对用户进行子载波分配，则可得到用户无线端可达的下行速率，将此用户可达的无线速率作为其SFC的流速率，使分配给各个VNF的计算资源和虚拟链路的带宽资源与此流速率相匹配；

具体在步骤S1中，网络模型由分布式核心网高性能通用服务器、物理链路和小基站(SBS)组成，由G＝(N,E)表示，其中N＝{n₁,n₂,...}为物理节点集合，用N_r＝{r₁,r₂,...}表示无线接入网中SBS集合，有

3.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法，其特征在于：在步骤S1中，需要的部署变量包括每个时隙的VNF部署变量及其计算资源分配、链路映射变量及其带宽分配、以及无线接入网子载波资源分配，其中，VNF计算资源分配和链路带宽资源分配由环境感知决定，链路映射由Dijkstra算法确定，子载波分配和VNF部署变量由DDPG算法决定。

4.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法，其特征在于：在步骤S1中，用户的信干噪比γ_i,f(t)由观测到的信号强度以及SBS平均分配的功率得到，通过DDPG算法为每个用户分配子载波资源W_i,f(t)，则可得到该用户可达的无线速率：C^f(t)＝W_i,f(t)B·log₂(1+γ_i,f(t))，其中B为单个子载波带宽；SFC部署成本由无线子载波成本cost_w(t)、物理节点计算资源成本cost_c(t)以及链路带宽资源成本cost_b(t)三部分构成：Cost(t)＝ρ_w·cost_w(t)+ρ_c·cost_c(t)+ρ_b·cost_b(t)，其中，ρ_w,ρ_c,ρ_b为三种成本权重因子，有ρ_w+ρ_c+ρ_b＝1；每条SFC需满足由其自身服务特点所决定的时延需求；一条SFC的总时延D由物理节点处理时延D_c、有线链路传输时延D_l以及无线链路传输时延D_w组成：

5.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法，其特征在于：在步骤S2中，将SFC成本最小化模型转化为具有连续状态空间和高维度动作空间的马尔可夫决策过程(MDP)问题，该MDP的状态由所有用户的信干噪比组成：s_t＝(γ₁(t),γ₂(t),...,γ_|F|(t))，动作由子载波分配矩阵W(t)和VNF部署变量

组成：

6.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法，其特征在于：在步骤S3中，使用DDPG(Deep Deterministic Policy Gradient，深度强化学习)算法解决上一步骤中的MDP问题，该算法基于AC算法架构，利用神经网络从连续状态空间和高维动作空间中提取特征，并结合深度Q网络(DQN)算法中经验回放和固定目标网络的思想，使算法达到理想的收敛速率和稳定性；该算法包括Actor和Critic两部分，其中，Actor负责构建参数化的策略，根据当前状态输出动作，Critic负责构建Q网络，根据环境反馈的奖励值来评估当前策略，输出时间差分(TD)误差来更新Actor和Critic两部分的参数，使MDP的优化目标J(π)最大化。