CN113114722A

CN113114722A - 一种基于边缘网络的虚拟网络功能迁移方法

Info

Publication number: CN113114722A
Application number: CN202110285692.9A
Authority: CN
Inventors: 黄宏程; 鲍晓萌; 胡敏; 陶洋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-13
Anticipated expiration: 2041-03-17
Also published as: CN113114722B

Abstract

本发明属于边缘计算与物联网领域，具体涉及一种基于边缘网络的虚拟网络功能迁移方法，该方法包括：实时监测边缘服务器节点的信息，根据该信息生成节点列表；采用空闲资源和负载阈值机制对节点列表中的各个节点进行筛选，得到3个候选节点；构建马尔科夫决策，根据马尔科夫决策对3个候选进行策略选择；在进行策略选择过程中，采用深度Q学习训练构建最优选择策略模型，输出最优选择结果；本发明采用空闲资源和负载阈值机制通过对数据分析和负载预测，筛选出3个候选节点，降低了问题复杂度。

Description

一种基于边缘网络的虚拟网络功能迁移方法

技术领域

本发明属于边缘计算与物联网领域，具体涉及一种基于边缘网络的虚拟网络功能迁移方法。

背景技术

随着互联网技术的飞速发展，网络应用更新换代速度加剧。而传统网络中网络功能大都基于专有硬件，部署和升级都要对硬件设施进行更改，一定程度上增加了运营商的开销。通过网络功能虚拟化技术能够实现网络功能的软件化，降低成本、提高网络的灵活性和扩展性。近年来，边缘计算、物联网等技术的发展，大量智能终端、网络实时业务以及应用涌现，运营商也逐渐尝试在网络边缘部署各种虚拟网络功能(Virtual Network Function，VNF)，以期许提高网络服务质量，降低业务时延和成本。

然而，在NFV环境的网络中，由于服务功能链(Service Function Chain，SFC)请求的到达时间与生存周期的差异性，随着时间的推移，部分物理节点将部署大量虚拟网络功能，其资源占用率达到瓶颈后，服务质量(Quality of Service，QoS)急剧下降。特别是在网络边缘，面对突发性强、波动性大的用户请求，单个节点部署的不同虚拟网络功能负载，很难满足用户的需求时，通过将部分VNF迁移或复制到周围具有空闲资源的服务器节点上，能够实现负载均衡，提升服务质量。

目前多数研究聚焦在迁移的时机、待迁移的VNF、目标节点选择以及路径选择问题上。目前业内已经有结合SDN实现VNF迁移的案例，但是由于VNF迁移带来的服务降级问题，仍然是一个很大的挑战，目前结合VNF的复制协同，权衡成本与时延的研究较少。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于边缘网络的虚拟网络功能迁移方法，该方法包括：

S1：当虚拟网络功能VNF需要进行迁移时，向控制器发送信号；

S2：控制器接收信号后，控实时监测边缘服务器节点的信息，根据该信息生成节点列表；边缘服务器节点的信息包括该节点的空闲资源和负载状态；

S3：采用空闲资源和负载阈值机制对节点列表中的各个节点进行筛选，得到候选节点；

S4：构建马尔科夫决策，根据马尔科夫决策对候选节点进行策略选择；

S5：在进行策略选择过程中，采用深度Q学习训练构建最优选择策略模型，输出最优选择结果；

S6：根据选出的最优结果进行VNF迁移。

优选的，采用空闲资源和负载阈值机制对节点列表中的各个节点进行筛选的过程包括：

S31：当VNF需要复制副本时，估计待复制VNF所需的资源E_need，将该资源作为第一级阈值；

S32：依次判断当前服务器节点周围的服务器列表N_near中是否满足条件

若不满足条件，则将该节点删除，其余节点继续进行判断；若满足条件，则执行步骤S33；

S33：依次计算服务器节点列表中的负载状态，并将负载状态与设置的第二级阈值进行比较，若负载状态大于设置的第二阈值，则将该负载节点移除节点列表中；否则进行下一轮判断；

S34：节点短期内的资源、链路使用的历史数据，将历史数据输入到支持向量回归模型SVR中，预测未来节点的负载状态；

S35：将未来节点的负载状态与第三级阈值进行比较，若大于第三级阈值，则将该节点移除列表，否则执行下一步；

S36：将所有满足要求的节点按照空闲资源大小进行排序，选取前三个节点作为候选节点。

进一步的，设置的三级阈值包括：第一级阈值为待复制VNF所需的资源E_need，第二级阈值为0.6，第三级阈值为0.75。

优选的，构建马尔科夫决策的过程包括：根据当前服务器节点的运行状态制定VNF复制策略；根据制定的VNF复制策略对目标模型进行优化；根据目标模型优化结果制定马尔科夫决策。

进一步的，制定VNF复制策略的过程包括：当前服务器节点中不同网络服务对应的VNF不满足当前需求时，导致服务功能链SFC的端到端时延增大，此时，利用网络资源进行VNF复制；服务功能链SFC依次对经过第一节点上的VNF1和第二节点VNF2进出处理，即在第一节点负载时通过容器或虚拟机技术在第三节点上复制VNF1的副本，实现负载均衡。

进一步的，对目标模型进行优化的过程包括：VNF复制迁移过程中的产生的总时延为

复制迁移过程中的成本为C_copy；根据VNF复制迁移过程中的总时延和成本确定优化目标；对优化目标进行优化，求出服务器实现负载均衡时的最小成本，完成模型优化。

进一步的，优化目标为：

s.t.

g₃:u_e≤U_x,e＝1,2,3…

进一步的，制定的马尔科夫决策的过程包括：确定服务器的状态空间、动作空间、状态转移矩阵以及奖励函数；根据服务器利用率、服务质量优劣标志和过载的服务器数量作为状态信息，定义状态空间；对VNF迁移或复制的目标节点进行筛选，得到3个候选目标节点，根据候选目标节点制定动作空间；服务器节点在选择虚拟网络功能v执行动作时，执行动作

并由状态s_k转移至下一个状态s_k+1，计算状态s_k转移至下一个状态s_k+1的概率，根据转移概率确定状态转移矩阵；根据服务器利用率、服务功能链端到端时延与迁移或复制过程中消耗的成本确定奖励函数。

优选的，采用深度Q学习训练构建最优选择策略模型的过程包括：

步骤1：根据当前系统状态采用ε贪婪策略进行动作的选取；将选取的动作中每一次的状态转移信息存放在经验回放池中，当经验池容量已满时，采用随机替换数据的方式将状态转移信息存入经验池中；

步骤2：随机从经验回放池中选择一段状态转移数据(s,a,r,s′)，将该数据中的系统状态s作为Q网络的输入，并通过深度学习输出全部的可执行动作对应的Q值，以便后续获取到a动作相对应的Q值；

步骤3：根据已选取的状态转移数据中的动作a，再依据步骤2得到的所有可执行动作的Q值，获取动作a对应的Q(s,a；θ)；

步骤4：将系统状态s′输入到目标网络中，得到相应的目标值y，依据Q(s,a；θ)和目标输出值y，通过损失函数计算Q(s,a；θ)与y之间的误差，并通过梯度下降算法进行神经网络参数的更新；

步骤5：根据训练好的模型判断系统的状态，根据状态转移概率获取相应的可执行动作，输出每个动作对应的Q值；

步骤6：选择Q值最大的动作作为VNF迁移和复制的目标节点。

本发明的优点：

1)本发明采用空闲资源和负载阈值机制通过对数据分析和负载预测，筛选出3个候选节点，降低本发明的问题复杂度；

2)本发明在构建马尔科夫决策过程中在保证功能服务链(SFC)服务质量的前提下，最小化成本问题构成马尔科夫决策过程，转换为策略选择问题；

3)本发明采用深度Q学习的VNF迁移，通过深度Q学习训练构建最优选择策略模型，输出最优选择。

附图说明

图1为本发明的系统框架图；

图2为本发明的基于空闲资源和负载阈值机制的流程图；

图3为本发明的复制策略图；

图4为本发明的DQN算法框架图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着智能总段和各种实时网络的发展，使得网络服务请求多样性和网络环境的复杂性越来越多，导致VNF部署策略的状态空间较大，很难得到最优的迁移过程。随着用户请求对时延的要求越来越高，在服务器负载情况下，通过VNF的迁移能够实现负载平衡，但却难以及时保证用户的Qos，通过VNF的复制，可以满足更多用户的需求，提升用户服务体验质量，但同时也会造成成本的增加。因此，本文结合VNF的复制，构建迁移模型，在保证用户Qos的前提下，最小化系统成本。

系统框架结构如图1所示，该结构包括数据收集监测模块、数据分析模块、马尔科夫决策模块、深度强化学习模块以及策略执行模块；所述数据收集监测模块用于获取用于获取边缘服务器节点的信息；所述数据分析模块用于筛选候选节点；所述马尔科夫决策模块用于将获取的数据转化为策略，并进行策略选择；在进行策略选择过程中，采用深度强化学习模块选取最优的执行策略；所述策略执行模块用于执行选择出的执行策略。

一种基于边缘网络的虚拟网络功能迁移方法，该方法包括：

S1：当VNF需要进行迁移时，向控制器发送信号；

S3：采用空闲资源和负载阈值机制对节点列表中的各个节点进行筛选，得到3个候选节点；

S4：构建马尔科夫决策，根据马尔科夫决策对3个候选进行策略选择；

S6：根据选出的最优结果进行VNF迁移。

在SDN/NFV网络拓扑模型中，通过控制器收集并监测边缘各个服务器节点的空闲资源、负载状态等信息，生成一个节点列表N_list，若某个服务器节点过载时，提供网络服务的VNF不能够及时满足当前节点覆盖范围下的所有请求时，需要进行迁移或者复制到周围空闲资源的服务器节点上，保证用户的服务体验质量，实现负载均衡。为保证选取的节点能够满足迁移或复制所需的资源且实现负载均衡，本文提出了一种基于空闲资源和负载的三级阈值分析方法，用以选取合适的服务器节点，该方法的流程如图2所示，其具体过程包括：

定义负载因子为当前使用的资源比上节点所有资源，即公式为：

其中，η_load表示负载因子，U_已用资源表示当前服务器已经使用的资源，U_所有资源表示服务器的所有资源。

当VNF需要复制副本时，首先估计待复制VNF所需的资源E_need，并将其作为第一级阈值，依次判断当前服务器节点的周围服务器列表N_near中是否满足条件

若不能满足条件，则将该节点剔除，其余节点继续进行下一轮判断；依次计算服务器节点列表中的负载状态，若负载状态大于阈值0.6，则将其移除节点列表，符合条件的节点进入下一轮判断；利用节点短期内的资源、链路使用等历史数据，通过支持向量回归(SVR)进行预测未来的一个节点负载状态，若未来一段时间内的负载因子大于0.75，将该节点移除列表中。最终按照空闲资源大小进行排序，取前三个节点，作为最终的候选节点。

在构建马尔科夫决策过程中，首先进行VNF复制策略，即在当前服务器节点中不同网络服务对应的虚拟网络功能不能够满足当前的业务需求，会导致SFC的端到端的时延增大，用户的服务体验质量会下降，为保证用户的服务体验质量，需要利用额外的资源进行VNF的复制，副本的数量取决于负载的状态。

如图3所示，服务功能链(SFC)需要依次经过节点1上的VNF1和节点2上的VNF2进行处理，在节点1负载时，无法保证用户服务体验质量，此时可通过容器或虚拟机技术在节点3上复制VNF1的副本，实现负载均衡，保障服务质量。

根据制定的VNF复制策略对目标模型进行优化；即在保证服务功能链(SFC)端到端时延能够满足用户基本需求的前提下，最小化系统成本，构建目标优化模型。时延主要包括时延、迁移时延以及传输时延，而成本则主要包括复制产生的资源成本和消耗的带宽资源。由于不同的服务功能链可以同一个VNF，因此，在VNF迁移或复制时，可能影响多条服务功能链的运行。用一个无向图

网络模型，放置有n条服务功能链，服务功能链m的时延要求为

只有不大于该时延时，才能够保障用户的服务体验质量。

对于时延来说，迁移过程中带来的时延主要是迁移耗费的时延，记为τ_move，而复制行为需要考虑副本的启动时延与新的服务功能链的端到端时延。复制过程中产生的总时延

为：

其中，τ_start表示VNF副本的启动时间；

表示在VNF副本复制完成之后形成新的功能服务链(SFC)的端到端时延。

对于成本来说，复制过程中产生的成本为C_copy。由于迁移过程中不需要消耗额外的服务器资源、但需要消耗VNF迁移过程中的带宽资源以及其他开销；而复制过程则不涉及VNF的迁移，不需要消耗带宽资源，但却需要额外的服务器资源。本发明考虑迁移虚拟功能消耗的带宽资源，则虚拟网络功能v的迁移成本为：

其中，

表示迁移虚拟网络功能过程中消耗的带宽资源，

表示迁移虚拟网络功能v造成的缓冲器开销。

流经虚拟网络功能v的网络流的速率为每秒b₁,b₂,…,b_k个数据包，其中k为虚拟网络功能v所属的服务功能链条数；则

的表达式为：

其中，b_i表示网络流中的第i个数据包。

由于需要保证迁移或复制之后形成的新服务功能链端到端时延满足用户基本需求，也即需要满足：

其中，

表示网络中第k条服务功能链的端到端时延；k表示服务功能链的标号。

在满足SFC端到端时延需求的前提下，最小化系统成本。通过主要目标函数法，将SFC端到端时延以及服务器利用率的优化作为已知条件，从而将多目标优化问题转化为最小化成本的单目标优化问题。本发明将其构建为马尔科夫决策过程，通过深度Q学习(DQN)，找到最优的策略。即寻找到的最优策略为：

s.t.

g₃:u_e≤U_x,e＝1,2,3…

其中，g₁表示从i到j的虚拟链路带宽不能大于映射的物理链路带宽；条件g₂为表示网络中各条服务功能链端到端时延需要满足相应基本需求；g₃表示系统中各个服务器节点的利用率不能大于过载阈值U_x，

表示路径i到j虚拟链路的带宽；

路径m到n物理链路的带宽；m表示一条物理链路起始服务器节点的标号，n表示一条物理链路尾端服务器节点的标号，l表示某一条物理链路。

由于系统的下一个状态只与当前状态有关，而与之前的状态无关。因此对系统构建马尔科夫决策过程(Markov Decision Process,MDP)，MDP是决策的一种数学模型，对于具有马尔科夫性质的系统环境，能够模拟智能体可实现的随机性策略与回报，旨在依据当前系统所处的状态以及执行不同策略后环境的反馈，从可用策略中选择最优策略。MDP有四元组(S,A,P,R)构成，其中，S表示状态空间；A表示系统可以执行的动作空间，在执行某个动作之后，系统会进入其他的状态；P表示系统不同状态之间转移的概率；R表示汇报函数。

一种马尔科夫决策的具体实施例；确定服务器的状态空间、动作空间、状态转移矩阵以及奖励函数；根据服务器利用率、服务质量优劣标志和过载的服务器数量作为状态信息，定义状态空间；对VNF迁移或复制的目标节点进行筛选，得到3个候选目标节点，根据候选目标节点制定动作空间；服务器节点在选择虚拟网络功能v执行动作时，执行动作

一组数据(s,a)转移到下一个状态s′，则回报函数记为r(s′|s,a)。则有：

(1)定义状态空间为。网络中服务器正常运行时，将系统在t时刻的状态S(t)定义为：

S(t)＝{U(t),F(t),H(t)}U(t)∈[0,1],F(t)∈{0,1},0≤H(t)≤h_max

其中，h_max为系统中服务器节点的数量，是一个恒定值；F(t)是系统中服务质量好坏的标志，F(t)为0时表示服务质量满足基本需求，F(t)为1时表示服务质量不能够满足基本需求；H(t)为当前系统中在t时刻处于过载的服务器数量，U(t)为系统全局服务器节点的平均利用率。

(2)定义动作空间。动作空间是可执行的一系列动作的集合。由于VNF的迁移或复制动作是离散的，不需要进行离散化处理。由于迁移或复制的目标节点已经进行相应的筛选，候选目标节点个数为3个。因此将t时刻的动作空间定义为：

A(t)＝{a(t)|a∈q}

其中，a(t)表示VNF的动作，q表示VNF可执行的动作空间。

q定义为：

其中，δ为VNF不同动作的标志，δ为0表示执行迁移动作，δ为1时表示执行复制动作；D为目标节点空间，V_e为过载服务器中运行的VNF集合，U_o为过载的服务器集合。

(3)定义状态转移矩阵服务器节点在选择虚拟网络功能v执行动作时，执行动作

并由状态s_k转移至下一个状态s_k+1，由于系统的转移只与当前的状态有关，不与历史其他状态有关，因此，从状态状态s_k转移到状态s_k+1的概率为：

p(s_t＝s_k+1|s_t-1＝s_k)＝p(s_t＝s_k+1|s_t-1＝s_k,s_t-2＝s_k-1,…)

由于初始状态之间的转移概率难以知道，因此采用ε贪婪策略，其表达式为：

其中，ε贪婪策略是选取使状态-动作值函数最大的动作的概率最大，而执行其他动作的概率都一样，都为

π(a|s)为系统环境在s状态下执行动作a的策略，ε是一个很小正数，通过人为确定；

表示系统环境在s状态时选取的动作a就是使状态-动作值函数Q(s,a)最大的动作，|A(s)|表示可选动作空间的数量，不为0。

(4)定义奖励函数。设计励函数时主要考虑服务器利用率、服务功能链端到端时延与迁移或复制过程中消耗的成本方面的因素。设计的奖励函数为：

其中β为折扣系数，且

因为在复制过程中系统需要为新的副本分配相应的资源。

传统的强化学习算法可以处理简单的任务环境，很难解决复杂任务环境的问题。随着深度学习与强化学习的不断完善，强化学习和深度学习的结合的研究愈来愈多，其中深度Q网络算法(DQN)是其中一种值函数近似的深度强化学习算法，通过神经网络来近似值函数。DQN框架图如图4所示。

通过观察到当前VNF环境状态s_i，经过当前值网络也即Q网络，并根据状态转移策略，选择可执行的动作

VNF状态将会将之前的状态转移到下一个状态s_i′；在执行动作状态之后将依据奖励函数得到相应的回报r，并将与环境交互得到的状态转移数据组

放入到经验池中，在需要的时候进行学习。

中损失函数用神经网络的输出值与Q学习每次迭代时的更新值构造，是神经网络的输出值与Q函数估值之间的误差：

L(θ)＝E[(y-Q(s,a,θ))²]

其中，E[.]表示对误差的期望值，y表示目标网络的输出值，s表示系统的状态，a表示执行动作，θ表示神经网络的参数。

采用深度Q学习训练构建最优选择策略模型的过程包括：

(1)训练样本的生成。通过对系统环境进行探索，依据当前系统的状态，通过使用ε贪婪(ε-greedy)策略来进行动作的选取，即以1-ε的概率从可执行动作空间中选取令Q值最大的动作，以ε大小的概率选取动作空间中的其他动作。将每一次的状态转移信息(s,a,r,s′)存放在经验回放池中，且当经验池容量已满无数据存放空间时，采用随机替换数据的方式存入经验池中。

(2)系统学习过程。先随机从经验回放池中选择一段状态转移数据(s,a,r,s′)，将系统状态s作为Q网络的输入，通过深度学习输出全部可执行动作对应的Q值，然后依据已选取数据中的动作a，获得相对应的Q(s,a；θ)。之后将系统状态s′输入到目标网络中，得到相应的目标值y。在该过程中，神经网络的优化主要是通过最小化目标网络与Q网络之间的损失函数来实现的。另外，每经过一定训练次数，就将目标网络的参数进行更新，更新目标网络参数

的方法是复制Q网络的参数，即令

从而使得目标网络更新参数的同时又可以保持相对稳定，减少Q网络与目标网络输出值的关联性。

(3)决策过程。利用训练好的模型，判断系统的状态，依据状态转移概率，获取相应的可执行动作，输出每个动作相对应的Q值，从而选择令Q值最大的动作，也即对VNF执行迁移还是复制，迁移到哪个目标节点。

为降低训练样本的相关性以及样本分布不均衡的问题，采用经验回放机制，训练时在经验池中，随机抽取部分样本，将这些样本作为训练样本。且每间隔一定训练次数将Q网络的参数θ复制给目标网络参数

使得目标网络在参数更新的同时保持相对的稳定，减少两个网络输出值的相关性。而参数θ利用梯度下降更新，若λ为深度学习学习率，则更新公式为：

其中，λ表示深度学习学习率，l(θ)表示误差，

表示对值函数Q(s,a；θ)进行梯度下降。

本发明协同VNF的复制，通过基于阈值的机制筛选合适的迁移目标节点，在一定程度上降低问题的复杂度，并利用深度强化学习选择最优策略，能够实现在保证网络服务质量的同时，降低系统成本。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，包括：

S2：控制器接收信号后，实时监测边缘服务器节点的信息，根据该信息生成节点列表；边缘服务器节点的信息包括该节点的空闲资源和负载状态；

S6：根据选出的最优结果进行VNF迁移。

2.根据权利要求1所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，采用空闲资源和负载阈值机制对节点列表中的各个节点进行筛选的过程包括：

3.根据权利要求2所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，设置的三级阈值包括：第一级阈值为待复制VNF所需的资源E_need，第二级阈值为0.6，第三级阈值为0.75。

4.根据权利要求1所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，构建马尔科夫决策的过程包括：根据当前服务器节点的运行状态制定VNF复制策略；根据制定的VNF复制策略对目标模型进行优化；根据目标模型优化结果制定马尔科夫决策。

5.根据权利要求4所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，制定VNF复制策略的过程包括：当前服务器节点中不同网络服务对应的VNF不满足当前需求时，导致服务功能链SFC的端到端时延增大，此时，利用网络资源进行VNF复制；服务功能链SFC依次对经过第一节点上的VNF1和第二节点VNF2进出处理，即在第一节点负载时通过容器或虚拟机技术在第三节点上复制VNF1的副本，实现负载均衡。

6.根据权利要求4所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，对目标模型进行优化的过程包括：VNF复制迁移过程中的产生的总时延为

7.根据权利要求6所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，优化目标为：

s.t.

g₁：

g₂：

g₃：u_e≤U_x，e＝1，2，3…

其中，

表示VNF迁移过程中消耗的带宽资源，C_copy表示VNF复制过程复制副本需要消耗的资源，g₁表示从i到j的虚拟链路带宽不能大于映射的物理链路带宽，

表示从i到j的虚拟链路带宽，

表示映射的物理链路带宽，g₂表示网络中各条服务功能链端到端时延需要满足相应基本需求，

表示第k条服务功能链的端到端时延，

表示第k条服务功能链的最大容忍延迟，g₃表示系统中各个服务器节点的利用率不能大于过载阈值，u_e表示系统中各个服务器节点的利用率，U_x表示过载阈值。

8.根据权利要求4所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，制定的马尔科夫决策的过程包括：确定服务器的状态空间、动作空间、状态转移矩阵以及奖励函数；根据服务器利用率、服务质量优劣标志和过载的服务器数量作为状态信息，定义状态空间；对VNF迁移或复制的目标节点进行筛选，得到3个候选目标节点，根据候选目标节点制定动作空间；服务器节点在选择虚拟网络功能v执行动作时，执行动作

9.根据权利要求1所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，采用深度Q学习训练构建最优选择策略模型的过程包括：

步骤2：随机从经验回放池中选择一段状态转移数据(s，a，r，s′)，将该数据中的系统状态s作为Q网络的输入，并通过深度学习输出全部的可执行动作对应的Q值；

步骤3：根据已选取的状态转移数据中的动作a和所有可执行动作的Q值，获取动作a对应的Q(s，a；θ)；

步骤4：将系统状态s′输入到目标网络中，得到相应的目标值y；采用损失函数计算Q(s，a；θ)和目标输出值y之间的误差，并通过梯度下降算法进行神经网络参数的更新；

步骤6：选择Q值最大的动作作为VNF迁移和复制的目标节点。

10.根据权利要求9所述的一种基于边缘网络的虚拟网络功能迁移方法，其特征在于，神经网络参数的更新公式为：

其中，λ表示深度学习学习率，l(θ)表示误差，

表示对值函数Q(s，a；θ)进行梯度下降。