CN114357680A

CN114357680A - 面向车联网边缘计算路域划分服务迁移方法以及迁移系统

Info

Publication number: CN114357680A
Application number: CN202210011733.XA
Authority: CN
Inventors: 王燕; 张昊天; 刘泽民; 周建涛; 高健玮; 任立国
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-15

Abstract

本发明提供了一种面向车联网的边缘计算路域划分服务迁移方法以及迁移系统，所述迁移方法包括：根据车辆路边基站的交叉覆盖范围来定义迁移路段；当车辆驶入所述迁移路段时根据车辆和服务器之间的距离以及服务器上的各种信息来决定服务迁移策略；从时延和损耗两个方面来制定服务迁移策略的衡量指标；基于所述迁移路段、所述服务迁移策略以及所述衡量指标构建马尔科夫决策过程模型；采用强化学习的方法实现服务迁移。本发明的迁移方法通过将路网模型与车辆用户移动性结合起来，将车辆行驶路段划分为迁移路段和非迁移路段，并以此为基础建立MDP模型，能避免频繁的服务迁移工作造成额外的迁移开销。

Description

面向车联网边缘计算路域划分服务迁移方法以及迁移系统

技术领域

本发明涉及车联网领域，具体而言，涉及一种面向车联网的边缘计算服务迁移方法以及迁移系统。

背景技术

在以往的研究中往往只从单一角度来考虑服务迁移策略的制定。所谓单一衡量指标的服务迁移策略是以从时延或损耗单一角度去考虑，使得服务迁移在单一角度上取得最优值。如果只考虑损耗这单一方面，那么就会忽略时延对于用户车辆的影响；反之，如果只考虑低时延，那么可能会忽略冗余服务迁移带来不必要的损耗，得不到最优时延和损耗。

此外，基于强化学习的服务迁移决策是以某一变量建立马尔科夫决策过程，基于环境采取行动取得最大化的预期收益。大多数研究都以时间作为连续变量建立马尔科夫决策过程，不能将用户的位置与马尔科夫过程建立直接的连接，不能很好的解决用户的移动性问题。

有鉴于此，特提出本发明。

发明内容

有鉴于此，本发明公开了一种面向车联网的边缘计算路域划分服务迁移方法，该迁移方法实现了从多个方面来制定服务迁移策略，能够很好的解决用户的移动性问题，且能够得到最优的时延和损耗。

具体地，本发明是通过以下技术方案实现的：

第一方面，本发明公开了一种面向车联网的边缘计算服务迁移方法，包括如下步骤：

预先对道路进行划分迁移路段与非迁移路段，根据车辆路边基站的交叉覆盖范围来定义所述迁移路段；

当车辆驶入所述迁移路段时根据车辆和服务器之间的距离以及服务器上的各种信息来决定服务迁移策略；

从时延和损耗两个方面来制定服务迁移策略的衡量指标；

基于所述迁移路段、所述服务迁移策略以及所述衡量指标构建马尔科夫决策过程模型；

采用强化学习的方法实现服务迁移。

第二方面，本发明公开了一种面向车联网的边缘计算服务迁移系统，包括：

建立迁移路段模块：预先对道路进行划分迁移路段与非迁移路段，根据车辆路边基站的交叉覆盖范围来定义迁移路段；

建立迁移策略模块：当车辆驶入所述迁移路段时根据车辆和服务器之间的距离以及服务器上的各种信息来决定服务迁移策略；

建立衡量指标模块：从时延和损耗两个方面来制定服务迁移策略的衡量指标；

模型构建模块：基于所述迁移路段、所述服务迁移策略以及所述衡量指标构建马尔科夫决策过程模型；

强化学习模块：采用强化学习的方法实现服务迁移。

第三方面，本发明公开了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述计算服务迁移方法的步骤。

第四方面，本发明公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述计算服务迁移方法的步骤。

总之，本发明提出的面向车联网的边缘计算服务迁移方法以及迁移系统，通过将路网模型与车辆用户移动性结合起来，将车辆行驶路段划分为迁移路段和非迁移路段，并以此为基础建立MDP模型，能有效避免频繁的服务迁移工作造成额外的迁移开销。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的面向车联网的边缘计算服务路域划分迁移方法的流程示意图；

图2为本发明实施例提供的迁移系统的结构示意图；

图3为本发明实施例提供的一种计算机设备的流程示意图；

图4为本发明实施例提供的移动边缘计算服务迁移框架；

图5为本发明实施例提供的迁移路段规划图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，本发明公开了一种面向车联网的边缘计算服务迁移方法，包括如下步骤：

S1、预先对道路进行划分迁移路段与非迁移路段，根据车辆路边基站的交叉覆盖范围来定义所述迁移路段；

S2、当车辆驶入所述迁移路段时根据车辆和服务器之间的距离以及服务器上的各种信息来决定服务迁移策略；

S3、从时延和损耗两个方面来制定服务迁移策略的衡量指标；

S4、基于所述迁移路段、所述服务迁移策略以及所述衡量指标构建马尔科夫决策过程模型；

S5、采用强化学习的方法实现服务迁移。

具体的迁移过程可按照如下操作进行：

一、迁移路段与非迁移路段的划分

基于车联网的MEC下的移动边缘计算服务迁移框架如图4所示，该框架由边缘计算层和用户车辆层组成。边缘计算层由沿路边部署的基站以及基站上部署的唯一的边缘计算服务器(MEC服务器)组成。MEC服务器之间为有线信道连接，当服务迁移时，源MEC服务器将用户车辆卸载的计算任务的运行实例通过有线信道传输到目标MEC服务器。同时各MEC服务器均与远端云连接，以保证实时的远程服务通信。可知每个MEC计算服务器中运行着部分种类的MEC服务，为有服务需求的用户车辆提供MEC服务。其中，用户车辆与基站满足以下条件：

(1)所有车辆用户都能被基站所覆盖；

(2)每个基站上仅部署一个MEC服务器；

(3)每个车辆用户在同一时刻最多只能和一个基站相连；

每个基站的覆盖范围是有限的，车辆初始时与最近的基站连接获得服务，随着车辆行驶，车辆与基站之间的距离不断增加并且服务质量降低，此时车辆用户需要决定是否进行服务迁移。但是频繁的进行服务迁移是对MEC服务器上有限资源的极大浪费，为了解决上述问题，本发明制定了一种策略：将路边基站的交叉覆盖范围定义为迁移路段，用户车辆行驶到多基站交叉覆盖区域时根据服务迁移算法决定服务迁移策略。例如，车辆用户要求获得实时驾驶安全检测服务，当车辆驶入迁移路段时根据车辆和服务器之间的距离以及服务器上剩余的计算资源等各种信息来决定服务迁移策略。

此时，有两种迁移决策选择：一是用户车辆选择与要迁移的目标路边单元连接并将源MEC服务器上的服务迁移到目标MEC服务器上。二是用户车辆选择与要迁移的路边单元连接但是不选择把服务从源MEC服务器迁移到目标MEC服务器，目标路边单元作为一个中间节点来接收用户车辆发送的任务数据并且传到源路边单元，源MEC服务器处理任务完成后的结果由源路边单元传给目标路边单元，再由目标路边单元传给用户车辆。

假设服务迁移工作都可在一个迁移路段内完成，在每个迁移路段用户车辆都会有两种迁移决策，每种迁移决策都会造成不同的损失，通过衡量指标来计算两种决策下用户的损失，其中损失最小的迁移决策就是本路段内要采取的迁移决策。通过最小化每个迁移路段内的损失来达到最小化整个连续路段内的损失。

二、迁移策略的衡量指标

如图5所示，在l迁移路段，状态s(l)为当前用户车辆能够检测到信号的路边单元集合T。车辆与路边单元集合之间的距离用Dist_u,r表示，路边单元之间的距离用p_i,j表示。总成本包括(1)迁移成本。(2)用户车辆连接的路边单元和服务所在的路边单元之间的转换成本。(3)用户和连接的路边单元之间的转换成本。通过下图所示，得到各部分迁移成本公式。

(1)迁移成本如公式1所示：

CostW＝α_Wp_i,j+C (1)

服务迁移的实例是运行车辆用户设备任务的虚拟机或者容器，其数据大小与上传到服务器的任务大小不同，且一般大于任务数据量，所以我们将服务从源MEC服务器迁移到目标MEC服务器会造成迁移损耗。其中，参数α_W>0，p_i,j为服务器i与服务器j之间的距离。由于用户设备卸载的计算任务的数据包普遍较小，在传输过程所产生的时延远小于数据包在排队处理过程中产生的时延，因此一些研究使用MEC服务器之间的网络跳数表示两个MEC服务器之间的距离。C为在目标服务器上创建车辆用户服务实例所造成的开销。

(2)车辆用户连接的路边单元和服务所在的路边单元之间的转换成本如公式2所示：

CostL_d1(x)＝(1+sng(x))(μ_n+μ_mε^x)/2 (2)

服务和数据在路边单元之间通过有线信道进行传输并产生转换成本。其中，μ_n、μ_m、ε都是实值参数，x＝p_i,j。p_i,j如图3-2所示表示路边单元i和路边单元j之间的距离。

车辆用户和连接的路边单元之间的转换成本如公式3所示：

CostL_d2(x)＝(1+sng(x))(δ_n+δ_mε^x)/2 (3)

服务和数据在车辆用户和路边单元之间通过无线信道进行传输并产生转换成本。其中，δ_n、δ_m、ε都是实值参数，x＝Dist_u,r。Dist_u,r表示路边单元j与车辆用户之间的距离。

(3)一路段成本表达式如公式4：

C_a(s(l))＝CostW+CostL_d1(p_i,j)+CostL_d2(Dist_u,r) (4)

(4)时延

用户从任务卸载到拿到执行结果的过程中造成的时延主要为以下几部分；

传输时延T_transport：任务数据在车辆用户和其连接的MEC服务器之间以及MEC服务器之间传输都会产生时延，其之间的距离越大传输时延越大，任务数据量越小传输时延越小；计算公式如下：

T_transport(x)＝D_task*x (5)

其中，D_task表示任务数据量大小，x表示车辆用户与MEC服务器之间的距离Dist_u,r或者MEC服务器之间的距离p_i,j。

执行时延T_execute：任务在MEC服务器上的执行时间与任务的数据量和任务的计算复杂度有关。对于不同的任务有不同的计算复杂度，将车辆用户卸载的任务计算复杂度定义为O(n),并且将所有任务的复杂度归纳如下：

执行时延计算公式如下：

其中D_task表示任务数据量大小，P_s表示MEC服务器计算能力。

迁移时延T_migration：数据在MEC服务器之间进行有线信道传输会产生一定的时延，并且与服务器之间的距离成正比。此外，在目标MEC服务器上创建服务实例也会产生时延。所以用户在选择服务迁移时造成的迁移时延由两部分组成。

T_migration＝α_Tm*p_i,j+R (8)

其中α_Tm>0，pi,j为MEC服务器i到MEC服务器j之间的距离。R表示在目标MEC服务器上创建任务实例产生的时延，为一个大于0的常量。

总时延为：

a＝0表示采取服务迁移策略一，a＝1表示采取服务迁移策略二。

(5)损失函数

定义一迁移路段内的损失函数如下：

Loss＝μ₁*T_sum+μ₂*C_a(s(l)) (10)

其中，μ₁和μ₂是修正系数，用来调节用户损失值和迁移成本的权重。

三、服务迁移策略

在有关车联网用户进行服务迁移决策的MDP建模过程中，与大多数基于强化学习解决服务迁移问题的研究不同的是本发明不采用时间流模型进行MDP建模。在车辆用户行驶的路网模型中划分出迁移路段，通过迁移路段作为离散变量建立MDP模型。通过迁移路段的划分既考虑了车辆用户移动性又将道路实际情况结合形成路网模型，最大程度切合实际路线来进行服务迁移工作。除了考虑到车辆用户的移动性外，考虑到服务器上的计算资源情况以及车辆用户和基站之间的距离，将车辆用户在迁移路段上可以检测到信号的基站集合定义为系统状态，将车辆用户可以采取的两种迁移策略定义为行动集合，同时以上文的成本和时延衡量指标为基础作为奖励函数，在考虑到频繁进行服务迁移工作能耗成本的同时又能保证车辆用户获得服务的实时性。

四、MDP模型

车辆用户卸载到边缘服务器的计算任务用一个三元组T＝(D_task,T_dl,T_re)来描述，其中D_task表示计算任务的数据量大小，T_dl表示任务的最晚完成时间，T_re表示计算任务占用的计算资源。而部署在基站上的MEC服务器的计算资源也是有限的，所有的MEC服务器具有相同的计算资源和计算能力。因此给定计算任务和MEC服务器，可以明确地知道任务的计算资源需求大小和MEC服务器的剩余可用计算资源大小。

在车辆用户行驶的路段上部署了多个基站，每个基站上只部署唯一的MEC服务器，基站与基站之间的距离都是相等的。当车辆用户移动到迁移路段时，会检测到不同基站的信号集合，此时记车辆用户与基站之间的距离为Dist_u,r，记基站i、基站j之间的距离为p_i,j。

从迁移成本和时延两个方面制定服务迁移策略，当满足车辆用户实时性服务要求而频繁地进行服务迁移会产生额外的迁移成本；同时，为了减少迁移成本使得车辆用户与基站距离超出车辆用户对服务的时延要求时会影响车辆用户的服务质量。而且在实际情况中，MEC服务器的计算资源是有限的，当车辆用户准备进行服务迁移的目标MEC服务器的计算资源不支持服务迁入时，需要考虑次优的MEC服务器选择或者其他的服务迁移策略。因此，在执行服务迁移决策的时候，需要综合考虑服务的计算资源需求大小和迁移目标服务器的剩余可用计算资源情况。

综上所述，MDP模型中将车辆用户在不同迁移路段检测到信号的基站集合作为系统状态，既可以计算出车辆用户与MEC服务器之间的距离，同时又保证MEC服务器的计算资源满足车辆用户计算任务需求。

在确定了MDP的状态集、行动集合和奖励函数之后，采用Q-learning算法进行基于车联网的边缘计算服务迁移策略求解。Q-learning算法是强化学习算法中value-based的算法。Q-learning算法首先初始化一张Q-table，表的行代表MDP模型中的系统状态集，表的列代表MDP模型中的系统动作集合。Q-table的值是在状态s下采取行动a的回报值，然后通过不断选取并执行动作获取环境的反馈来更新Q-table，最终得到一张训练好的Q-table。

系统根据当前的状态进行迁移决策，动作集定义为A＝{0,1}，其中，0表示采取服务迁移策略一，将服务从源基站连接的MEC服务器上迁移到目标基站连接的MEC服务器上。1表示采取服务迁移策略二，不执行服务迁移，用户车辆与目标基站连接，作为车辆用户和源基站的中间节点进行通信。在迁移路段l采取的动作记为a_l，则a_l∈A。

将奖励函数设计为常数与迁移成本和通信时延的差值。奖励函数定义如下：

r(s_l,a_l)＝M-μ₁*T_sum-μ₂*C_a(s(l)) (11)

其中，μ₁和μ₂是修正系数，μ₁+μ₂＝1。M是一个正数常量来保证奖励函数不会出现负数的情况。μ₁>μ₂表示更注重车辆用户的实时性服务，μ₁<μ₂表示追求低迁移成本的服务迁移工作。

基于上述MDP模型，服务迁移决策策略采用Q-learning算法进行求解。Q即为Q(s,a)，就是在s状态下采取动作a能够获得收益的期望，环境会根据agent的动作反馈相应的奖励，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大收益的动作。Q函数的更新方式如下：

Q(s,a)＝(1-η)*Q(s,a)+η[r+γmax Q(s′,a)] (12)

其中，s代表的是当前的系统状态，s`代表的是下一个状态，a代表当前的行动。r表示在状态s采取行动a获得的即时回报。γ是折扣因子，在0到1之间取值，表示对未来回报的重视程度，γ越大表示越重视未来回报。η是学习率，η的大小决定了每次迭代更新的时候之前的训练结构产生的影响的大小。

Q-learning算法的训练结果通常用一个Q-table来(下表1)表示，Q-table的行表示状态，列表示动作，表中的每个元素表示为Q(s,a)，代表的是系统在状态s下采取行动a的回报。

表1 Q-table示例

Q(s,a)	a0	a1
			s0	Q(s0,a0)	Q(s0,a1)
s1	Q(s1,a0)	Q(s1,a1)
			...	...	...
sN	Q(sN,a0)	Q(sN,a1)

根据MDP模型可知，行动集的大小为2，分别是0和1，所以Q-table只有两列，第一列是各状态下采取服务迁移策略一的Q值，第二列是各状态下采取服务迁移策略二的Q值。使用Q-learning算法来进行服务迁移决策问题的结果就是得到表1所示的一个Q-table。在每个迁移路段，统计状态s，根据可选行动，选择Q-table中状态为s的那一行中值最高的行动执行即可。

在训练过程中进行动作选取时，需要考虑的一个问题是如何平衡好利用与探索之间的关系。所谓利用，指的是如何根据当前己知信息做出决策，而探索指的是做出其他决策来收集更多信息，帮助后续决策。合理平衡好利用和探索的关系，对系统的学习能力有非常重要的影响。一方面，只利用已有信息选择动作可能导致某些特定状态下的特定动作没有得到探索，选择的动作不是最优；另一方面，过多的随机探索会导致训练耗时过长难以收敛。采用ε-greedy策略来解决这个问题，该策略在每一步以ε的概率来随机选择动作，而剩下1-ε的概率根据Q-table直接选择当前最大回报的动作。在具体实现中，ε会随着训练的进行不断衰减，即随机性逐渐降低，也就是探索的比重越来越小，利用的比重越来越大。

总之本发明在建立MDP模型时，采用了新的搭建方式，并对迁移路段、服务迁移策略以及衡量指标进行了准确的定义，通过本发明的MDP模型进行服务迁移，既能避免频繁的服务迁移工作造成额外的迁移开销，又能保证车辆用户要求的服务实时性，提高了服务质量。

如图2所示，本发明提供了一种面向车联网的边缘计算服务的迁移系统，包括：

建立迁移路段模块101：预先对道路进行划分迁移路段与非迁移路段，根据车辆路边基站的交叉覆盖范围来定义迁移路段；

建立迁移策略模块102：当车辆驶入所述迁移路段时根据车辆和服务器之间的距离以及服务器上的各种信息来决定服务迁移策略；

建立衡量指标模块103：从时延和损耗两个方面来制定服务迁移策略的衡量指标；

模型构建模块104：基于所述迁移路段、所述服务迁移策略以及所述衡量指标构建马尔科夫决策过程模型；

强化学习模块105：采用强化学习的方法实现服务迁移。

该系统主要由上述五个模块构成，通过该系统的搭建很好的解决了用户的移动性问题。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

图3为本发明公开的一种计算机设备的结构示意图。参考图3所示，该计算机设备400，至少包括存储器402和处理器401；所述存储器402通过通信总线403和处理器连接，用于存储所述处理器401可执行的计算机指令，所述处理器301用于从所述存储器402读取计算机指令以实现上述任一实施例所述的计算服务迁移方法的步骤。

对于上述装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部磁盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

最后应说明的是：虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种面向车联网的边缘计算路域划分服务迁移方法，其特征在于，包括如下步骤：

从时延和损耗两个方面来制定服务迁移策略的衡量指标；

采用强化学习的方法实现服务迁移。

2.根据权利要求1所述的边缘计算服务迁移方法，其特征在于，所述服务迁移策略包括两种迁移决策，分别包括如下步骤：

车辆选择与要迁移的目标路边单元连接并将源服务器上的服务迁移到目标服务器上；

或车辆选择与要迁移的目标路边单元连接，并将所述目标路边单元作为中间节点来接收车辆发送的任务数据并且传到源路边单元；

所述源路边单元将源服务器处理任务完成后的结果传给目标路边单元，再由目标路边单元传给车辆。

3.根据权利要求2所述的边缘计算服务迁移方法，其特征在于，所述衡量指标的建立方法包括计算总成本，计算时延以及计算损耗三个步骤：

所述计算总成本的方法包括：

设定车辆检测到信号的路边单元集合为T，车辆与路边单元集合之间的距离为Dist_u,r，路边单元之间的距离为p_i,j；总成本包括迁移成本、车辆连接的路边单元和服务所在的路边单元之间的转换成本1、以及用户和连接的路边单元之间的转换成本2，通过上述设定得到各部分迁移成本公式：

其中，迁移成本如下公式所示：

CostW＝α_Wp_i,j+C (1)

其中，参数α_W>0，p_i,j为服务器i与服务器j之间的距离，C为在目标服务器上创建车辆用户服务实例所造成的开销；

转换成本1如下公式所示：

CostL_d1(x)＝(1+sng(x))(μ_n+μ_mε^x)/2 (2)

μ_n、μ_m、ε都是实值参数，x＝p_i,j，当x＝0时，sng(x)＝-1；当x>0时，sng(x)＝1，

转换成本2如下公式所示：

CostL_d2(x)＝(1+sng(x))(δ_n+δ_mε^x)/2 (3)

δ_n、δ_m、ε都是实值参数，x＝Dist_u,r，当x＝0时，sng(x)＝-1；当x>0时，sng(x)＝1，

总成本表达式如下公式所示：

C_a(s(l))＝CostW+CostL_d1(p_i,j)+CostL_d2(Dist_u,r) (4)

所述计算总时延的方法包括：

计算传输时延：

T_transport(x)＝D_task*x (5)

其中，D_task表示任务数据量大小，x表示车辆用户与MEC服务器之间的距离Dist_u,rr或者MEC服务器之间的距离p_i,j；

计算执行时延：

其中D_task表示任务数据量大小，P_s表示MEC服务器计算能力；

将所有任务的复杂度归纳如下：

计算迁移时延：

T_migration＝α_Tm*p_i,j+R (8)

其中α_Tm>0，p_i,j为MEC服务器i到MEC服务器j之间的距离，R表示在目标MEC服务器上创建任务实例产生的时延，为一个大于0的常量；

根据上述计算得到总时延为：

a＝0表示采取服务迁移策略一，a＝1表示采取服务迁移策略二；

所述损耗的计算方法包括：

Loss＝μ₁*T_sum+μ₂*C_a(s(l)) (10)

4.根据权利要求1所述的边缘计算服务迁移方法，其特征在于，采用强化学习的方法实现服务迁移的方法包括：

根据当前的状态进行服务迁移决策，动作集定义为A＝{0,1}，其中，0表示执行服务迁移策略一，将服务从源基站连接的MEC服务器上迁移到目标基站连接的MEC服务器上；

1表示采取服务迁移策略二，不执行服务迁移，用户车辆与目标基站连接，作为车辆用户和源基站的中间节点进行通信；在迁移路段采取的动作记为a_l，则a_l∈A；

然后将奖励函数设计为常数与迁移成本和通信时延的差值，奖励函数定义如下：

r(s_l,a_l)＝M-μ₁*T_sum-μ₂*C_a(s(l))；

其中，μ₁和μ₂是修正系数，μ₁+μ₂＝1，M是一个正数常量来保证奖励函数不会出现负数的情况，μ₁>μ₂表示更注重车辆用户的实时性服务，μ₁<μ₂表示追求低迁移成本的服务迁移工作；

然后采用强化学习算法进行求解。

5.根据权利要求4所述的边缘计算服务迁移方法，其特征在于，所述强化学习算法的公式如下：

Q(s,a)＝(1-η)*Q(s,a)+η[r+γmax Q(s′,a)]；

s代表的是当前的系统状态，s`代表的是下一个状态，a代表当前的行动；r表示在状态s采取行动a获得的即时回报；γ是折扣因子，在0到1之间取值，表示对未来回报的重视程度，γ越大表示越重视未来回报；η是学习率，η的大小决定了每次迭代更新的时候之前的训练结构产生的影响的大小。

6.采用权利要求1-5任一项所述的边缘计算服务迁移方法的迁移系统，其特征在于，包括：

强化学习模块：采用强化学习的方法实现服务迁移。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序执行时实现权利要求1-5任一项所述计算服务迁移方法的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述计算服务迁移方法的步骤。