CN113747450B

CN113747450B - 一种移动网络中业务部署方法、装置及电子设备

Info

Publication number: CN113747450B
Application number: CN202110848799.XA
Authority: CN
Inventors: 刘蓓; 粟欣; 李文麟; 赵明
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-12-09
Anticipated expiration: 2041-07-27
Also published as: CN113747450A

Abstract

本发明实施例提供了一种移动网络中业务部署方法、装置及电子设备，该方法包括：根据用户的业务需求，确定待分配业务的业务信息和业务场景；根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的。通过本发明实施例，实现了能够快速确定各业务的部署方案，并合理利用资源。

Description

一种移动网络中业务部署方法、装置及电子设备

技术领域

本发明涉及移动通信技术领域，尤其涉及一种移动网络中业务部署方法、装置及电子设备。

背景技术

随着无线通信技术的飞速发展，移动应用程序和业务数量不断增加，当前网络在处理来自移动用户指数级增长的业务需求方面面临着巨大困难。5G网络是移动通信领域的重大飞跃，其在支持对时延变化较大的业务的需求等方面发挥着重要作用，而未来6G网络将在现有5G网络的基础上在时延、吞吐量等多方面将拥有更为严苛的要求。以云(virtualreality，VR)业务为例，其预计实现1ms以内的传输时延和20ms以内的端到端网络时延。同时，为适应未来6G时代更加丰富的社会生活场景和技术需求，部分学者在5G网络中增强移动宽带(enhanced Mobile Broadband，eMBB)、大规模机器类通信(massive Machine TypeCommunication，mMTC)和超高可靠超低时延通信(Ultra Reliable Low LatencyCommunication，URLLC)三大业务场景的基础上，进一步提出了第四大业务场景，即广覆盖高时延通信(Broad Coverage and High Latency Communication，BCHLC)，其特点是覆盖区域特别广但传输时延大。而通过采用新型的无线技术和网络技术有望进一步显著提升该业务的性能和效率。

伴随着移动边缘计算(Mobile Edge Computing，MEC)技术研究的不断深入，边缘云作为一个新兴的解决方案，在部署来自网络边缘的需要大量资源消耗和延迟敏感的业务等方面展现出了巨大潜力。与在移动设备和远程云数据中心上部署业务相比，边缘云允许用户利用云平台强大的计算能力，而不会造成与远程云数据中心通信的高时延，从而在大幅减少了往返核心网数据流量的同时，也满足了未来时延敏感型业务的时延需求。且相比于传统MEC，边缘云能够提供更多的计算和存储等各类资源，能够有效保障6G业务的服务质量(Quality of Service，QoS)水平。

但是，随着业务数量的增加也给网络管理带来了挑战，现有的业务部署方法对资源的利用效率过低，不够合理。

发明内容

本发明实施例的目的是提供一种移动网络中业务部署方法、装置及电子设备，以解决业务部署方法对资源的利用效率过低，不够合理的问题。

为了解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种移动网络中业务部署方法，包括：

根据用户的业务需求，确定待分配业务的业务信息和业务场景；

根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的。

第二方面，本发明实施例提供了一种移动网络中业务部署装置，包括：

获取模块，用于根据用户的业务需求，确定待分配业务的业务信息和业务场景；

执行模块，用于根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如第一方面所述的移动网络中业务部署方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的移动网络中业务部署方法步骤。

由以上本发明实施例提供的技术方案可见，本发明实施例通过根据用户的业务需求，确定待分配业务的业务信息和业务场景；根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的。通过本发明实施例，实现了能够快速确定各业务的部署方案，并合理利用资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的移动网络中业务部署方法的一种流程示意图；

图2为本发明实施例提供的移动网络的一种结构示意图；

图3为本发明实施例提供的移动网络中业务部署装置的模块组成示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供了一种移动网络中业务部署方法、装置及电子设备。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明实施例提供一种移动网络中业务部署方法，该方法可以应用在如图2所示的移动网络中，所述移动网络包括：中心云210、边缘云220和用户终端230。为了简便起见，在下面的实施例中，以所述移动网络包括：1个中心云，N个边缘云和K个用户终端为例，其中，边缘云220表示为

用户终端230表示为

所述在移动网络中产生业务集合

所述业务部署方法的执行主体可以为全局控制器，所述全局控制器可以位于中心云上。该方法具体可以包括以下步骤：

步骤S110、根据用户的业务需求，确定待分配业务的业务信息和业务场景。

应理解的是，所述中心云210上拥有无限量的流量、存储及计算资源，可用于部署资源需求量较大且对时延不敏感的业务。可以由位于中心云上的全局控制器来确定各业务的部署位置。

所述边缘云220上拥有有限量的流量、存储及计算资源，可用于部署资源需求量较小但对时延敏感的业务。另外，若在将业务部署到边缘云上，则对应的部署成本将高于所述中心云。边缘云可基于预设的触发条件向中心云的全局控制器上报边缘云的状态信息。所述触发条件可以包括：按照预设周期；在网络中产生新的待分配业务时；将新的待分配业务部署到该边缘云上后；或者，部署在该边缘云上的业务结束服务时。

所述边缘云的状态信息可根据实际的需要预先设定，在一种实施方式中，所述边缘云的状态信息可以为所述边缘云剩余的各类资源的信息，可以包括：剩余的流量、存储及计算资源等，在此不作具体地限定。

所述用户通过用户终端230产生各类业务需求，并以预设的分布形式，例如，高期分布或均匀分布等，到达网络汇总至位于所述中心云上的全局控制器，由所述全局控制器根据业务需求确定待分配业务的业务信息和所述待分配业务的业务场景，并最终确定所述待分配业务的业务部署方案，即确定部署位置。

所述业务场景可以是对业务的一种分类方式，在一种实施方式中，可以包括：eMBB、mMTC、URLLC、BCHLC。+

所述业务需求的特征可以包括业务开始服务的时间t_s,i、业务结束服务的时间t_e,i以及业务所需的流量资源f_s,i、所需的存储资源s_s,i及所需的计算资源h_s,i。业务需求可以用一个五元组来表示

同时，考虑到业务服务过程的动态性和突发性，所述业务需求的特征还可以包括业务的最大瞬时计算资源需求，可用h_max,i来表示。

步骤S120、根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的。

由于移动网络中业务到达状态的不断变化，而导致环境是动态的，且不同的业务之间的相互作用比较复杂。因此，对于这种动态环境的情况，本申请实施例使用马尔可夫决策来建模决策问题，然后基于马尔可夫决策进行强化学习，以及与各业务场景对应迁移学习，以得到适用于各业务场景的业务部署模型。

全局控制器在根据业务需求确定待分配业务时，采用与该待分配业务的业务场景对应的训练后的业务部署模型，得到对所述待分配业务的业务部署方案，即确定所述待分配业务的部署位置，然后业务部署方案将所述待分配业务部署到边缘云或中心云。

在一种实施方式中，中心云的全局控制器在确定待分配业务的部署位置后，还可以以容器化的方式托管该待分配业务，并在用户终端需要时，再将所述待分配业务通过网络传输至边缘云，并实现在所述边缘云上的部署。

在一种实施方式中，所述中心云上的全局控制器还可以向所述边缘云及所述用户终端定时收集对应的状态信息，包括时延、带宽、成本等，用于实时权衡业务的部署位置、收益及费用，然后确定是否在边缘云上进行业务部署。同时，全局控制器也会实现对各业务的监控、配置和管理。

在一种实施方式中，所述边缘云可以包括基站和大量资源受限的服务器集群。所述基站用于实现与用户终端之间的通信，包括接收业务请求和为用户终端提供业务服务。所述资源受限的服务器集群用于以容器化的方式部署用户终端所需的业务，包括通过网络从中心云请求容器化方式的业务部署和作为业务后台服务器向用户终端提供服务。

基于上述实施例，进一步地，所述业务部署模型的具体训练方法包括：

预先构建马尔可夫决策过程，所述马尔可夫决策过程包括：状态空间S、动作空间A和奖励函数R。

根据所述马尔可夫决策过程，以深度Q学习为基础，采用深度强化学习，得到源模型；

以所述源模型为基础，采用与各业务场景对应的迁移学习，得到与各业务场景对应的业务部署模型。

应理解的是，所述边缘云可以隶属于不同的网络运营商，不同运营商提供的流量、存储和计算等资源价格之间存在差异。例如，假设共有O个网络运营商，所有的网络运营商可以表示为

则各运营商提供的资源价格可表示为{l_f,i,l_s,i,l_h,i},

l_f,i,l_s,i,l_h,i分别代表运营商i提供的流量、存储及计算资源价格。所述中心云拥有单独的网络运营商，且由于所述中心云上拥有的资源无限量，故其提供的流量、存储和计算等资源价格低于边缘云上所隶属的网络运营商，l_f,0,l_s,0,l_h,0代表中心云提供的流量、存储及计算资源价格。

所述边缘云可用一个四元组E(f_c,i,s_c,i,h_c,i,o_i),

来描述，其中，f_c,i,s_c,i,h_c,i,o_i分别用于指示所述边缘云i的资源信息，具体可以为所述边缘云i上的剩余流量资源、剩余存储资源、剩余计算资源及归属的网络运营商。

在一种实施方式中，每个业务需要对应于一个用户，即必须由一个用户通过用户终端产生，且必须部署在一个中心云或边缘云上，从而为用户终端提供服务。t时刻在边缘云部署的业务数量为：

其中

在一种实施方式中，所述根据所述网络状态确定的业务部署方案要满足以下部署条件，包括：所述待分配业务所占用的资源满足所部署的边缘云的剩余资源，即每个业务在所述边缘云中部署的过程中，将考虑边缘云中剩余的流量、容量及计算资源。同时，为节约对边缘云服务器中存储资源的占用，所有业务均采用多线程的方式为用户提供服务。当边缘云服务器中有相同业务部署时，其所占用的存储空间将为该类型业务的最大值。所述待分配业务所占用的资源满足所部署的边缘云的剩余资源，具体可以表示为：

其中，

max(f_s,i,j)表示边缘云服务器i上部署的类型为j的业务所占用的最大容量资源，M_j,t为t时刻边缘云j上部署的业务数量，M_0,t表示t时刻中心云上部署的业务数量。

在一种实施方式中，在根据确定的业务部署方案对业务进行部署过程中会产生相应的时延成本r_i和部署成本c_i。

其中，所述时延成本r_i的计算方法可根据实际的需要进行设定，本申请实施例仅给出了其中的一种具体实施方式。根据业务部署方案实现业务部署后的服务过程可包括两个步骤：所述业务在云端上进行计算、云端将计算结果传输给用户终端。所以在上述过程中，共产生了两种时延，分别为计算时延r_c和传输时延r_t。

若业务部署于边缘云，其将直接为用户终端提供服务。对于无线信道，假设分配给所述业务i的带宽为W_i，所述业务所属的所述用户终端j与所述边缘云k之间的信噪比

则最大传输速率为

而当前时间内的所述业务i的平均流量可表示为

则所述业务i的传输时延可表示为

若所述业务部署于中心云，则该业务提供服务时，所需的数据将由所述边缘云进行中转，此时时延包括中心云服务器到所述边缘云服务器之间的时延和所述边缘云到用户终端之间的时延两大部分组成。则时延表示为

其中r_c,k表示中心云到边缘云k之间的时延。

所述业务的计算时延可表示为业务最大计算资源需求与已分配的计算资源之间的比值，即

业务i部署完成后，其提供服务的时延成本为r_i＝r_t,i+r_c,i。

所述部署成本c_i的计算方法可以根据实际的需要进行设定，本申请实施例仅给出了其中的一种具体实施方式。

考虑到由于网络运营商的不同，在不同的边缘云上流量等资源的租用费用存在明显差异。假设所述业务i的部署成本共包括三部分，分别为流量成本c_f,i、存储容量租用成本c_s，i及计算资源租用成本c_h，i。其中流量的租用成本按照实际使用量计算，与租用时间无关，即c_f，i＝f_s，i*l_f，j，

而存储容量和计算资源的租用成本则按照实际使用时间和资源分配量来计算，即c_s，i＝s_s，i*l_s，j*(t_e，i-t_s，i)，c_h，i＝h_h，i*l_h，j*(t_e，i-t_s，i)，

在一种实施方式中，若边缘云上尚未有任何业务部署，此时该边缘云应处于休眠状态。则首次将业务部署于该边缘云后，该边缘云需要退出休眠状态并进入到工作状态，则需要新增边缘云的启动成本c₀。

在一种实施方式中，所述业务i在部署后产生的部署成本为c_i＝c_f，i+c_s，i+c_h，i+c₀。

在一种实施方式中，根据所述网络状态确定的业务部署方案需要满足的条件还包括：所述业务部署方案产生的部署成本满足所述业务提供商的成本阈值c_tolerate，i，即满足该业务提供商所能容忍的最大部署成本，可以表示如下：

C₅：c_i≤c_tolerate，i

由此，若部署在边缘云的业务的部署成本无法满足所述边缘云的各项剩余资源，或者业务提供商无法支付所述边缘云的部署成本，即无法满足上述条件：C₁，C₂，C₃，C₄，C₅中的任意一条，则可以将该业务部署于所述中心云上。

本发明实施例在实际的确定业务部署方案的过程中，将综合考虑部署的时延成本和部署成本。因此，构建了以下优化问题，min{αr_i+βc_i}，s.t.C₁，C₂，C₃，C₄，C₅。上述优化问题是非确定性多项式(Nondeterministic Polynomially，NP)难题，为了得到该问题的最优解，通常需要搜索整个组合空间，且组合空间将随着所述用户及所述边缘云数量的增加呈指数级增长。

基于上述实施例，构建所述马尔可夫决策过程可以表示为[S，A，R，S′]，其中，所述状态空间S＝{s₁，s₂，…，s_n}包括各网络状态，所述网络状态包括：业务信息和各边缘云的状态信息，所述动作空间A＝{a¹，a²，…，aⁿ}包括根据所述网络状态确定的业务部署方案，所述奖励函数R为根据所述业务部署方案进行业务部署后产生的时延成本和部署成本得到。在t时刻的网络状态s_t时采取不同的业务部署方案a¹，a²，…，aⁿ将会获得不同的奖励值，然后，根据状态转移函数网络状态由s_t转换为s′_t。

为了充分描述移动网络及所述业务信息，在一种实施方式中所述业务信息可以包含业务ID、持续服务时间、流量需求、存储容量需求、计算需求、最大计算需求、种类、所述用户、所述业务运营商最大能够容忍的部署成本等数据，所述边缘云的状态信息可以包括所述边缘云的剩余资源，具体包括：剩余流量、存储及计算资源。具体来说，在t时刻的网络状态s_t被设计表示为：s_t＝[ser_t；clo_t,1,…,clo_t,N]^T。其中，ser_t代表本次待分配业务的业务信息。

表示所述边缘云i中剩余的流量、容量及计算资源。

在一种实施方式中，全局控制器确定的待分配业务的部署位置，可以包括边缘云和所述中心云，即

其中0代表将所述待分配业务部署到中心云。

所述马尔可夫决策过程，在采用业务部署方案进行状态转换将根据奖励函数得到奖励值，每一次业务部署方案的目标都是最大化奖励值，即通过动态地来优化时延成本和部署成本，实现最优的业务部署方案。在一种实施方式中，所述奖励函数可以表示如下：

R＝-(αr_i+βc_i)

其中，r_i为对业务i进行业务部署后产生的时延成本，c_i为对业务i进行业务部署后产生的部署成本，α和β为预设的比例系数，均为预设的常数，用于调整时延成本和部署成本之间的比例。同时，由于不同的业务场景中所述时延成本和部署成本之间存在较大差异，可根据不同业务场景设置不同的α和β值，确保能够达到对两者同时优化的效果，更好地优化所述业务部署方案。

为了支持业务信息及边缘云的状态信息的动态变化，引入深度强化学习中的深度Q学习来优化业务的部署策略，并将代理的Q函数(动作值函数)定义为动作A＝{a¹,…,aⁿ}的长期累积折扣奖励，即Q^*(s,a)＝max_π(r_n|π,s_n＝s,an＝a。其中π是联合策略，然后，更新基于贝尔曼方程的Q函数，即

随着业务的产生和所述边缘云的状态信息的不断变化，状态空间的大小呈指数增长。为了解决问题的维数，采用深度神经网络逼近Q函数，并将训练深度神经网络的训练损失函数定义为L(θ_n)＝(y_n-Q(s,a；θ_n))²，其中n代表迭代次数，y_n代表目标Q值，θ_n代表第n次迭代中Q网络的权值。然后，L(θ_n)的梯度为

在此基础上，可以使用基于梯度的优化器来训练Q网络从而优化业务部署方案。

虽然所述深度强化学习算法能够实现较好的业务部署效果，但是由于所述边缘云的状态信息的不断变化，导致移动网络始终处于不断变化的状态中，而深度强化学习算法通常需要很长时间才能收敛，难以适应移动网络的快速变化。

为了避免从头训练大规模网络采用了与各业务场景对应的迁移学习。所述迁移学习是一个提高机器学习模型性能的框架，所述迁移学习的过程分为两个阶段：在训练前阶段学习源任务，在微调阶段通过源任务的知识学习目标任务。

在一种实施方式中，所述与各业务场景对应的迁移学习过程，将以迁移学习模型为基础，将经过前期的深度强化学习得到的结果作为源模型，冻结所述原模型中除最后预设层数外的所有层，并在最后添加线性层，添加的线性层的层数可以预先设定，例如两层，采用与各业务场景对应的迁移学习对添加的线性层进行训练，得到与各业务场景对应的业务部署模型。从而，每个业务部署模型将由冻结的预先训练的源模型作为主体和需要重新训练的全连接层组成。最后，通过线性加权融合两个网络，以提高整体性能。

同时，针对不同业务场景间的差异，将对不同的业务场景训练不同的业务部署模型，各业务部署模型间共享网络状态等信息。

由以上本发明实施例提供的技术方案可见，本发明实施例通过构建所述马尔可夫决策过程；根据所述马尔可夫决策过程，以深度Q学习为基础，采用深度强化学习，得到源模型；以所述源模型为基础，采用与各业务场景对应的迁移学习，得到与各业务场景对应的业务部署模型。通过本发明实施例，实现了在收到业务需求时，根据其所属的业务场景选择合适的业务部署模型来确定业务部署方案，以提高业务部署效果，合理利用资源。

对应上述实施例提供的移动网络中业务部署方法，基于相同的技术构思，本发明实施例还提供了一种移动网络中业务部署装置，图3为本发明实施例提供的移动网络中业务部署装置的模块组成示意图，该移动网络中业务部署装置用于执行图1至图2描述的移动网络中业务部署方法，如图3所示，该移动网络中业务部署装置包括：获取模块301和执行模块302。

所述获取模块301用于根据用户的业务需求，确定待分配业务的业务信息和业务场景；所述执行模块302用于根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的。

基于上述实施例，进一步地，所述执行模块还用于：

构建所述马尔可夫决策过程；

进一步地，所述执行模块用于：

以迁移学习模型为基础，冻结所述原模型中除最后预设层数外的所有层，并在最后添加线性层，采用与各业务场景对应的迁移学习对添加的线性层进行训练，得到与各业务场景对应的业务部署模型。

进一步地，所述马尔可夫决策过程包括：状态空间S、动作空间A和奖励函数R；其中，所述状态空间S包括各网络状态，所述网络状态包括：业务信息和各边缘云的状态信息，所述动作空间A包括根据所述网络状态确定的业务部署方案，所述奖励函数R为根据所述业务部署方案进行业务部署后产生的时延成本和部署成本得到。

进一步地，所述奖励函数表示如下：

R＝-(αr_i+βc_i)

其中，r_i为对业务i进行业务部署后产生的时延成本，c_i为对业务i进行业务部署后产生的部署成本，α和β为预设的比例系数。

进一步地，所述根据所述网络状态确定的业务部署方案要满足以下部署条件：

所述待分配业务所占用的资源满足所部署的边缘云的剩余资源；

所述业务部署方案产生的部署成本满足所述业务提供商的成本阈值。

本发明实施例提供的移动网络中业务部署装置能够实现上述移动网络中业务部署方法对应的实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本发明实施例提供的移动网络中业务部署装置与本发明实施例提供的移动网络中业务部署方法基于同一发明构思，因此该实施例的具体实施可以参见前述移动网络中业务部署方法的实施，重复之处不再赘述。

对应上述实施例提供的移动网络中业务部署方法，基于相同的技术构思，本发明实施例还提供了一种电子设备，该电子设备用于执行上述的移动网络中业务部署方法，图4为实现本发明各个实施例的一种电子设备的结构示意图，如图4所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器401和存储器402，存储器402中可以存储有一个或一个以上存储应用程序或数据。其中，存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器401可以设置为与存储器402通信，在电子设备上执行存储器402中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源403，一个或一个以上有线或无线网络接口404，一个或一个以上输入输出接口405，一个或一个以上键盘406。

具体在本实施例中，电子设备包括有处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现以下方法步骤：

本申请实施例还提供一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下方法步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、装置或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种移动网络中业务部署方法，所述移动网络包括：1个中心云，N个边缘云和K个用户终端；所述业务部署方法的执行主体为全局控制器，所述全局控制器位于中心云上；其特征在于，所述方法包括：

根据用户的业务需求，确定待分配业务的业务信息和业务场景，其中，所述业务信息包含业务ID、持续服务时间、流量需求、存储容量需求、所述业务运营商最大能够容忍的部署成本，所述业务场景是对业务的一种分类方式，包括：增强移动宽带(eMBB)、大规模机器类通信(mMTC)、超高可靠超低时延通信(URLLC)、广覆盖高时延通信(BCHLC)；边缘云基于预设的触发条件向中心云的全局控制器上报边缘云的状态信息；所述边缘云的状态信息为所述边缘云剩余的各类资源的信息，包括：剩余的流量、存储及计算资源；所述业务需求的特征包括业务开始服务的时间t_s，i、业务结束服务的时间t_e，i以及业务所需的流量资源f_s，i、所需的存储资源s_s，i及所需的计算资源h_s，i，所述业务需求的特征还包括业务的最大瞬时计算资源需求，用h_max，i来表示；

根据所述业务信息和各边缘云的状态信息，通过预设的与所述业务场景对应的业务部署模型，得到所述待分配业务的部署方案；其中，所述业务部署模型为，以预设的马尔可夫决策过程为基础，经过强化学习和与各业务场景对应的迁移学习后得到的；

所述马尔可夫决策过程包括：状态空间S、动作空间A和奖励函数R；其中，所述状态空间S包括各网络状态，所述网络状态包括：业务信息和各边缘云的状态信息，所述动作空间A包括根据所述网络状态确定的业务部署方案，所述奖励函数R为根据所述业务部署方案进行业务部署后产生的时延成本和部署成本得到；

根据所述网络状态确定的业务部署方案要满足以下部署条件：

所述业务部署方案产生的部署成本满足所述业务提供商的成本阈值；

所述待分配业务所占用的资源满足所部署的边缘云的剩余资源，具体表示为：

所述业务部署方案产生的部署成本满足所述业务提供商的成本阈值，即满足该业务提供商所能容忍的最大部署成本，具体表示为：

C₅：c_i≤c_tolerate，i

其中，

max(f_s，j，k)表示边缘云服务器j上部署的类型为k的业务所占用的最大容量资源，M_j，t为t时刻边缘云j上部署的业务数量，M_0，t表示t时刻中心云上部署的业务数量；f_c，j，s_c，j，h_c，j分别为所述边缘云j上的剩余流量资源、剩余存储资源、剩余计算资源；J_t为t时刻在边缘云部署的业务数量；c_i为业务i在部署后产生的部署成本；c_tolerate，i为业务提供商的成本阈值；

由此，若部署在边缘云的业务的部署成本无法满足所述边缘云的各项剩余资源，或者业务提供商无法支付所述边缘云的部署成本，即无法满足上述条件：C₁，C₂，C₃，C₄，C₅中的任意一条，则可以将该业务部署于所述中心云上；

以所述源模型为基础，采用与各业务场景对应的迁移学习，得到与各业务场景对应的业务部署模型，包括：

以迁移学习模型为基础，冻结原模型中除最后预设层数外的所有层，并在最后添加线性层，采用与各业务场景对应的迁移学习对添加的线性层进行训练，得到与各业务场景对应的业务部署模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建所述马尔可夫决策过程；

3.根据权利要求1所述的方法，其特征在于，所述奖励函数表示如下：

R＝-(αr_i+βc_i)

其中，r_i为对业务i进行业务部署后产生的时延成本，α和β为预设的比例系数。

4.一种移动网络中业务部署装置，使用权利要求1所述的移动网络中业务部署方法，其特征在于，所述装置包括：

5.根据权利要求4所述的装置，其特征在于，所述执行模块还用于：

构建所述马尔可夫决策过程；

6.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如权利要求1-3任一项所述的移动网络中业务部署方法步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的移动网络中业务部署方法步骤。