CN111901392A

CN111901392A - 一种面向移动边缘计算的内容部署与分发方法及系统

Info

Publication number: CN111901392A
Application number: CN202010642383.8A
Authority: CN
Inventors: 王莉; 徐连明; 费爱国; 马茹秋; 王宣元; 田秉鑫
Original assignee: Beijing University of Posts and Telecommunications; State Grid Jibei Electric Power Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; State Grid Jibei Electric Power Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-06
Anticipated expiration: 2040-07-06
Also published as: CN111901392B

Abstract

为缓解应急通信场景中局部流量激增带来的网络压力，本发明实施例提供一种面向移动边缘计算的内容部署与分发方法及系统，实现针对动态未知网络环境下的自适应内容部署策略与发射功率的联合优化，该方法包括：以最大化系统长期平均内容命中率为目标，建立目标优化问题；根据缓存节点和请求节点的物理域及社交域信息，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；基于深度强化学习，求解所述目标优化问题，确定所述分簇后的缓存节点的行为选择策略，以使用户直接从本地获取内容请求。本发明实施例采用深度强化学习方法，实现流行度未知或动态变化时，缓存节点自适应的存储策略以及发射功率协同优化。

Description

一种面向移动边缘计算的内容部署与分发方法及系统

技术领域

本发明涉及无线分布式缓存技术领域，尤其涉及一面向移动边缘计算的内容部署与分发方法及系统。

背景技术

随着智能设备的不断普及，新型业务逐渐涌现，全球移动数据流量呈指数型增长态势。与此同时，6GHz以下的频谱资源十分稀缺，当前网络很难承受高移动数据流量带来的沉重负荷，进而影响业务服务质量和用户体验。一方面，思科的统计数据发现，大部分移动数据流量来自于视频业务；另一方面，新兴的视频业务中呈现出内容重用(Content Reuse)的特点，即不同用户会重复的请求同一热门内容。基于上述背景，无线分布式缓存技术被提出并得以应用，即将较热门的内容存储到离用户较近的网络节点，实现近距离的内容分发，避免从核心网处获取内容，从而降低网络负荷。随着硬件技术的不断进步，终端设备在存储能力、计算能力、通信能力等方面都有了显著的性能提升。

为此，基于终端存储的无线分布式缓存系统正得到广泛的关注。热门的内容可预先缓存在终端上，然后，终端之间可通过设备间直接通信(Device-to-Device，D2D)技术实现已缓存的内容共享。为进一步提升内容传输的鲁棒性，可引入冗余编码技术，如(n,k)最大距离可分码(Maximum Distance Separable，MDS)。具体地，原始内容通过该编码方式可被编码为n片内容分片，并存储到不同节点处，请求节点只需获得n片内容分片中的任意k片即可恢复完整的内容。为了提升无线分布式缓存系统中内容命中率(即请求节点成功获取所需内容的比例)，缓存节点的存储策略以及内容传输过程中发射功率的联合优化至关重要。特别地，由于存储节点的存储空间往往是有限的，无法存储所有流行内容，因此，根据内容的流行度分布设计合理的存储策略十分关键。

当前，许多研究工作基于内容的流行度分布是已知且不会动态变化这一假设，并基于该假设优化系统中的内容部署与分发策略，但是，内容流行度在实际系统可能是动态变化或未知的，现有技术并没有针对上述情况进行内容部署与分发策略。因此，现在亟需一种面向移动边缘计算的内容部署与分发方法及系统来实现内容流行度等动态未知环境下自适应的快速内容部署与分发。

发明内容

针对现有技术存在的问题，本发明实施例提供一种面向移动边缘计算的内容部署与分发方法及系统。

第一方面，本发明实施例提供了一种面向移动边缘计算的内容部署与分发方法，包括：

以最大化系统长期平均内容命中率为目标，建立目标优化问题；

根据缓存节点和请求节点的物理域及社交域信息，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；

基于深度强化学习，求解所述目标优化问题，在流行度未知或动态变化时，确定所述分簇后的缓存节点自适应的行为选择策略，以提升内容命中率，使用户直接从本地获取内容请求。

进一步地，所述建立目标优化问题，包括：

基于缓存节点的存储容量、总发射功率约束、对缓存节点的存储策略以及发射功率，以最大化系统长期平均内容命中率为目标，建立所述目标优化问题。

进一步地，所述目标优化问题具体为：

s.t.

P_i(t)≤P_max；

其中，

表示缓存节点的发射功率约束，

表示存储容量约束，

表示请求节点的集合，

表示网络中的内容集合，c_s表示缓存节点的存储容量，i表示第i个缓存节点，c_i,f(t)表示缓存节点i在t时刻是否存储内容

的分片，r_j,f(t)表示t时刻请求节点j是否请求了内容f，s_j,f(t)表示t时刻请求节点j是否成功命中所需内容f，P_i(t)表示在t时刻缓存节点i的发射功率，P_max表示最大发射功率，R(t)表示t时刻所有请求节点的总请求次数。

进一步地，在所述基于深度强化学习，求解所述目标优化问题之前，所述方法还包括：

根据节点之间的社交属性与连通性，对缓存节点进行分簇；

基于深度强化学习，将每个分簇作为独立的智能体，进行联合策略优化。

进一步地，所述根据节点之间的社交属性与连通性，对缓存节点进行分簇，包括：

将原物理域中的分布式存储系统建模为带边权值的无向图，所述无向图中的每个点作为一个缓存节点；

当两个缓存节点通信覆盖范围内存在公共请求用户，且都为用户提供服务时，即确定无向图中两个点之间存在边连接，且边权值为公共请求用户的个数。

进一步地，所述基于深度强化学习，将每个分簇作为独立的智能体，进行联合策略优化，包括：

预先初始化构建神经网络，并根据历史信息生成经验回放库、经验回放库中顺序存储数据集对所述神经网络进行训练，以最大程度地提高预期的折扣奖赏，实现动态未知网络环境下自适应的行为选择。

第二方面，本发明实施例提供了一种面向移动边缘计算的内容部署与分发系统，包括：

问题确定模块，用于以最大化系统长期平均内容命中率为目标，建立目标优化问题；

缓存节点分簇模块，用于根据物理域和社交域，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；

问题求解模块，用于基于深度强化学习，求解所述目标优化问题，在流行度未知或动态变化时，确定所述分簇后的缓存节点自适应的行为选择策略，以提升内容命中率，使用户直接从本地获取内容请求。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种面向移动边缘计算的内容部署与分发方法及系统，采用深度强化学习方法，考虑网络动态变化，流行度未知时，缓存节点快速自适应的存储策略以及发射功率的协同优化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向移动边缘计算的内容部署与分发方法的流程示意图；

图2为本发明实施例提供的基于终端的分布式编码缓存系统示意图；

图3为本发明实施例提供的带边权值的无向图构建过程示意图；

图4为本发明实施例提供的深度强化学习算法流程示意图；

图5为本发明实施例提供的损失函数变化趋势示意图；

图6为本发明实施例提供的算法收敛性对比示意图；

图7为本发明实施例提供的不同优化方法下内容命中率及时延对比示意图；

图8为本发明实施例提供的不同分簇方式性能对比示意图；

图9为本发明实施例提供的面向移动边缘计算的内容部署与分发系统的结构示意图；

图10为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的面向移动边缘计算的内容部署与分发方法的流程示意图，如图1所示，本发明实施例提供了一种面向移动边缘计算的内容部署与分发方法，包括：

步骤101，以最大化系统长期平均内容命中率为目标，建立目标优化问题；

步骤102，根据物理域和社交域，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；

步骤103，基于深度强化学习，求解所述目标优化问题，在流行度未知或动态变化时，确定所述分簇后的缓存节点自适应的的行为选择策略，以提升内容命中率，使用户直接从本地获取内容请求。

在本发明实施例中，通过步骤101，在无线缓存网络中引入冗余编码缓存机制，以提升内容共享的鲁棒性和存储空间的利用率，从而以最大化系统长期平均内容命中率为目标，考虑缓存节点存储容量与发射功率约束，建立目标优化问题。具体地，在一个单蜂窝网络中，缓存节点可通过D2D通信的方式向其周围的用户共享存储的内容。具体地，经过(n,k)MDS编码后，每个内容将被分为k份，并经过冗余编码后得到n片内容分片，并存储到不同的缓存节点，当请求节点获得其中的任意k个分片后，即可恢复出原始内容。设置网络中内容集合为

有

考虑内容大小一致。请求节点依据一定的内容流行度分布随机请求内容，但是，该流行度是缓存节点未知的。图2为本发明实施例提供的基于终端的分布式编码缓存系统示意图，如图2所示，设置网络中缓存节点的集合为

有

请求节点的集合为

有

缓存节点与请求节点之间的最大D2D通信半径记为d_max，即当请求节点与某一缓存节点的距离小于d_max时，该请求节点的请求可以被缓存节点服务。由于隶属于私人用户的缓存节点往往具有社交性，因此，本发明实施例将考虑缓存节点与请求节点之间的协作意愿，例如，当N_CP,i与N_CR,j之间的协作意愿指数o_i,j为1时，则上述两节点之间可以进行内容共享，若协作意愿指数o_i,j为0，则二者之间不能进行内容共享。当请求节点无法从周围的缓存节点获取所需内容时，基站将通过回程链路，从核心网处获取内容并发送给请求节点。

进一步地，设置缓存节点的存储容量为C_s，一个存储单元可存储一个内容分片，且有C_s≤n·F。缓存节点

的存储策略以向量表示为：

c_i(t)＝{c_i,1(t),…,c_i,f(t),…,c_i,F(t)}；

其中，元素c_i,f(t)∈{0,1}表示缓存节点i在t时刻是否存储内容

的分片。当t时刻缓存节点i存储内容f的其中一个分片时，c_i,f(t)＝1，反之则有c_i,f(t)＝0。根据MDS(n,k)原理，当请求节点

需要内容f时，若能成功获取其中任意k片内容则能恢复。因此，t时刻请求节点j是否成功命中所需内容f用变量s_j,f(t)表示为：

进一步地，定义

表示D2D通信范围覆盖了请求节点j且协作意愿指数o_ij＝1的缓存节点集合，也就是说，

为请求节点j的潜在帮助者集合。如果

中存在至少k个发送数据速率大于阈值R_min的缓存节点，即，

则请求节点j可成功获取足够多的内容分片并恢复所需内容f。其中，B为缓存节点

传输内容分片时的带宽，P_i为缓存节点i的发射功率，h_ij表示缓存节点i至请求节点j的信道功率增益，N₀为高斯白噪声功率；I_ij表示缓存节点i与请求节点j通信时，请求节点j受到的干扰。

具体地，t时刻内容命中率表示为：

其中，r_j,f(t)为二元变量，当r_j,f(t)＝1时，表示t时刻请求节点j请求了内容f，反之为0；R(t)为t时刻所有请求节点的总请求次数，即

需要说明的是，t时刻一个请求节点只能请求一个内容。则系统长期平均内容命中率可表示为：

然后，在步骤101中，本发明实施例会以最大化内容命中率为目标建立目标优化问题，再根据步骤102，构建关于物理域和社交域的带权图，并通过该带权图对缓存进行分簇，并在步骤103中，采用深度强化学习的方式，通过对环境的探索与利用，以最大化内容命中率为目标，优化分簇后缓存节点的行为选择。

本发明实施例提供的面向移动边缘计算的内容部署与分发方法，采用深度强化学习方法，考虑网络动态变化，流行度未知时，缓存节点快速自适应的存储策略以及发射功率的协同优化。

在上述实施例的基础上，所述建立目标优化问题，包括：

所述目标优化问题具体为：

s.t.

P_i(t)≤P_max，

其中，

表示缓存节点的发射功率约束，即缓存节点发射功率需小于阈值P_max；

表示存储容量约束，即缓存节点存储的内容分片总大小不能超出其存储容量；

表示请求节点的集合，

本发明实施例以最大化系统长期平均内容命中率为目标，考虑缓存节点的存储容量，以及总发射功率约束，对缓存节点的存储策略，以及发射功率进行优化。

在上述实施例的基础上，在所述基于深度强化学习，求解所述目标优化问题之前，所述方法还包括：

根据节点之间的社交属性与连通性，对缓存节点进行分簇；

在本发明实施例中，为实现在内容流行度分布未知情况下的通信-存储协同优化，本发明实施例将采用深度强化学习的方式，通过对环境的探索与利用，求解每个分簇中缓存节点的存储策略及发射功率，以最大化内容命中率为目标，优化缓存节点的行为选择，即存储-通信策略，从而使得用户对内容的请求可直接从本地获取，而不必经过基站及核心网，有效降低网络负载；同时，为降低算法复杂度，本发明实施例还提出了一种基于缓存节点分簇的分布式深度强化学习算法。

在上述实施例的基础上，所述根据节点之间的社交属性与连通性，对缓存节点进行分簇，包括：

在本发明实施例中，针对上述实施例的目标优化问题，构建联合考虑物理域和社交域的带权图，并依据该带权图实现缓存节点分簇，将每个分簇作为一个智能体。具体地，若采用完全集中式的方法，则可将所有缓存节点看作一个智能体(agent)，将所有缓存节点的通信-存储策略作为智能体的行为，实现所有缓存节点通信-存储策略的联合优化。但是，显然该方式的行为空间极大，算法复杂度较高。而若单独把一个缓存节点看作一个智能体，各自独立的优化自身通信-存储策略，虽然有效降低了行为空间大小，但缺乏了与其他缓存节点交互的考量，影响网络性能。为此，本发明实施例提出了一种基于缓存节点分簇的折中方案，将网络中的缓存节点划分为不同的分簇，每个分簇看作独立的智能体，实现对分簇中所有缓存节点通信-存储策略的联合优化；同时，为提高频谱利用率，同一簇内的缓存节点使用相同频谱资源，不同簇内的缓存节点使用相互正交的频谱资源，即考虑簇内干扰，无簇间干扰。

具体地，考虑到编码缓存系统中请求用户只有从不同缓存节点处获取足够多的内容分片才能恢复完整内容，因此，直观上说，两个不同的缓存节点通信覆盖范围内公共请求节点数越多，则这两个缓存节点的联合优化对于性能的提升越重要。为此，将原物理域中的分布式存储系统建模为带边权值的无向图。无向图中的每个点(vertex)代表一个缓存节点，当两个缓存节点通信覆盖范围内存在公共请求用户，且都愿意为该用户提供服务时，对应图中的两个点之间则有边(edge)连接，且边权值(edge weight)即为公共请求用户的个数。图3为本发明实施例提供的带边权值的无向图构建过程示意图，如图3所示，缓存节点CP₃与CP₄的通信覆盖范围内有且仅有2个公共请求用户，且缓存节点CP₃与CP₄仅愿意为其中一个公共请求用户提供服务，故点CP₃与CP₄之间有边连接，且边权值为1。之后，根据无向图的最小割边集，将原无向图进行分割，分割后的子图即为簇，通过上述分割方式，使得越可能共同为请求者提供内容分片的缓存节点成为一个簇，共同优化簇内缓存节点的存储-通信资源。例如，图3中一次分割将得到两个分簇，分簇1包括缓存节点CP₁，CP₂和CP₃，而分簇2则包括缓存节点CP₄。将不同的分簇看作独立的智能体，各自进行通信-存储的联合优化。

在上述实施例的基础上，所述基于深度强化学习，将每个分簇作为独立的智能体，进行联合策略优化，包括：

在本发明实施例中，对于深度强化学习的神经网络设计如下：

以缓存节点分簇后的簇m为例，假设簇m包含的缓存节点集合为：

将簇m看作一个智能体，分别定义状态、行为和奖赏。

其中，状态：定义为上一时刻簇内缓存节点的存储策略及当前时刻请求用户的请求情况，即：

其中，

表示t-1时刻缓存节点i的存储策略向量；

表示t时刻请求节点j请求的内容。

行为：定义为簇内缓存节点的存储策略以及发射功率。为将行为离散化，此处考虑将缓存节点发射功率离散为L个可选值，即缓存节点i的发射功率

故t时刻行为设置为：

奖赏：当簇m在当前状态s_t下执行策略a_t时，将会获得即时奖赏，设置该奖赏值与当前时刻内容命中率相关，表示为r_t＝η_m(t)·R，其中，η_m(t)为簇m在t时刻的内容命中率，R为常系数。

进一步地，在大规模用户场景下，分簇后可能会出现某些簇拓扑结构类似的情况，此时以其中一个簇为代表，进行Q网络训练，在训练收敛之后，其他拓扑结构类似的簇可基于该网络进行通信-缓存协同优化，而不必重复训练，从而进一步降低算法复杂度。具体地，在Q-learning中，需要在找到最理想的策略之前，先建立一个Q表，这需要遍历所有可能的状态-动作对(state-action pair)，因此，面对状态和行为空间规模较大的模型，该方法实现较困难。为此，深度强化学习利用深度学习中的神经网络框架，将Q值函数的存储形式表示为多个神经网络层之间的权重连接的形式，简化高维数据的学习。深度强化学习包括线下的神经网络构建阶段和在线的深度Q网络(Deep Q Network，简称DQN)学习阶段。具体地，线下阶段预先初始化构建神经网络，并根据历史信息生成经验回放库(replay memory)，经验回放库中顺序存储数据集(s_t,a_t,r_t,s_t+1)，即包括当前状态s_t，当前动作a_t，相应的即时奖赏r_t以及执行动作后下一时刻状态s_t+1。而在线学习过程的目的则是最大程度地提高预期的折扣奖赏Q(s,a)：

图4为本发明实施例提供的深度强化学习算法流程示意图，如图4所示，首先输入：深度Q网络Q与目标深度Q网络Q′(分别随机生成神经网络权重{θ}和{θ′})。

然后，初始化经验回放库D，可存储N条数据，For j＝1to N，观察当前状态s_t，以ε的概率随机的选择行为a_t，以1-ε的概率选择当前Q值最大的行为：

执行所选动作a_t，并获得即时奖赏r_t，并观测下一时刻状态s_t+1；将数据(s_t,a_t,r_t,s_t+1)存储到经验回放库D中，结束。

接着，For epoch＝1 to M，初始化起始状态s₀；For step＝1 to T do，观察当前状态s_t，以ε的概率随机的选择行为a_t，以1-ε的概率选择当前Q值最大的行为：

执行所选动作a_t，并获得即时奖赏r_t，并观测下一时刻状态s_t+1；将数据(s_t,a_t,r_t,s_t+1)存储到经验回放库D中；从经验回放库D中随机选择d组数据(s_i,a_i,r_i,s_i+1)，更新目标Q值y_i＝r_i+γmax_a'Q'(s_i+1,a'；θ')，根据梯度下降法以最小化损失函数

调整参数θ，每C步更新权重θ′＝θ，结束。

根据上述基于深度强化学习框架，可根据当前请求情况和上一时刻存储策略生成自适应的编码缓存策略，由于即时奖赏的设置与内容命中率相关，因此，该算法将使系统逐步达到成功传输请求文件的最佳性能。

在本发明一实施例中，以仿真实验进行说明，其中，深度强化学习过程基于TensorFlow v2.1.0，仿真设置中，在100m×100m范围内随机撒点，缓存节点数量为4个，请求节点数量为20个。内容集合中内容总数为5，缓存节点存储容量2，缓存节点发射功率离散化为{1w,1.5w}两个等级，设置基站发射功率为2W，大尺度衰落相关的路损指数α＝3.7，内容命中率与时延结果由2000次随机试验求均值所得。

图5为本发明实施例提供的损失函数变化趋势示意图，如图5所示，图5展示了在训练过程中损失函数(y_i-Q(s_i,a_i；θ))²的变化趋势，如图5所示，在每200步的训练区间内，损失函数逐步降低。而训练步数每增加200，损失函数会有一次突增，这是因为，根据算法流程，每隔C步目标值网络将复制当前值网络中的参数{θ}，即{θ′}＝{θ}，因此，目标值网络参数{θ′}的更新会造成损失函数的增大，随着进一步训练，又会逐渐降低。

图6为本发明实施例提供的算法收敛性对比示意图，如图6所示，图6展示了训练过程中本发明实施例所提出的基于分簇的深度强化学习算法，以及完全集中式深度强化学习算法的收敛情况。横坐标为训练次数，纵坐标为固定状态下的累积折扣奖赏。从图6中可以看出，随着训练次数的逐渐提升，两种算法对应固定状态下的累积折扣奖赏值逐步增加并趋于平稳。且提出的基于分簇的方式在50次训练时逐渐收敛，而完全集中式算法则在180次左右才收敛，说明提出的方案收敛速度优于完全集中式的方案。而累积折扣奖赏值则低于完全集中式方案，因为提出的方案在分簇过程中将丧失不同分簇内缓存节点的相关性，各个分簇独立优化故性能降低。

图7为本发明实施例提供的不同优化方法下内容命中率及时延对比示意图，如图7所示，图7中对比了完全集中式深度强化学习(centralized deep reinforcementlearning,C-DRL)、基于分簇的深度强化学习(cluster-based deep reinforcementlearning,CB-DRL)以及基于随机功率的多臂老虎机模型(MAB)三种策略下系统内容命中率随带宽的变化趋势。其中，基于随机功率的多臂老虎机模型(MAB)通常处理行为空间维度较低的策略优化，因此，该方案中当前行为a_t仅包含簇内缓存节点的存储策略以降低行为空间，每个缓存节点的发射功率从离散的功率等级中随机选择，在每一次训练过程中，采用∈-greedy的算法选择行为，并依据公式

更新所选行为a对应的平均奖赏值

其中，T_a(t-1)表示截至上一时刻行为a_t被选择的总次数，r_a(t)表示执行当前所选行为a得到的即时奖赏。图7中横坐标为总带宽大小，均匀分配给每个分簇，为对比公平，完全集中式方案频谱划分策略与基于分簇的频谱划分策略一致。纵坐标为系统中的内容命中率。

从图7中可以看出，所有缓存节点的行为策略联合优化的完全集中式方案性能最优，因为该方案联合优化了所有缓存节点的存储策略及发射功率。而所提出的基于分簇的深度强化学习方案性能次之，不优化发射功率的多臂老虎机模型方案对应的性能最差。内容命中率越高，请求节点越可能从周围的缓存节点处获取内容而不必经过基站，因此，时延相对降低。综合图6和图7，本发明实施例提出的方案收敛速度较快，内容命中率性能略差于完全集中式方案。

图8为本发明实施例提供的不同分簇方式性能对比示意图，如图8所示，对比了不同分簇方式下的内容命中率。在考虑缓存节点协作意愿的分簇方式中，两个缓存节点间的边权值定义为均位于二者通信覆盖范围，且两个缓存节点都愿意为其提供服务的公共用户数量。而在不考虑缓存节点协作意愿的分簇方式中，两个缓存节点的边权值定义仅考虑通信部分的因素，即为两个缓存节点通信覆盖范围内公共用户的数量。从图8中结果可以看出，在分簇中考虑缓存节点的协作意愿对性能的影响很重要，不考虑协作意愿的分簇方案会导致簇内的缓存节点实际愿意协作的公共请求节点数降低，即有的请求节点虽然在公共最大通信覆盖范围内，但是缓存节点不一定都愿意为它提供内容传输服务，因此，该分簇方式下，同一簇内缓存节点存储策略、发射功率的联合优化对最终系统性能的提升较弱。

图9为本发明实施例提供的面向移动边缘计算的内容部署与分发系统的结构示意图，如图9所示，本发明实施例提供了一种面向移动边缘计算的内容部署与分发系统，包括问题确定模块901、缓存节点分簇模块902和问题求解模块903，其中，问题确定模块901用于以最大化系统长期平均内容命中率为目标，建立目标优化问题；缓存节点分簇模块902，用于根据物理域和社交域，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；问题求解模块903用于基于深度强化学习，求解所述目标优化问题，在流行度未知或动态变化时，确定所述分簇后的缓存节点自适应的行为选择策略，以提升内容命中率，使用户直接从本地获取内容请求。

本发明实施例提供的面向移动边缘计算的内容部署与分发系统，采用深度强化学习方法，考虑网络动态变化，流行度未知时，缓存节点快速自适应的存储策略以及发射功率协同优化。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图10为本发明实施例提供的电子设备结构示意图，参照图10，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行如下方法：以最大化系统长期平均内容命中率为目标，建立目标优化问题；根据物理域和社交域，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；基于深度强化学习，求解所述目标优化问题，在流行度未知或动态变化时，确定所述分簇后的缓存节点自适应的行为选择策略，以提升内容命中率，使用户直接从本地获取内容请求。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的面向移动边缘计算的内容部署与分发方法，例如包括：以最大化系统长期平均内容命中率为目标，建立目标优化问题；根据物理域和社交域，构建带权图，并根据所述带权图对缓存节点进行分簇，得到分簇后的缓存节点；基于深度强化学习，求解所述目标优化问题，在流行度未知或动态变化时，确定所述分簇后的缓存节点自适应的行为选择策略，以提升内容命中率，使用户直接从本地获取内容请求。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。