CN113271339B

CN113271339B - 一种用户偏好未知的边缘基站缓存部署方法

Info

Publication number: CN113271339B
Application number: CN202110445943.5A
Authority: CN
Inventors: 吴俊�; 韩雨琪; 胡蝶; 刘典; 徐跃东
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-03-18
Anticipated expiration: 2041-04-25
Also published as: CN113271339A

Abstract

本发明属于无线传输技术领域，具体为一种用户偏好未知的边缘基站缓存部署方法。本发明针对在无线网络中用户密度和各个文件流行度未知的场景，利用扩展多臂赌博机模型选择缓存部署策略；本发明同时考虑了全局参数即用户密度，和局部参数即文件的流行度的优化，并考虑未知场景下探索和利用的平衡，每一轮迭代优化全局参数和局部参数，在不断学习的过程中推导出最优的缓存部署方案。

Description

一种用户偏好未知的边缘基站缓存部署方法

技术领域

本发明属于无线传输技术领域，具体涉及在用户偏好未知场景的边缘缓存网络的优化方法。

背景技术

现有的大部分缓存部署的工作，都假设在设计缓存策略时用户的偏好是预先知道的。一般来说，这种假设在实际的无线系统中是很难实现的。如果错误地假设用户对传输内容请求的偏好，缓存部署策略的性能可能会严重下降。为了解决这个问题，本发明提出了一种基于扩展多臂赌博机模型的策略来优化缓存部署，这种方法不需要预先假设网络的用户密度和内容的流行度。为实现这一算法，我们利用扩展多臂赌博机模型同时学习全局参数和独立参数，因此可以同时估计用户密度和内容的流行度，从而根据未知参数推算出的最优的缓存部署方法。边缘服务器可以逐渐学习到环境中的用户密度和各个文件的流行度，并推导出最优的缓存策略。

发明内容

本发明的目的在于提供一种不需要预先假设网络的用户密度和内容的流行度的用户偏好未知的边缘基站缓存部署方法。

本发明的网络中，中央服务器部署在远端，其具有强大的计算和存储能力，可以存储网络中的所有文件；而边缘服务器距离用户更近，但计算能力和存储能力有限，只能缓存一部分内容。因此边缘服务器需要优化的缓存策略提高网络性能。将边缘服务器看作一个可以独立做出决定的智能体(agent)，该智能体自主地选择缓存部署策略。

本发明提供的用户偏好未知的边缘基站缓存部署方法，是基于扩展多臂赌博机算法的；所述扩展多臂赌博机包含一个全局参数用户密度和多个局部参数文件流行度；

所述的扩展多臂赌博机，将每一个缓存空间看作多臂赌博机可选的一个臂，每次扩展多臂赌博机选择多个臂进行缓存部署；

所述扩展多臂赌博机的每个臂的奖赏值为未知的全局参数和局部参数的乘积；

所述全局参数决定了用户密度的分布函数，在用户的全局参数确定时，可以得到该区域内用户数量的期望；

所述局部参数为各个文件的流行度，即请求各个文件的概率，所有的文件流行度之和为1；

基于所述的扩展多臂赌博机模型，边缘服务器可以逐渐学习到环境中的用户密度和各个文件的流行度，并推导出最优的缓存策略。基于响应的用户数，由边缘服务器估计用户密度和内容流行度，以进一步优化缓存放置解决方案。

本发明提出的面向用户偏好未知的缓存部署方法，具体步骤为：

(1)初始化时，边缘服务器以某一概率随机选择缓存部署，在完全未知的环境中，边缘服务器每个时刻选择一个摇臂作为行为(action)并得到奖励(reward)；算法初始时，智能体不知道每个摇臂带来的奖励，因此需要通过随机选择摇臂来探索环境并获得奖励，从而获得环境的知识。通过对每只摇臂的知识的积累，智能体可以选择最优的摇臂来最大限度地积累奖励。然而，如果智能体过早地选择了当前最佳的摇臂，可能会因为对环境的了解不足而导致奖赏的损失。如果智能体总是随机选择一个摇臂，就不能充分利用已获得的环境知识，因此没有选择奖赏值最大的摇臂；因此，在进行探索-利用权衡时，如果时间t满足log₂(t)属于自然数集合，则选择随机缓存放置组合。否则，边缘服务器根据估计的参数选择具有最高流行度的文件组合。

(2)边缘服务器广播缓存的内容并获得用户的响应，计算满足的用户数。在每个时隙，边缘服务器向其服务区域中的所有用户广播缓存内容，并且可以成功地接收缓存内容。在这种情况下，如果请求的内容缓存在边缘服务器中，则直接满足请求，而不需要从中心服务器获取内容。其他请求被发送到中央服务器并由回程传输响应。由于这种情况与缓存放置无关，因此我们不在下面讨论它。只有当用户设备对缓存内容满意时，边缘服务器才会接收信号。基于满意的用户数，由边缘服务器估计用户密度和内容流行度，以进一步优化缓存放置解决方案。

(3)根据满足的用户数估计全局参数用户密度，随后进行参数估计。设网络中有N个文件，每个边缘服务器有K个缓存空间，C表示所有缓存组合的总数，C_t表示t时刻选择的缓存组合的索引。μ(θ)表示网络中的用户密度函数，实际的网络密度由θ决定，而θ在实际的网络中并不能预先知道。因此，在进行参数估计时，需要估计θ的值。我们称θ为全局参数。

全局参数估计：基站每次选择一个文件组合，基于先前获得的奖励和当前的奖励计算。一旦选择了一个组合，则预期奖励将更新为组合

的预期奖励

基于先前获得的奖励和当前的奖励计算。我们使用

来表示组合

更新后的预期回报。一旦选择了组合

则在时间t预期的

的预期奖励将更新为：

式中，

表示直到t-1时刻，选择

的次数。

随后利用下式进行全局参数

的估计：

(4)局部参数估计

在给定全局参数的估计参数后，对每一个缓存组合c的流行度，即局部参数，进行估计，由下式得到：

(5)循环更新缓存策略，利用估计的全局密度估计各个文件的流行度，将每个边缘服务器识别为一个智能体(Agent)，智能体根据新的参数进行缓存策略部署，并跳转至步骤2。

本发明主要创新点在于提出了一种在用户偏好未知的场景下，利用扩展多臂赌博机模型进行缓存部署的方法。在算法初始化时，边缘服务器不知道各个内容的信息，也不缓存任何内容。每个时间t，区域中的用户向边缘服务器发送请求，于是边缘服务器从中央服务器获取请求的内容。每个内容的用户密度和流行度的估计参数初始化为0。探索和利用之间的权衡遵循一个既定的规则。如果时间满足log₂(t)属于自然数集合，则选择随机缓存放置组合。否则，边缘服务器根据估计的参数选择具有最高流行度的文件组合。通过该策略，当参数被正确估计时，该策略减少了随机性，并根据估计的参数做出缓存放置决策。在参数估计阶段，缓存部署组合的预期奖励基于先前获得的奖励和当前的奖励计算。根据其估计的参数选择在下一个时刻选择当前估计的最好的缓存策略。

附图说明

图1为不同算法获得的平均奖赏值。

具体实施方式

本发明提出一种用户偏好未知的边缘基站缓存部署方案，所述缓存部署方案包含一个扩展多臂赌博机，该扩展多臂赌博机包含一个全局参数用户密度和多个局部参数文件流行度；

基于所述的扩展多臂赌博机模型，边缘服务器可以逐渐学习到环境中的用户密度和各个文件的流行度并推导出最优的缓存策略。只有当用户设备对缓存内容满意时，边缘服务器才会接收信号。基于满意的用户数，我们让边缘服务器估计用户密度和内容流行度，以进一步优化缓存放置解决方案。

下文举例说明面向用户偏好未知的基于扩展多臂赌博机算法的缓存部署策略，其工作流程如下：

(1)设网络中共有10个文件，边缘服务器可以缓存2个文件，因此共有

种缓存组合。初始时，边缘服务器以某一概率随机选择缓存部署，在完全未知的环境中，边缘服务器作为智能体(agent)，每个时刻选择一个摇臂作为行为(action)并会得到奖励(reward)，智能体不知道每个摇臂带来的奖励，因此需要通过随机选择摇臂来探索环境并获得奖励，从而获得环境的知识。通过对每只摇臂的知识的积累，智能体可以选择最优的摇臂来最大限度地积累奖励。如果时间t满足log₂(t)属于自然数集合，则选择随机缓存放置组合。否则，边缘服务器根据估计的参数选择具有最高流行度的文件组合。每次选择结束后边缘服务器缓存2个选择的文件。

(2)边缘服务器广播缓存的2个内容，计算这2个文件满足的用户数。在每个时隙，边缘服务器向其服务区域中的所有用户广播缓存内容，并且可以成功地接收缓存内容。在这种情况下，如果请求的内容缓存在边缘服务器中，则直接满足请求，而不需要从中心服务器获取内容。只有当用户设备对缓存内容满意时，边缘服务器才会接收信号。基于满意的用户数，我们让边缘服务器估计用户密度和内容流行度，以进一步优化缓存放置解决方案。

(3)根据满足的用户数估计全局参数用户密度，随后进行参数估计。

全局参数估计：基站每次选择一个文件组合，设2个文件组成的组合在t时刻满足的用户数

即奖励设为

基于先前获得的奖励和当前的奖励计算。一旦选择了一个组合，则预期奖励将更新为组合

的预期奖励

基于先前获得的奖励和当前的奖励计算。我们使用

来表示组合

更新后的预期回报。此时，C作为所有的缓存组合总数，为

一旦选择了组合

则在时间t预期的

的预期奖励将更新为：

式中，

表示直到t-1时刻，选择

的次数。

随后利用下式进行全局参数估计:

(4)局部参数估计

在给定全局参数的估计参数后，计算每个缓存组合的流行度。

利用上式对每个缓存内容的流行度，即局部参数进行估计。

在进行缓存策略对比时，我们采用平均奖赏值(Average reward)作为评价指标，策略带来的average reward越高，则说明性能越好。我们采用四种常用的基准算法与提出的算法进行比较，分别为上置信确界赌博机(UCB)算法，∈-贪心(∈-greedy)算法，最近最少使用(LRU)算法和最不经常使用(LRU)算法。

不同算法获得的平均奖赏值，参见图1所示。由图1可知，随着迭代次数(Iterationtimes)的增加，Extended MAB的算法远优于其他的基准算法。与其他算法相比，该算法具有更好的平均回报率和更快的收敛速度。随着迭代次数的增加，基于Extended-MAB的缓存部署方案的平均奖赏值高于其他几个基准算法且稳定在一个最高值。

Claims

1.一种用户偏好未知的边缘基站缓存部署方法，网络中的中央服务器部署在远端，其具有强大的计算和存储能力，可以存储网络中的所有文件；而边缘服务器距离用户更近，但计算能力和存储能力有限，只能缓存一部分内容；因此边缘服务器需要优化的缓存策略提高网络性能；将边缘服务器看作一个可以独立做出决定的智能体，该智能体自主地选择缓存部署策略；其特征在于：

采用扩展多臂赌博机算法；所述扩展多臂赌博机包含一个全局参数用户密度和多个局部参数文件流行度；

所述全局参数决定了用户密度的分布函数，在用户的全局参数确定时，得到用户数量的期望；

基于所述扩展多臂赌博机算法模型，边缘服务器逐渐学习到环境中的用户密度和各个文件的流行度，并推导出最优的缓存策略；基于响应的用户数，由边缘服务器估计用户密度和内容流行度，以进一步优化缓存放置解决方案；

具体步骤为：

(1)边缘服务器以某一概率随机选择缓存部署，在完全未知的环境中，边缘服务器每个时刻选择一个摇臂作为行为并得到奖励，从而获得环境的知识；通过对每只摇臂的知识的积累，智能体可以选择最优的摇臂来最大限度地积累奖励；在进行探索-利用权衡时，如果时间t满足log₂(t)属于自然数集合，则选择随机缓存放置组合；否则，边缘服务器根据估计的参数选择具有最高流行度的文件组合；

(2)边缘服务器广播缓存的内容并获得用户的响应，计算满足的用户数；在每个时隙，边缘服务器向其服务区域中的所有用户广播缓存内容，并且可以成功地接收缓存内容；在这种情况下，如果请求的内容缓存在边缘服务器中，则直接满足请求，而不需要从中心服务器获取内容；其他请求被发送到中央服务器并由回程传输响应；当用户设备对缓存内容满意时，边缘服务器会接收信号；基于满意的用户数，由边缘服务器估计用户密度和内容流行度，以进一步优化缓存放置解决方案；

(3)根据满足的用户数估计全局参数用户密度，随后进行参数估计；设网络中有N个文件，每个边缘服务器有K个缓存空间，C表示所有缓存组合的总数，C_t表示t时刻选择的缓存组合的索引；μ(θ)表示网络中的用户密度函数，网络密度由θ决定，而θ在实际的网络中并不能预先知道；在进行参数估计时，需要估计θ的值，称θ为全局参数；

全局参数估计：基站每次选择一个文件组合，基于先前获得的奖励和当前的奖励计算；一旦选择了一个组合，则预期奖励将更新为组合