CN116155991A

CN116155991A - 一种基于深度强化学习的边缘内容缓存与推荐方法及系统

Info

Publication number: CN116155991A
Application number: CN202310045386.7A
Authority: CN
Inventors: 俞东进; 吴桐; 王东京; 黄彬彬; 石恩雅
Original assignee: Hangzhou Bindian Information Technology Co ltd; Hangzhou Dianzi University
Current assignee: Hangzhou Bindian Information Technology Co ltd; Hangzhou Dianzi University
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-05-23
Anticipated expiration: 2043-01-30
Also published as: CN116155991B

Abstract

本发明公开了一种基于深度强化学习的联合边缘缓存与推荐方法及系统，该方法首先构建移动节点模型计算用户之间的D2D传输速率、用户偏好和用户间的相似性。其次构建D2D传输模型，计算出传输时长、社会关系以及接触率。然后构建推荐和请求模型和内容服务提供商模型，内容服务提供商通过蜂窝链路将内容传输给用户。再然后构建优化目标函数，预测缺失的评分，并将内容缓存与推荐建模为马尔可夫决策过程。最后完成系统与环境的交互以及参数的更新。本发明获得更准确的评分预测，将联合内容缓存和推荐问题描述为非线性整数规划问题，保证内容缓存和推荐命中率的同时，使代理成本最小化，并帮助智能体获得近似最优解。

Description

一种基于深度强化学习的边缘内容缓存与推荐方法及系统

技术领域

本发明涉及计算机科学与通信领域，尤其涉及一种基于深度强化学习的联合边缘缓存与推荐方法及系统。

背景技术

智能设备的快速增长和无线通信技术的发展，不仅给社会带来了辉煌的便利，也引发了流量的爆炸式增长。根据思科和爱立信的报告，2019年全球的请求流量为38艾字节/月，到2022年将增至77.5艾字节/月，到2025年将增至160艾字节/月。因此，寻找一种有前景的方法来减轻蜂窝网络的流量负担成为内容服务中心(内容服务提供商)的当务之急。

近年来，由于对非实时应用和数据的需求急剧增加，在网络边缘缓存内容被认为是一种很有前途的解决方案。边缘缓存应用网络的互补技术，鼓励具有无线接口的移动设备进行间歇性通信，将流行内容提前缓存到边缘，并通过设备到设备(D2D)链接与相邻节点共享。与传统的蜂窝链路数据卸载方式不同，内容服务提供商首先将内容传输到一些移动节点上，本发明将这些节点称为助手，然后由助手进行进一步的帮助分发用户感兴趣的内容。研究证明，通过边缘缓存和D2D通信可以显著缓解蜂窝网络中的流量压力。传统的边缘缓存算法通常优先缓存流行度较高的内容，理论上确实可以提高缓存的命中率。然而，移动设备的缓存容量是有限的，少数用户可能会在内容偏好模式上产生较大的变化。因此，如果没有精心设计的策略，边缘缓存的效率和性能将受到极大的限制。

近十年来，个性化推荐在日常生活中得到了广泛的应用。推荐系统的目的是帮助用户在面对大量信息的情况下找到最符合自己偏好的商品。推荐系统具有重塑不同用户内容请求概率的能力。之前的研究表明，YouTube和Netflix上50％和80％的请求分别是在推荐下发出的。同样，认为推荐系统也可以用来提高边缘缓存的命中率。但是，很多用户不愿意对内容进行评价，导致评分矩阵非常稀疏，这会降低用户偏好预测的准确性。同时，用户的移动性使得预测用户的移动和相互接触变得困难。更糟糕的是，请求的时效性还要求内容在可容忍的延迟内交付给用户。因此，有必要利用移动用户和内容之间的关系来设计高效的缓存和推荐策略。

现有技术关于D2D卸载中联合考虑内容缓存和推荐的研究通常直接使用原始评分矩阵来获取用户的偏好。然而，大多数用户不愿意评价内容，这导致了一个非常稀疏的评级矩阵。实际上，几乎所有公共数据集的稀疏性都超过了95％。如果使用这些数据集直接预测用户的偏好，结果肯定是不准确的。因此，需要解决稀疏的评级矩阵问题。现有技术主要是从用户的角度，从缓存命中率和蜂窝网络中的流量来阐述这个问题，其中一些具有缓存能力的用户或ap充当缓存节点，其他被请求的用户充当消费者。从CSC的角度来看，联合考虑内容缓存和推荐策略的成本约束来提高D2D卸载的性能仍然是可行的。现有技术大多集中在准静态系统的性能提升上，不能直接应用于动态系统。在D2D传输模型中，现有技术都假设D2D通信中的节点是静态的，或者一次可以完全传递内容。考虑资源需求的不确定性和动态性，以及节点的移动性和有限的缓存容量，开发缓存和推荐策略以最小化CSC的成本是一个非线性整数规划(NLIP)问题，属于NP困难。传统的优化方法由于其巨大的复杂性，可能不适用于动态系统中的智能联合决策。

现有的联合考虑内容缓存和推荐的工作主要从蜂窝网络中缓存命中率和流量的角度来阐述问题，而忽略了内容缓存和推荐过程中智能体CSC的实际成本。同时，在计算用户偏好时没有考虑数据稀疏导致的预测不准确的问题。此外，现有的工作没有考虑节点的移动性。事实上，边缘缓存网络中的节点在大多数情况下都不是固定在一个位置的。它们通常是随机移动的，一对节点之间的接触也是机会性的。因此，准确预测移动节点未来的移动轨迹对内容缓存和推荐有很大的影响。

根据前面的分析，推荐可以极大地影响用户的请求。然而，还需要解决一些挑战:(i)如何根据稀疏评分矩阵准确推荐内容？(ii)如何在机会型移动网络中设计有效的缓存和推荐策略？(iii)如何在不同情景下使内容服务提供商的成本最小化？

发明内容

为了克服上述现有技术的不足，本发明考虑一个蜂窝网络场景，该场景包含一个内容服务提供商，一个基站和一些移动用户，并提供了一种基于深度强化学习的联合边缘缓存与推荐方法及系统，可有效解决上述问题。

本发明具体采用的技术方案如下：

设计一种联合内容缓存和推荐系统，所述联合容缓存和推荐系统的目标是利用边缘缓存和内容推荐最小化内容服务提供商的传输成本，为解决评分矩阵稀疏的问题，所述联合容缓存和推荐系统首先提出一种基于宽度增量学习的评分预测算法，接着提出一种基于深度强化学习的内容缓存与推荐算法。

一种基于深度强化学习的边缘内容缓存与推荐方法，包括以下步骤：

1.构建移动节点模型

1.1设定

为用户i在时隙t的缓存状态，

表示用户i在时隙t缓存了内容f，反之

表示用户i在时隙t的缓存能力，作为用户i的缓存约束。

1.2计算用户之间的D2D传输速率

本发明采用正交模型，将每个用户i的带宽划分为n_i个相等的子带宽。在进行D2D通信时，为每一个用户分配不重叠的正交无线通信资源，以此来防止信道间的相互干扰。D2D的传输速率

的计算公式如下：

其中B_i表示用户i的可用带宽，

表示用户i和j之间在时隙t的信道增益，P_i ^Trans表示用户i的D2D传输功率，ω^t表示在时隙t邻居的同信道干扰水平，σ²是加性高斯白噪声。

1.3计算用户偏好：令

R_iF表示用户i对内容的评价，其中R_if∈{1,2,3,4,5}。评分越高代表兴趣程度越高。

表示内容f与类别k的关联度。于是可以根据以下公式计算出用户对类别的偏好：

同时，令

表示内容对类别的关联度，则可以计算出用户对内容的偏好，计算公式如下：

其中

与

分别表示用户i对类别的偏好向量和对内容的偏好向量。

令

表示用户偏好的阈值，只有当用户对内容的偏好高于此阈值时才会请求该内容。

1.4具有相同评分的用户具有更高的相似度，则利用余弦相似度可以计算出用户之间的相似性。

2.构建D2D传输模型

本发明根据用户的历史接触记录，将每对用户的接触时长建模为帕累托分布。

2.1令D_f表示内容f的大小，则根据如下公式可以计算出用户j对内容f的请求可以被用户i满足的传输时长：

为了建模用户之间发生机会接触的过程，本发明用一个随机变量

表示用户i和j之间发生λ_ij次接触所需的时间，η_ij表示用户i和j之间的接触概率，用

表示用户i和j在容忍时延T₀内发生接触且能完全通过D2D传输内容f的概率，又用

表示用户j对内容f的请求可以在λ_ij次接触中被用户i满足的概率。令P_ijf表示用户j对内容f的请求可以被用户i满足的概率，其计算公式如下：

其中，

表示用户i和j之间最大的接触次数，

表示用户j对内容f的请求无法在前k-1次接触中被用户i满足的概率。

2.2本发明认为用户更愿意将内容传递给关系密切的人，并假设偏好相似的用户具有更强的社会关系。令

表示用户i和j之间的社会关系，其计算公式如下：

其中，η_ij表示用户i和j之间的接触率，其计算公式如下：

其中

表示用户之间的接触间隔时间。

3.构建推荐和请求模型

推荐系统可以为用户提供更多的选择，即用户的请求会由其偏好和推荐共同决定。

3.1令

表示在时隙t的推荐决策，

表示向用户i推荐内容f，反之

3.2令

表示用户愿意接受推荐的概率，则用户i在时隙t请求内容f的概率可由如下公式计算：

4.构建内容服务提供商模型

内容服务提供商通过蜂窝链路将内容传输给用户。

4.1

表示在时隙t的缓存决策，

表示用户i被选择成为内容f的缓存节点，反之

当用户i被选择成为缓存节点，则将立刻从内容服务提供商获得被缓存的内容。

4.2内容服务提供商的传输成本计算公式如下：

其中α表示内容服务提供商通过蜂窝网络传输内容的单位成本；

表示不进行D2D卸载时，内容服务提供商的总成本，其计算公式如下：

表示在时隙t通过D2D通信可以传输的总流量，其计算公式如下：

其中

表示在缓存和推荐决策下的分发潜力，其计算公式如下：

其中，其中

表示是否将用户i选择成为缓存节点来缓存内容f；

表示是否在时隙t为用户i推荐f；

表示用户j在时隙t请求内容f的概率；P_ijf(T₀,S_f)表示用户j对内容f的请求可以在时隙内由用户i传输的概率。

表示内容服务提供商传输的额外流量，其计算公式如下：

其中，D_f表示内容f的大小，

表示用户i对内容f的缓存状态。

5.构建优化目标函数

以最小化内容服务提供商的成本为目标，则优化目标如下所示：

其中，U^t为内容服务提供商的传输成本计算公式；

分别是内容的缓存决策和推荐决策。

6.基于增量宽度学习的协同过滤算法

在实际生活中大多数用户不愿意对每一个访问过的内容进行评价，在缺失了大量用户对内容评价的情况下直接利用这种数据预测用户偏好，将导致结果极度不准确，本发明提出了一种基于增量宽度学习的协同过滤算法(BILCF)来预测缺失的评分。

6.1将用户对内容的历史评分数据转换成评分矩阵，从而得到与用户i最相似的k个用户对内容f的评分，用

表示。同理可以得到用户i对与内容f最相似的l个内容的评分，用

表示。于是，可以根据评分矩阵得到BILCF的输入：

上式表示将

和

合并成一个1×(k+l)的向量，且每一个元素的值不为0。

6.2令特征映射层包含n个特征映射组，然后将6.1中的输入通过以下特征映射层转化为特征映射向量，其转换公式如下：

其中φ是非线性映射函数，

和

分别表示特征映射层的权重和偏置。

6.3将6.2中的M_i作为特征增强层的输入，令增强层包含m个特征增强组，则通过非线性变换得到特征增强向量，如下所示：

其中，ξ为非线性增强函数，

和

分别表示特征增强组的权重和偏置。如果当前的网络结构无法达到所期望的精度，则加入一组与新的节点作为增量增强层，其线性变化过程与特征增强层相同，依据上述公式进行非线性变换，相当于横向扩大了输入层。

7.构建马尔可夫决策过程

将内容缓存与推荐建模为马尔可夫决策过程，并构建其三要素：状态空间、动作空间、奖励。

7.1系统的状态空间

在每个时隙开始，用户会向内容服务提供商提供自己的信息，以此作为系统的状态空间，其表示如下：

其中，

是用户i在时隙t的可用缓存，

表示用户i在时隙t对内容f的缓存状态，

表示用户i在时隙t请求内容f的概率。

7.2系统的动作空间

当获得了每个时隙的状态，内容服务提供商需要产生内容缓存和推荐决策。因此，动作空间表示如下：

其中

表示是否将用户i选择成为缓存节点来缓存内容f；

表示是否在时隙t为用户i推荐f。

7.3系统的奖励

将步骤5中的优化目标视为内容服务提供商的负奖励，则系统奖励表示如下：

对于内容服务提供商而言，它希望找到最佳的策略来最大化自身的奖励，即最小化系统的传输成本。

8基于深度强化学习的内容缓存与推荐算法(DCRM)

8.1系统与环境的交互

基于深度强化学习的内容缓存与推荐算法，它包含三个部分：主网络、目标网络和回放空间。主网络和目标网络具有相同的结构，都包含一个演员网络和一个评论家网络。

当主网络中的演员网络接收到当前状态S^t，它将产生一个动作A^t并传输给评论家网络，A^t包含内容的缓存决策

和推荐决策

决策是依据当前网络的参数选择概率最大的动作，同时也有一定几率探索其它概率较低的动作以避免陷入局部最优解。接着，评论家网络会对计算该动作的Q值来评论该动作的好坏，其计算公式如下：

Q^π(A^t,S^t)≈Q^π(A^t,S^t；θ)

其中，π表示策略，θ表示主网络中的评论家网络的参数。同时，系统将用一个四元组{S^t,A^t,r(A^t,S^t),S^t+1}表示网络的经验，并存储在回放空间。当回放空间被经验存满后，将开始学习和更新参数的过程。

8.2参数的更新

系统随机从回放空间选择一小批样本并重新输入主网络和目标网络，从主网络得到Q值。同时，从目标网络计算目标Q值，其计算公式如下：

Q^π′(A^t+1,S^t+1)≈Q^π′(A^t+1,S^t+1；θ′}

其中，θ′是目标网络的评论家网络的参数，它等于较早之前的主网络中的评论家网络的参数。接着，用于更新参数的损失函数如下：

Loss(θ^t)＝E[(y′-Q^π(A^t,S^t；θ))²]

其中，y′的计算公式如下：

y′＝r(A^t,S^t)+εmaxQ^π′(A^t+1,S^t+1；θ′}

其中，ε为参数。

一种基于深度强化学习的联合边缘缓存与推荐系统，包括移动节点模块、D2D传输模块、推荐和请求模块和内容服务提供商模块。

所述移动节点模块，用于计算用户之间的D2D传输速率、用户偏好，得到用户之间的相似性。

所述D2D传输模块，用于根据用户的历史接触记录，将每对用户的接触时长建模为帕累托分布，通过移动节点模块，构建D2D传输模型。

所述推荐和请求模块，根据移动节点模块构建推荐和请求模型，使得推荐系统为用户提供更多的选择，用户的请求会由其偏好和推荐共同决定。

所述内容服务提供商模块，用于构建内容服务提供商模型，使得内容服务提供商通过蜂窝链路，根据推荐和请求模块以及D2D传输模型，将内容传输给用户。

本发明有益效果：

本发明设计了一种基于广义增量学习的协同过滤方法BILCF来预测稀疏评分矩阵中的缺失评分，获得更准确的评分预测。将联合内容缓存和推荐问题描述为非线性整数规划(NLIP)问题，保证内容缓存和推荐命中率的同时，使代理(CSC)成本最小化。将优化问题近似为马尔可夫决策过程(MDP)，并定义了动作空间、状态空间和奖励函数。在此基础上，提出了一种基于深度确定性策略梯度的内容缓存和推荐方法(DCRM)，以帮助智能体获得近似最优解。在真实数据集和合成数据集上的大量实验表明，所提出的BILCF和DCRM分别在预测精度和CSC成本方面优于其他基线。

附图说明

图1为机会接触场景；

图2为所提基于深度强化学习的联合边缘缓存与推荐系统的系统架构；

图3为所提BILCF的架构；

图4为所提DCRM的架构；

图5为不同用户数情况下各种算法在预测评分时的RMSE对比；

图6为不同内容数情况下各种算法在预测评分时的RMSE对比；

图7为所提DCRM算法的收敛性分析；

图8为在不同用户数情况下各算法关于内容服务提供商传输成本性能对比；

图9为在不同内容数情况下各算法关于内容服务提供商传输成本性能对比；

图10为在时隙的持续时长不同的情况下各种算法关于内容服务提供商传输成本的性能对比；

图11为在时隙的持续时长不同的情况下各种算法关于卸载率的性能对比；

图12为在用户数不同的情况下各种算法关于卸载率的性能对比；

图13为在用户数不同的情况下关于评分预测算法和内容推荐的性能对比；

图14为在时隙持续时长不同的情况下评分预测算法和内容推荐性能对比；

图15为本发明系统示意图。

具体实施方式

本发明考虑一个蜂窝网络场景，该场景包含一个内容服务提供商，一个基站和一些移动用户，如图1所示，考虑一个具有内容服务提供商、基站和在基站覆盖范围内的一些移动用户的蜂窝网络，这些移动用户配备了缓存和通信设备。内容服务提供商可以向用户推荐内容，用户可以接受推荐也可以不接受。如果用户对某些内容有请求，则基站将通过回程网络从内容服务提供商接收内容，并通过蜂窝链路将内容发送给用户。同时，用户可以缓存这些内容，并在需要时通过D2D链路将这些内容传递给其他人。应该注意的是，系统模型可以很容易地扩展到多个基站场景。并提供了一种基于深度强化学习的联合边缘缓存与推荐方法及系统，如图2所示，它包含两个部分：基于增量宽度学习的协同过滤算法和基于深度强化学习的内容缓存与推荐算法。

本发明从以下方面对问题建模并设计算法：解决稀疏的评级矩阵问题。联合考虑内容缓存和推荐策略的成本约束来提高D2D卸载的性能。本发明在时域上考虑了一个时变系统，将整个数据卸载过程划分为多个时隙，每个时隙会根据系统和移动节点的当前状态更新请求。本发明考虑了一个更现实的场景，即D2D通信中的节点机会性相遇，如果内容的大小变得非常大，则一次可能无法完全传输一个内容。针对节点的运动和相互接触难以预测的问题，提出了一种基于接触模式的概率框架来估计传递概率。本发明提出了一种深度强化学习方法，通过智能体(CSC)与环境之间的相互作用来获得最优解，如图2所示。

1.构建移动节点模型

1.1设定

为用户i在时隙t的缓存状态，

表示用户i在时隙t缓存了内容f，反之

表示用户i在时隙t的缓存能力，作为用户i的缓存约束。

1.2计算用户之间的D2D传输速率

的计算公式如下：

其中B_i表示用户i的可用带宽，

表示用户i和j之间在时隙t的信道增益，

表示用户i的D2D传输功率，ω^t表示在时隙t邻居的同信道干扰水平，σ²是加性高斯白噪声。

1.3计算用户偏好：令

表示用户i对内容的评价，其中R_if∈{1,2,3,4,5}。评分越高代表兴趣程度越高。

同时，令

其中

与

分别表示用户i对类别的偏好向量和对内容的偏好向量。

令

1.4具有相同评分的用户具有更高的相似度，则利用余弦相似度可以计算出用户之间的相似性，其计算公式如下：

2.构建D2D传输模型

用户的移动性和机会接触使得即使在特定路径下，也很难预测D2D通信中内容f的传递概率。本发明根据用户的历史接触记录，将每对用户的接触时长建模为帕累托分布。

其中，

表示用户i和j之间最大的接触次数，

2.2由于个体的理性，用户不会愿意将内容免费传递给陌生人。本发明认为用户更愿意将内容传递给关系密切的人，并假设偏好相似的用户具有更强的社会关系。令

表示用户i和j之间的社会关系，其计算公式如下：

其中，η_ij表示用户i和j之间的接触率，其计算公式如下：

其中

表示用户之间的接触间隔时间。

3.构建推荐和请求模型

在没有任何外部干预的情况下，用户会优先请求自己更感兴趣的内容。而推荐系统可以为用户提供更多的选择，即用户的请求会由其偏好和推荐共同决定。

3.1令

表示在时隙t的推荐决策，

表示向用户i推荐内容f，反之

3.2令

4.构建内容服务提供商模型

内容服务提供商通过蜂窝链路将内容传输给用户。

4.1

表示在时隙t的缓存决策，

表示用户i被选择成为内容f的缓存节点，反之

4.2内容服务提供商的传输成本计算公式如下：

其中

表示在缓存和推荐决策下的分发潜力，其计算公式如下：

其中，

表示在时隙t将内容f缓存在用户i；

表示内容服务提供商传输的额外流量，其计算公式如下：

其中，D_f表示内容f的大小，

表示用户i对内容f的缓存状态。

5.构建优化目标函数

其中，U^t为内容服务提供商的传输成本计算公式；

分别是内容的缓存决策和推荐决策。约束条件1和2保证了缓存空间的合理性；约束条件3保证了通过D2D传输内容的传输时延不能超过用户的容忍时延；约束条件4和5保证了内容服务提供商在每个时隙最多只能为每一个用户缓存和推荐一个内容；约束条件6保证了决策变量的整数性质。

6.基于增量宽度学习的协同过滤算法

本发明利用用户对内容的历史评分预测用户的偏好，但是在实际生活中大多数用户不愿意对每一个访问过的内容进行评价，这导致实际的用户-内容评分数据非常稀疏，在缺失了大量用户对内容评价的情况下直接利用这种数据预测用户偏好，将导致结果极度不准确。为了解决这一问题，本发明提出了一种基于增量宽度学习的协同过滤算法(BILCF)来预测缺失的评分，如图3所示。

表示。于是，可以根据评分矩阵得到BILCF的输入：

上式表示将

和

合并成一个1×(k+l)的向量，且每一个元素的值不为0。

其中φ是非线性映射函数，

和

分别表示特征映射层的权重和偏置。

其中，ξ为非线性增强函数，

和

7.构建马尔可夫决策过程

7.1系统的状态空间

其中，

是用户i在时隙t的可用缓存，

表示用户i在时隙t对内容f的缓存状态，

表示用户i在时隙t请求内容f的概率。

7.2系统的动作空间

其中

示是否将用户i选择成为缓存节点来缓存内容f；

表示是否在时隙t为用户i推荐f。

7.3系统的奖励

在本发明所提的DCRM中，奖励被视为内容服务提供商采取某一个动作后获得的反馈。将步骤5中的优化目标视为内容服务提供商的负奖励，则系统奖励表示如下：

8基于深度强化学习的内容缓存与推荐算法(DCRM)

8.1系统与环境的交互

基于深度强化学习的内容缓存与推荐算法如图4所示，它包含三个部分：主网络、目标网络和回放空间。主网络和目标网络具有相同的结构，都包含一个演员网络和一个评论家网络。

和推荐决策

Q^π(A^t,S^t)≈Q^π(A^t,S^t；θ)

8.2参数的更新

Q^π′(A^t+1,S^t+1)≈Q^π′(A^t+1,S^t+1；θ′}

其中，θ′是目标网络的评论家网络的参数，它与等于较早之前的主网络中的评论家网络的参数。接着，用于更新参数的损失函数如下：

Loss(θ^t)＝E[(y′-Q^π(A^t,S^t；θ))²]

其中，y′的计算公式如下：

y′＝r(A^t,S^t)+εmaxQ^π′(A^t+1,S^t+1；θ′}

其中，ε为参数，即折扣因子。

如图15所示，一种基于深度强化学习的联合边缘缓存与推荐系统，包括移动节点模块、D2D传输模块、推荐和请求模块和内容服务提供商模块。

所述移动节点模块用于计算用户之间的D2D传输速率、用户偏好，得到用户之间的相似性。

所述D2D传输模块用于根据用户的历史接触记录，将每对用户的接触时长建模为帕累托分布，通过移动节点模块，构建D2D传输模型。

推荐和请求模块根据移动节点模块构建推荐和请求模型，使得推荐系统为用户提供更多的选择，用户的请求会由其偏好和推荐共同决定。

内容服务提供商模块用于构建内容服务提供商模型，使得内容服务提供商通过蜂窝链路，根据推荐和请求模块以及D2D传输模型，将内容传输给用户。

实施例

下面就部分实施过程和实施结果进行展示：

本实施例首先根据均方根误差(RMSE)的基线方法评估所提议的基于增量宽度学习的协同过滤算法(BILCF)的性能。然后，将提出的基于深度强化学习的内容缓存与推荐算法(DCRM)方法与其他基线方法在不同参数下进行比较。最后，通过消融实验验证了不同模块对联合内容缓存与推荐系统(JCCRS)的影响。本实施例在真实数据集Movielens 1M和由Movielens和Infocom 06trance组成的合成数据集上进行。合成数据集将Movielens 1M和Infocom 06跟踪中相同数量的用户逐个映射，合成为新的数据集。

假设每个用户的缓存容量和每个内容的大小分别在[2000,3000]MB和[500,1000]MB的范围内。通过蜂窝链路的内容服务提供商的单位流量成本为0.2货币单位/MB，高斯白噪声功率和传输功率分别设置为-100dBm和[1,2]W。BILCF中用户的邻居数和内容的邻居数都设置为5。映射特征层和增强特征层共有10组节点。每组映射特征层和增强特征层分别有10个和15个节点。在DCRM中，时隙数为10,最小批尺寸和回放空间的大小分别设置为128和10000。最后，奖励折扣为0.99，令主网络中演员和评论家的学习率分别为0.00001和0.00002。

实验将本方法与若干传统预测方法进行了比较，作为BILCF对照的预测方法有：(1)概率矩阵分解Probabilistic Matrix Factorization(PMF)：PMF是现代推荐系统的基本算法之一，它通过矩阵分解来发现用户与内容之间的潜在因素，并捕获两者之间的线性关系；(2)基于注意力机制的反向传播神经网络BP Neural Network with AttentionMechanism(BPAM)：在BPAM中，使用BP神经网络构建基于邻居的CF框架，以捕获用户与其最近邻居之间的全局影响；(3)基于宽度学习的协同过滤算法Broad CollaborativeFiltering(BroadCF)：BroadCF将Broad Learning和CF结合起来，利用目标用户的K个邻居的评分来预测目标用户的评分。本实施例采用均方根误差(RMSE)作为流量预测模型的评价指标。RMSE的值越低表示预测结果越准确。均方根误差的定义为：

其中

表示预测值，y_i表示实际值，n表示预测的评分个数。

实验结果如图5所示，当用户数量增加时，本发明的BILCF能保持最佳性能。原因是BILCF考虑了更多的信息。在寻找相邻的内容时，也会考虑内容的类别，而不仅仅是评分，这样可以更准确地定位MD的偏好。BroadCF的性能略好于其他基线方法，因为它还结合了神经网络和协同过滤来实现更强的拟合能力。如图6所示，当内容数量增加时，特别是当内容数量增加时，所提出的BILCF也保持了最佳性能。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

作为DCRM对照的预测方法有：

(1)Random Content Caching and Recommendation(RCCR)：内容服务提供商在每个时隙随机决定对用户的缓存和推荐策略。缓存和推荐内容的数量与DCRM相同；(2)GreedyContent Caching and Recommendation(GCCR)：内容服务提供商贪婪地根据每个MD在每个时隙的溢出潜力和边际效益来确定对MD的缓存和推荐策略；(3)Top cache and toprecommendation(TopCache)：内容服务提供商将缓存并推荐最喜欢的内容给用户；(4)Decay based Content Caching and Recommendation(DCCR)：在贪婪地执行第一个缓存策略后，内容服务提供商将所选MD的邻居的选择概率降低一个衰减因子；(5)Caching-awareRecommendation(CawR)：内容服务提供商将通过动态规划获得期望收益最大的内容缓存和推荐解决方案；(6)Iterative Recommendation and Caching(IRC)：内容服务提供商将通过交替使用固定推荐和缓存策略迭代地获得解决方案。本实施例采用内容服务提供商的传输成本作为模型的评价指标。

如图7所示，从第50次评估开始，内容服务提供商明显学会了选择奖励更多的动作的策略，这意味着在没有任何先验知识的情况下，可以成功地学习内容缓存和推荐策略。图8至12显示了合成数据集中不同场景下内容服务提供商的性能比较。从图8中可以发现，随着用户数量的增加，不同方法之间的成本差距越来越明显。正如预期的那样，提出的DCRM优于其他基线方法，特别是在用户数量较大的情况下。原因是，随着用户的增加，所提出的DCRM可以从长远角度找到更好的缓存和推荐策略。同时，CawR和DCCR也优于其他基线方法。其主要原因在于，CawR采用动态规划的方法，在每个时隙中寻找一个最大化用户请求概率的策略。此外，DCCR利用衰减因子降低了相邻用户作为相同内容的辅助者的概率，同时扩大了D2D传输的范围，从而大大降低了内容服务提供商的成本。由于GCCR和TopCache只考虑预期奖励的最大化，没有考虑用户集群所造成的卸载重叠问题，因此性能仅略好于RCCR。不出所料，RCCR在实验中表现最差。

在图9中，注意到，随着内容数量的增加，内容服务提供商将有更多的缓存和推荐选项。正如预期的那样，在不同的内容数量下，所提出的DCRM也表现最好。可以发现，在提出的DCRM中，内容服务提供商的成本随着内容数量的增加而相对稳定。原因是DCRM从全球的角度考虑了每种策略对内容服务提供商成本的长期影响。此外，可以看出，CawR和DCCR也优于其他基线方法。但是，由于他们的策略只是基于每个时间段的局部优化，当内容数量增加时，他们可能会发现未来收益较少的策略，导致整体成本增加。与图8类似，GCCR和TopCache的性能也略好于RCCR，而RCCR的性能在预期中最差。需要注意的是，随着内容数量的增加，内容服务提供商的成本变化不大。原因是内容的普及程度遵循Zipf分布，有一小部分内容会被大部分md要求。

图10显示了不同时隙持续时间下内容服务提供商传输成本的性能比较。在实验中，用户个数设置为30，内容设置为50。本实施例将各MD的容差延迟视为一个常数，该常数等于时隙的持续时间。由式(6)可知，MD请求在允许时延内通过D2D链路得到满足的概率随着每个时隙持续时间的增加而增加。可以看出，在不同的算法下，随着时隙持续时间的增加，内容服务提供商的成本会降低。正如预期的那样，由于考虑了全局优化，提出的DCRM优于其他基线方法。RCCR仍然表现最差。但是，随着时隙持续时间的增加，其性能有了明显的提高。图11显示了在每个时隙的不同持续时间下卸载速率的性能比较。此处用户个数设置为30，内容设置为50。很明显，随着时隙持续时间的增加，用户之间D2D接触的概率也会增加。正如预期的那样，DCRM在不同场景下的性能也最好，随着时隙持续时间的增加，所有方法的卸载率都有所提高。还可以看到，当增加时隙持续时间时，CawR、DCCR和IRC的性能提高最大。这是因为随着时隙持续时间的增加，通过CawR、DCCR和IRC得到的局部最优解会逐渐接近近似的全局最优解。同时，CawR和DCCR之间的性能差距仍然很小。需要注意的是，虽然RCCR的性能得到了提高，但它仍然是最差的。

图12显示了不同用户数量下卸载速率的性能对比。在实验中，内容数量设置为50个，时隙时长设置为3小时。随着用户数量的增加，内容在时间段内通过D2D链路下发的概率也会增加。可以看出，当用户数量增加时，提出的DCRM优于其他基线方法。这是因为DCRM所制定的策略综合考虑了用户的请求概率和每个时隙的缓存状态，得到了近似的全局最优解。此外，CawR和DCCR之间的性能差距很小，可能是由于这两种方法都通过优化每对用户的接触概率来扩大每个时隙的卸载率。正如预期的那样，IRC、GCCR和TopCache的性能略好于RCCR。究其原因，可能是这三种方法都采用了贪心的思路，简单地选择卸载潜力大的用户作为辅助，自然会在每个时隙得到一个局部最优解。图13和图14通过消融实验分别分析了合成数据集中DCRM和BILCF对提出的JCCRS的影响。

图13为不同用户数量下内容服务提供商成本的性能比较，其中JCCRSDCRM表示不含内容推荐的JCCRS，以JCCRS为基线方法。在实验中，内容的数量和时长分别设置为50小时和3小时。可以看出，随着用户数量的增加，JCCRS与JCCRS-dcrm之间的差距也在增大。由于个体理性，用户可以接受或不接受推荐，并根据自己的喜好要求内容。因此，当用户数量增加时，JCCRS的优势更加明显。这表明，缓存和推荐的结合确实可以提高数据卸载的效率，降低内容服务提供商的成本。图14为不同用户数量下内容服务提供商成本的性能对比，其中JCCRSBILCF表示不进行评级预测的JCCRS。可以看出，随着md数量的增加，所提出的JCCRS具有明显的优势。主要原因是原始评分矩阵非常稀疏，没有评分预测，很难准确获取用户对内容的偏好，导致代理(内容服务提供商)产生错误的缓存和推荐策略。

综上所述，通过调整不同的参数，证明了所提出的DCRM可以获得近似的全局最优解，并且在不同的场景下性能最好。此外，通过消融实验，证明了所提出的JCCRS可以有效地结合内容缓存和推荐，然后通过评级预测有效地提高缓存效率，降低内容服务提供商成本。

Claims

1.一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，包括以下步骤：

S1、构建移动节点模型

S1.1、设定

为用户i在时隙t的缓存状态，

表示用户i在时隙t缓存了内容f，反之

表示用户i在时隙t的缓存能力，作为用户i的缓存约束；

S1.2、计算用户之间的设备到设备D2D传输速率；

S1.3、计算用户偏好；

S1.4、利用余弦相似度计算出用户之间的相似性；

S2、构建D2D传输模型

S3、构建推荐和请求模型

S3.1、令

表示在时隙t的推荐决策，

表示向用户i推荐内容f，反之

S3.2、令

表示用户愿意接受推荐的概率，则用户i在时隙t请求内容f的概率由如下公式计算：

其中，

为用户对内容的偏好；

S4、构建内容服务提供商模型

内容服务提供商通过蜂窝链路将内容传输给用户；

S4.1、

表示在时隙t的缓存决策，

表示用户i被选择成为内容f的缓存节点，反之

当用户i被选择成为缓存节点，则将立刻从内容服务提供商获得被缓存的内容；

S4.2、计算内容服务提供商的传输成本；

S5、以最小化内容服务提供商的成本为目标，构建优化目标函数；

S6、基于增量宽度学习的协同过滤算法BILCF预测缺失的评分；

S7、构建马尔可夫决策过程

将内容缓存与推荐建模为马尔可夫决策过程，并构建其三要素：状态空间、动作空间、奖励；

S8、基于深度强化学习的内容缓存与推荐算法DCRM

S8.1、系统与环境的交互；

S8.2、参数的更新。

2.根据权利要求1所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，在步骤S1中，所述传输速率和用户偏好的计算如下：

传输速率：采用正交模型，将每个用户i的带宽划分为n_i个相等的子带宽，在进行D2D通信时，为每一个用户分配不重叠的正交无线通信资源，D2D的传输速率

的计算公式如下：

其中B_i表示用户i的可用带宽，

表示用户i和j之间在时隙t的信道增益，

表示用户i的D2D传输功率，ω^t表示在时隙t邻居的同信道干扰水平，σ²是加性高斯白噪声；

用户偏好：令

表示用户i对内容的评价，其中R_if∈{1,2,3,4,5}，评分越高代表兴趣程度越高，

表示内容f与类别k的关联度，根据以下公式计算出用户对类别的偏好：

同时，令

表示内容对类别的关联度，计算出用户对内容的偏好，计算公式如下：

其中

与

分别表示用户i对类别的偏好向量和对内容的偏好向量；

令

表示用户偏好的阈值，只有当用户对内容的偏好高于此阈值时才请求该内容。

3.根据权利要求2所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，步骤S2具体过程如下：

S2.1、令D_f表示内容f的大小，根据如下公式计算出用户j对内容f的请求被用户i满足的传输时长：

用一个随机变量

表示用户i和j之间发生λ_ij次接触的时间，η_ij表示用户i和j之间的接触概率，用

表示用户j对内容f的请求在λ_ij次接触中被用户i满足的概率，令P_ijf表示用户j对内容f的请求被用户i满足的概率，其计算公式如下：

其中，

表示用户i和j之间最大的接触次数，

表示用户j对内容f的请求无法在前k-1次接触中被用户i满足的概率；

S2.2、假设偏好相似的用户具有更强的社会关系，令

表示用户i和j之间的社会关系，其计算公式如下：

其中η_ij表示用户i和j之间的接触率，其计算公式如下：

其中

表示用户之间的接触间隔时间。

4.根据权利要求3所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，S4.2所述内容服务提供商的传输成本计算如下：

表示在时隙t通过D2D通信传输的总流量，其计算公式如下：

其中

表示在缓存和推荐决策下的分发潜力，其计算公式如下：

其中，其中

表示是否将用户i选择成为缓存节点缓存内容f；

表示是否在时隙t为用户i推荐f；

表示用户j在时隙t请求内容f的概率；P_ijf(T₀，S_f)表示用户j对内容f的请求在时隙内由用户i传输的概率；

表示内容服务提供商传输的额外流量，其计算公式如下：

其中，D_f表示内容f的大小，

表示用户i对内容f的缓存状态。

5.根据权利要求4所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，在S5中所述优化目标如下所示：

st：

其中，

分别是内容的缓存决策和推荐决策；

是用户i在时隙t对内容f的缓存状态。

6.根据权利要求5所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，S6包含如下具体步骤：

S6.1、将用户对内容的历史评分数据转换成评分矩阵，得到与用户i最相似的k个用户对内容f的评分，用

表示；同理得到用户i对与内容f最相似的l个内容的评分，用

表示；

根据评分矩阵得到BILCF的输入：

上式表示将

和

合并成一个1×(k+l)的向量，且每一个元素的值不为0；

S6.2、令特征映射层包含n个特征映射组，然后将S6.1中的输入通过以下特征映射层转化为特征映射向量，其转换公式如下：

其中，φ是非线性映射函数，

和

分别表示特征映射层的权重和偏置；

S6.3、将S6.2中的M_i作为特征增强层的输入，令增强层包含m个特征增强组，则通过非线性变换得到特征增强向量，如下所示：

其中，ξ为非线性增强函数，

和

分别表示特征增强组的权重和偏置。

7.根据权利要求6所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，还包括，如果无法达到所期望的精度，则加入一组新的节点作为增量增强层，其线性变化过程与特征增强层相同，进行非线性变换。

8.根据权利要求6所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，在S7中所述的状态空间、动作空间和奖励具体计算如下：

S7.1、系统的状态空间

在每个时隙开始，用户向内容服务提供商提供自己的信息，以此作为系统的状态空间，其表示如下：

S7.2、系统的动作空间

当获得了每个时隙的状态，内容服务提供商产生内容缓存和推荐决策，因此，动作空间表示如下：

S7.3、系统的奖励

将S5中的优化目标视为内容服务提供商的负奖励，则系统奖励表示如下：

对于内容服务提供商而言，找到最佳的策略最大化自身的奖励，即最小化系统的传输成本。

9.根据权利要求7所述的一种基于深度强化学习的边缘内容缓存与推荐方法，其特征在于，在S8中，具体过程如下：

S8.1、系统与环境的交互

基于深度强化学习的内容缓存与推荐算法包含三个部分：主网络、目标网络和回放空间，主网络和目标网络具有相同的结构，都包含一个演员网络和一个评论家网络；

当主网络中的演员网络接收到当前状态S^t，将产生一个动作A^t并传输给评论家网络，A^t包含内容的缓存决策

和推荐决策

决策是依据当前网络的参数选择概率最大的动作，同时也有一定几率探索其它概率较低的动作；接着，评论家网络对计算该动作的Q值评论该动作的好坏，其计算公式如下：

Q^π(A^t，S^t)≈Q^π(A^t，S^t；θ)

其中，π表示策略，θ表示主网络中的评论家网络的参数；

同时，系统将用一个四元组{S^t，A^t，r(A^t，S^t)，S^t+1}表示网络的经验，并存储在回放空间，当回放空间被经验存满后，将开始学习和更新参数的过程；

S8.2参数的更新

系统随机从回放空间选择一小批样本并重新输入主网络和目标网络，从主网络得到Q值；同时，从目标网络计算目标Q值，其计算公式如下：

Q^π′(A^t+1，S^t+1)≈Q^π′(A^t+1，S^t+1；θ′}

其中，θ′是目标网络的评论家网络的参数，它等于较早之前的主网络中的评论家网络的参数；接着，用于更新参数的损失函数如下：

Loss(θ^t)＝E[(y′-Q^π(A^t，S^t；θ))²]

其中，y′的计算公式如下：

y′＝r(A^t，S^t)+εmax Q^π′(A^t+1，S^t+1；θ′}

其中，ε为参数。

10.一种基于深度强化学习的边缘内容缓存与推荐系统，其特征在于，包括移动节点模块、D2D传输模块、推荐和请求模块和内容服务提供商模块；

所述移动节点模块，用于计算用户之间的D2D传输速率、用户偏好，得到用户之间的相似性；

所述D2D传输模块，用于根据用户的历史接触记录，将每对用户的接触时长建模为帕累托分布，通过移动节点模块，构建D2D传输模型；

所述推荐和请求模块，根据移动节点模块构建推荐和请求模型，使得推荐系统为用户提供更多的选择，用户的请求会由其偏好和推荐共同决定；