CN109639760B

CN109639760B - 一种基于深度强化学习的d2d网络中的缓存策略方法

Info

Publication number: CN109639760B
Application number: CN201811300987.3A
Authority: CN
Inventors: 李立欣; 徐洋; 李旭; 高昂; 梁微; 殷家应
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-09-03
Anticipated expiration: 2038-11-02
Also published as: CN109639760A

Abstract

本发明公开了一种基于深度强化学习的D2D网络缓存策略方法，以缓存使能的D2D网络中的每个用户的历史位置信息为输入数据，通过回声状态网络算法，得出每个用户下一时刻的位置信息；根据每个用户下一时刻的位置信息，结合每个用户的当前时刻的上下文信息，通过回声状态网络算法，得出每个用户下一时刻的内容请求信息；将内容请求信息缓存在对应用户的缓存空间中；通过深度强化学习算法，以发射内容请求信息用户的发射功率最小和接收内容请求信息用户的延时最短为目标，得出缓存使能的D2D网络中各用户之间传递内容请求信息的最优策略；本发明解决了缓存使能的D2D网络中缓存内容放置命中率低以及缓存传递过程中耗能大延迟长的问题。

Description

一种基于深度强化学习的D2D网络中的缓存策略方法

【技术领域】

本发明属于缓存使能的D2D网络缓存传输技术领域，具体涉及一种基于深度强化学习的D2D网络中的缓存策略方法。

【背景技术】

近年来，设备到设备(D2D)通信在5G无线网络中引起了广泛的关注，这种技术能够使用户在一定距离内不需要基站的辅助，达到直接通信的效果，能够有效地提高能量效率以及频谱效率。

然而，随着无线设备用户的数量呈指数级增长，导致了高流量负载，这大大增加了回程链路成本和传输延迟。而缓存技术能够消除流行内容的重复数据传输，减少回程流量和提高网络吞吐量，已经成为5G发展中一个有力的候选者。

考虑到有限的可用内容存储容量和用户移动性模式，在设备中缓存什么内容对于D2D用户的无缝切换和内容下载起着重要的作用。一方面，内容放置策略直接决定了D2D通信可以卸载的总流量的一部分；另一方面，支持缓存的D2D网络中用户的缓存内容可以由多个用户同时请求，或者一个用户请求的缓存内容可以被多个D2D用户满足。因此，如何设计内容放置策略以及如何执行内容交付是非常重要的。

现有技术中，存在缓存使能的小蜂窝网络中基于强化学习(RL)的移动用户资源分配方法，该方法采用长短时序记忆(LSTM)神经网络算法来预测用户的移动性。还存在假定内容流行度完全已知的情况下，为每个基站都提出了缓存策略以最小化平均下载延迟。

然而，尽管现有的这些缓存策略在一定程度上提高了系统性能，但是这些方案都存在一定的局限性，比如如果没有对内容流行度进行预测，缓存命中率会受到了很大的限制；如果不考虑内容交付，缓存传递过程中耗能大延迟长，资源利用率就无法很好地执行。

【发明内容】

本发明的目的是提供一种基于深度强化学习的D2D网络缓存策略方法，解决了缓存使能的D2D网络中缓存内容放置命中率低以及缓存传递过程中耗能大延迟长的问题。

本发明采用以下技术方案：一种基于深度强化学习的D2D网络缓存策略方法，包括以下步骤：

以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据，通过回声状态网络算法，得出每个用户下一时刻的位置信息；

根据每个用户下一时刻的位置信息，结合其当前时刻的上下文信息，通过回声状态网络算法，得出每个用户下一时刻的内容请求信息；

将内容请求信息缓存在对应用户的缓存空间中；

以发射内容请求信息的用户功耗最小以及请求内容信息的用户接收延迟最短为优化目标，基于深度强化学习算法，通过神经网络的不断训练更新控制，得出传递缓存内容的最优策略。

进一步的，在深度强化学习算法中：

以每个用户和其他所有用户之间可能建立的D2D通信链路的传输功率、信道增益和距离为网络状态空间；

以每个用户和其他用户之间建立的D2D链路连接为网络动作空间；

以发射内容请求信息用户的发射功率最小和接收内容请求信息用户的延时最短为奖励函数。

进一步的，最优策略为π^*，且有其中，V(s,π)为深度强化学习算法中的长期效用函数，

进一步的，长期效用函数其中，γ∈[0,1)是折扣因子，(γ)^(t-1)表示t-1时刻的功率的折扣因子，表示在深度强化学习算法中t时刻，状态为s、策略为π、执行动作为a时得到的即时奖励。

进一步的，即时奖励

其中，ξ和η分别是权重系数，为t时刻用户k和用户n之间的距离，为t时刻用户n向用户k发射内容请求信息的传输功率，为t时刻用户k和用户n之间的信道增益，为t时刻用户n和用户k之间的路径损耗，δ²是t时刻高斯白噪声的功率，P为在理想信道条件下成功发射内容请求信息所需的单位距离功率。

进一步的，通过回声状态网络算法计算每个用户下一时刻的位置信息时，得出每个用户下一时刻的位置信息状态分布，选择每个位置信息状态分布中概率最高的位置信息作为对应用户的下一时刻位置信息；

通过回声状态网络算法计算每个用户下一时刻的内容请求信息时，得出每个用户下一时刻的内容请求信息状态分布，选择每个内容请求信息状态分布中概率最高的内容请求信息作为对应用户的下一时刻内容请求信息。

进一步的，将内容请求信息缓存在对应用户的缓存空间中具体方法为：

每个用户根据对应的下一时刻内容请求信息向内容服务器发出缓存请求，并接受内容服务器发出的内容请求信息对应的缓存文件，存储在每个用户的缓存空间。

进一步的，上下文信息包括用户内容请求的时间、设备类型、性别、年龄和/或职业。

本发明的有益效果是：本发明通过制定了一个新的缓存框架，可以准确预测内容流行度和用户的移动性，通过基于深度强化学习(DQN)的缓存传递的动态决策优化，以传输能耗和内容传输延时为指标，确定最优传递策略，本发明同时考虑合适的缓存位置以及最优的缓存传递策略，以使缓存在缓存使能D2D网络中传递时的能耗最小且延时最短。

【附图说明】

图1为本发明实施例中基于深度强化学习在不同学习率下的收敛性示意图；

图2为本发明实施例中在不同缓存策略下的缓存成本对比示意图；

图3为本发明实施例中基于最优缓存策略在实现延时和能耗所占不同权重的目标函数下的系统性能对比示意图。

【具体实施方式】

下面结合附图和具体实施方式对本发明进行详细说明。

本发明公开了一种基于深度强化学习的D2D网络缓存策略方法，考虑一个缓存使能的D2D网络，有个用户，组成集合假设每个用户都有一个本地存储空间来缓存具有不同内容流行度的Q文件，并且每个文件的大小都相同。当用户与缓存用户的距离小于在一定干扰范围内的某一通信阈值距离d_th时，此时用户更易从该缓存用户处获取缓存内容。然而，用户k的请求内容有可能被个邻近用户同时满足，表示为且用户i缓存的内容有可能同时被个用户请求，表示为

本发明的优化目标可以归纳为以下几点：首先，通过预测内容流行度和用户的移动性来确定提高缓存命中率的缓存策略；其次，基于深度强化学习算法实现缓存传递的动态决策，降低整个系统的传输延迟和传输能耗。

对于D2D通信链路，缓存可通过无线信道传递，由于信道增益和信道衰落的差异，不同信道的传输速率是不同的，可以由下式表示：

其中，p_k,n(t)是带有缓存内容的用户n对用户k的发射功率，g_k,n(t)和d_k,n(t)分别是用户n和用户k之间的信道增益以及距离，是路径损耗，δ²是高斯白噪声的功率。

因此，由用户k对D2D用户n发送请求以获取请求内容的延时可以被表示为：

其中，本发明只考虑内容传输过程中的延迟，从D2D用户n到用户k的请求内容传递的能耗可以被表示为：

其中，P为在理想信道条件下成功传输所请求内容所需的单位距离功率。为了使系统的内容请求延迟和功耗最小化，我们将公式定义为：

Ψ_k,n(t)＝ξT_k,n(t)+ηp_k,n(t) (4)，

其中ξ和η分别是权重系数。从用户的角度来看，传输时延T_k,n(t)应该越小越好；对于D2D发送端用户，发射功率p_k,n(t)也是越小越好。因此，本发明的目标函数可以被表示为：

其中，表示在t时刻满足用户k请求的D2D用户数。

本方法具体包括以下步骤：

考虑到用户移动性和内容请求的规律性，采用回声状态网络进行预测。回声状态网络是一种特殊的带有动态储层的递归神经网络。一般而言，回声状态网络系统模型由三层组成：输入层、储层和输出层。这三层依次由输入权重矩阵Wⁱⁿ和输出权重矩阵W^out连接，动态储层的节点由循环矩阵W连接。在训练阶段，只需要更改输出权重矩阵W^out使回声状态网络的训练过程更加简单和高效。

本发明中假设输入层、储层、输出层的节点数分别为K，M，N。当输入x(t)每次改变时，储层状态u(t)在t+1时刻更新状态方程，可以表示为：

u(t+1)＝(1-a)u(t)+af(Wⁱⁿx(t+1)+Wu(t)) (6)，

其中x(t+1)和u(t+1)分别是t+1时刻的输入和储层状态。a∈(0,1]表示泄露率，可以记忆之前的历史状态，用来改善网络对缓慢变化的时间序列的学习性能。f是内部神经元的激活函数(如tanh)。回声状态网络在t+1处的输出层状态y(t)为：

y(t+1)＝f_out(W^out[x(t+1)；u(t+1)]) (7)，

其中f_out为输出层神经元的激活函数，且[；]表示两个向量的串联。我们训练的目标是通过调整W^out最小化y(目标输出)和y(t+1)之间的差距。因此，只需要训练输出权重矩阵W^out即可。W^out可以通过下式进行计算：

其中U＝{u₁(i),u₂(i),…,u_N(i)},(i＝m,m+1,…,P)，Y＝{y(m),y(m+1),…,y(P)}分别表示在不同时刻的储层状态和输出值矩阵。U^T是矢量U的转置，是正则系数，I是单位矩阵，U-¹是矩阵U的逆。

内容流行度以及用户移动性预测：对于内容流行度和用户移动性的预测，他们有不同的输入和输出但有相同的回声状态网络模型。

在进行用户移动性预测时，以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据，即以[l_t-1,k,…,l_t-_K',_k]以及l_t,k共同决定了在下一时刻将会停留的位置，其中，l_t,k表示D2D用户k的当前位置，K'表示由回声状态网络记录的历史数据的数量。

通过回声状态网络算法，得出每个用户下一时刻的位置信息；通过回声状态网络算法计算每个用户下一时刻的位置信息时，得出每个用户下一时刻的位置信息状态分布，即r_tk＝[r_tk1,r_tk2,…,r_tkN']^T，表示下一时刻要访问的位置，其中N'表示在一个时刻的时隙数，选择每个位置信息状态分布中概率最高的位置信息作为对应用户的下一时刻位置信息。

根据每个用户下一时刻的位置信息，结合其当前时刻的上下文信息，通过回声状态网络算法，得出每个用户下一时刻的内容请求信息。x_tk＝[x_t1,x_t2,…,x_tK]^T表示D2D用户k在t时刻的内容信息上下文信息，包括用户内容请求的时间、设备类型、性别、年龄和/或职业。

通过回声状态网络算法计算每个用户下一时刻的内容请求信息时，得出每个用户下一时刻的内容请求信息状态分布，y_tk＝[p_tk1,p_tk2,…,p_tkN]来表示D2D用户k在t时刻的内容请求分布，其中，p_tkN表示D2D用户k在t时刻请求内容N的概率。选择每个内容请求信息状态分布中概率最高的内容请求信息作为对应用户的下一时刻内容请求信息。

将内容请求信息缓存在对应用户的缓存空间中，具体过程为：每个用户根据对应的下一时刻内容请求信息向内容服务器发出缓存请求，并接受内容服务器发出的内容请求信息对应的缓存文件，存储在每个用户的缓存空间。

在两次训练结束后，结合内容流行度和用户移动性对所请求的内容进行综合排序，并将缓存内容按照一定的比例分配给D2D用户。接下来，考虑D2D用户的缓存传递策略，以提高缓存利用率和网络吞吐率。

深度强化学习算法可以学习如何与环境交互以实现最大限度的长期效用函数。在本发明中，将在D2D网络中使用深度强化学习算法以实现缓存传递的动态决策和优化策略。深度强化算法由五元数组表示，即D＝{S,A,R,π,V}，其中S和A是组成有限状态和动作的集合，分别表示状态空间和动作空间。R(s,a)是在状态s∈S下执行动作a∈A得到的即时奖励。V是长期效用函数，表示不同时间下的即时奖励的累积。π被定义为一个映射关系，即π：s→a，表示在深度强化学习算法中的一个最优策略。

在深度强化学习算法中：

网络状态空间：在t时刻的决策时，D2D用户的缓存传递的网络状态可以被表示为：

在本发明中，有三种状态分量，分别是：传输功率P_k,n，信道增益g_k,n以及距离d_k,n。这里P_k,n表示在不同信道衰落下用户k和第n个D2D用户为实现信息传输所需的发射功率。

即，以每个用户和其他所有用户之间可能建立的D2D通信链路的传输功率、信道增益和距离为网络状态空间；

网络动作空间：对于深度强化学习算法，为了获得最大的即时奖励R，用户需要基于所观察到的当前环境状态和相应的策略π决定将要执行的动作。在本发明中，动作空间被表示为：

其中u_k,l表示t时刻的候选动作，表示用户k和第n个D2D用户之间的通信链路。如果u_k,l＝1，它将会被执行，反之，亦然。

即，以每个用户和其他用户之间建立的D2D链路连接为网络动作空间。

奖励函数：系统奖励代表优化目标，在本发明中，在缓存使能的D2D网络中使用深度强化学习网络算法以最小化内容传递延迟和能耗。奖励函数被定义为：

其中s和a分别是状态和动作，表示在t时刻，状态s策略π时执行动作a得到的即时奖励。

即，以发射内容请求信息用户的发射功率最小和接收内容请求信息用户的延时最短为奖励函数。

本发明中，目标是找到一个最优策略π^*最大化长期效用函数。因此，效用函数可以表示为即时奖励的折现累积，即：

其中γ∈[0,1)是折扣因子，(γ)^(t-1)表示t-1时刻的功率的折扣因子，所以最优策略π^*，且有

其中，V(s,π)为深度强化学习算法中的长期效用函数，

其中，γ∈[0,1)是折扣因子，(γ)^(t-1)表示t-1时刻的功率的折扣因子，表示在深度强化学习算法中t时刻，状态为s、策略为π、执行动作为a时得到的即时奖励。

对于深度强化学习算法，上述的通过神经网络的不断训练更新控制具体表述如下：

Q表的更新成为一个函数拟合问题，通过更新神经网络参数Θ可以获得最优效用值V

V(s,a；Θ)≈V^π(s,a) (14)

为了更新参数Θ，我们定义损失函数为

通过推导上式的损失函数，使用随机梯度下降法(SGD)算法实现更新参数Θ，可以得到最优效用V^*(s,a)。

本发明解决了缓存使能的D2D网络的缓存放置和缓存传递问题。采用一种基于回声状态网络的机器学习方法，通过多次训练，预测缓存使能的D2D用户的移动性和内容流行度，以确定缓存哪些内容在何处缓存；基于上述预测结果，提出一种深度强化学习算法优化缓存内容传递问题，通过不断的迭代，更新网络参数，得到最优的值函数以及最佳策略。解决了现有缓存技术中时延长，能耗大的问题。

实施例

本实施例中考虑一个有200个D2D用户的缓存使能D2D网络，并基于内容流行度和用户移动性预测结果将所选的内容分发到D2D存储中。为了简化仿真，在深度强化学习环境中，将每个时刻满足用户请求的D2D用户数设置为固定值4，距离d∈(0,4)，增益g∈(0,4)，P＝1。在实际应用中，这种变化随时间的变化而变化，但不影响算法的准确性。

如图1所示，为本发明基于深度强化学习算法在不同的学习率下的收敛性能图，由图可以看出，随着时间的增加，系统的奖励值逐渐地趋于一个稳定的值。在相同的训练环境下，学习率越小，系统网络性能更好。当学习率分别为0.01和0.001时，算法的收敛性非常接近，但是学习率为0.001时需要更长的训练时间。因此，在以下仿真验证中，学习率设置为0.01。

如图2所示，描述了不同缓存传递策略下需要的成本。由图可知，基于学习的缓存传递策略所需要的成本远小于随机缓存传递策略。这是因为，基于学习的缓存传递可以根据环境选择合适的动作。此外，基于深度强化学习的策略比基于Q-learning的策略波动更大，由于深度强化学习网络使用神经网络获得奖励，并且有更大的动作状态空间，所以奖励可能会比Q-learning更好一些。

如图3所示，是本发明基于深度强化学习算法在不同参数值下的系统性能图。由公式(5)可知，可以通过调整权重系数ξ和η，提高整个系统的性能。在ξ＝0.7，η＝0.3时整个系统有一个较低的延时，这有利于请求内容的D2D用户。在ξ＝0.3，η＝0.7时，整个系统的能耗降低，这有利于D2D用户进行缓存传递。因此，可以通过调整权重系数实现不同的系统优化目标，这也证明了本发明的有益效果。

Claims

1.一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，包括以下步骤：

以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据，通过回声状态网络算法，得出所述每个用户下一时刻的位置信息；

根据所述每个用户下一时刻的位置信息，结合其当前时刻的上下文信息，通过所述回声状态网络算法，得出所述每个用户下一时刻的内容请求信息；

将所述内容请求信息缓存在对应用户的缓存空间中；

以发射内容请求信息的用户功耗最小以及接收内容请求信息的用户接收延迟最短为优化目标，基于深度强化学习算法，通过神经网络的不断训练更新控制，得出传递缓存内容的最优策略。

2.如权利要求1所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，在所述深度强化学习算法中：

以每个用户和其他所有用户之间建立的D2D通信链路的传输功率、信道增益和距离为网络状态空间；

以发射所述内容请求信息用户的发射功率最小和接收所述内容请求信息用户的延时最短为奖励函数。

3.如权利要求1或2所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，所述最优策略为π^*，且有其中，V(s,π)为深度强化学习算法中的长期效用函数，s表示深度强化学习算法中的状态。

4.如权利要求3所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，其中，γ∈[0,1)是折扣因子，(γ)^(t-1)表示t-1时刻的功率的折扣因子，表示在深度强化学习算法中t时刻，状态为s、策略为π、执行动作为a时得到的即时奖励。

5.如权利要求4所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，

其中，ξ和η分别是权重系数，为t时刻用户k和用户n之间的距离，为t时刻用户n向用户k发射所述内容请求信息的传输功率，为t时刻用户k和用户n之间的信道增益，为t时刻用户n和用户k之间的路径损耗，δ²是t时刻高斯白噪声的功率，P为在理想信道条件下成功发射所述内容请求信息所需的单位距离功率。

6.如权利要求4或5所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，

通过所述回声状态网络算法计算所述每个用户下一时刻的位置信息时，得出所述每个用户下一时刻的位置信息状态分布，选择每个所述位置信息状态分布中概率最高的位置信息作为对应用户的下一时刻位置信息；

通过所述回声状态网络算法计算所述每个用户下一时刻的内容请求信息时，得出所述每个用户下一时刻的内容请求信息状态分布，选择每个所述内容请求信息状态分布中概率最高的内容请求信息作为对应用户的下一时刻内容请求信息。

7.如权利要求4或5所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，将所述内容请求信息缓存在对应用户的缓存空间中具体方法为：

所述每个用户根据对应的所述下一时刻内容请求信息向内容服务器发出缓存请求，并接受所述内容服务器发出的内容请求信息对应的缓存文件，存储在所述每个用户的缓存空间。

8.如权利要求4或5所述的一种基于深度强化学习的D2D网络缓存策略方法，其特征在于，所述上下文信息包括用户内容请求的时间、设备类型、性别、年龄和/或职业。