CN114205791A

CN114205791A - 一种基于深度q学习的社交感知d2d协同缓存方法

Info

Publication number: CN114205791A
Application number: CN202111522610.4A
Authority: CN
Inventors: 宋彬; 白雅璐; 王丹
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-18

Abstract

本发明公开了一种基于深度Q学习的社交感知D2D协同缓存方法，针对网络中冗余内容传输造成的链路拥塞问题。该发明含有以下步骤，步骤1、通信场景初始化；步骤2、对设备拥有者的社交关系强度进行多属性建模；步骤3、对D2D协作缓存过程基于强化学习过程建模；步骤4、设计深度Q网络中用于训练的Behavior网络和计算的Target网络的网络结构；步骤5、基于已设定的系统模型，利用深度强化学习的算法使智能体和环境交互进行迭代学习输出最优策略，即设备缓存资源分配和D2D内容分发的最佳决策。该技术不仅可以确保蜂窝用户的正常通信，还可以在满足用户个人意愿的前提下最小化系统平均时延，最大程度提高用户满意度。

Description

一种基于深度Q学习的社交感知D2D协同缓存方法

技术领域

本发明涉及通信技术领域，特别是涉及一种基于深度Q学习的社交感知D2D协同缓存方法。

背景技术

随着移动通信技术的快速发展和用户设备的海量接入，大量计算密集和时延敏感的移动应用的计算和通信任务造成了网络中移动数据流量爆炸性增长，这导致基站(BS)和核心网之间的回程链路负担沉重。预计2022年，互联网近一半的设备和连接将具备视频功能，届时多媒体数据将占总IP流量的82％以上。有研究证实，用户对互联网中内容的请求往往是集中的，其中对20％的流行内容的请求占据了网络流量的80％，由此产生的重复且密集的计算和通信给基站和核心网之间的回程链路带来很大负担。

D2D通信技术通过在设备之间建立直接的通信链接传输数据。与蜂窝通信相比，它允许相邻的设备直接共享内容，并重用蜂窝网络的信道资源来卸载数据流量。此外，D2D设备之间的短距离使得传输过程中的延迟和功耗更低。随着设备存储和传输能力的不断提高，分散的设备级缓存成为一种不可忽视但尚未完全开发利用的大型公共虚拟缓存资源，通过D2D通信共享多媒体内容成为可能。借助D2D的协作缓存是实现流量本地化的一种有效技术，同时也提供了一种在应对请求异步的同时利用固有的内容重用的方法。具体而言，借助网络中众多分散的移动缓存资源，可以在非高峰通信时段提前缓存热门内容。在通信高峰期，用户可借助D2D从邻近的已获得媒体业务的用户终端处获得该媒体内容，以此缓解运营商蜂窝网络的下行传输压力。由于设备是由人携带的，赋予物理设备以社交属性。因此，本发明通过感知用户间社交关系来指导构建支持D2D的协作缓存网络，实现系统性能和用户满意度之间的最佳平衡，该方法可以充分卸载网络流量以提高链路利用率并缩短用户获取视频内容的时延，同时充分考虑用户贡献缓存资源的意愿以提高用户满意度，最终更进一步地优化D2D网络中缓存内容的时空分布，提升缓存命中率与网络的传输效率。

实现以上系统优化操作过程中面临一系列决策问题，强化学习在解决通信网络中的决策问题方面具有一些优势，但它仍然具有局限性。由于通信场景的复杂性和用户业务请求的不确定性，目前采用的基于Q学习的强化学习方法会面临状态动作空间大，强化学习性能较差并且其收敛速度可能迟缓、学习结果不稳定等严峻问题。因而导致系统阻塞率较高、吞吐量低的情况，难以满足实际通信需求。

因此提出了一种从方案上可以实现在优化网络缓存资源分配的同时满足用户提供资源的意愿，从技术上可以解决现有技术难以解决的高维状态空间以及复杂离散动作空间的问题，实现最小化系统时延的目标。

发明内容

本发明主要针对网络中冗余内容传输造成的链路拥塞问题，提供一种提升缓存命中率与网络的传输效率的基于深度Q学习的社交感知D2D协同缓存方法。

本发明的技术解决方案是，提供一种具有以下步骤的基于深度Q学习的社交感知D2D协同缓存方法：含有以下步骤，

步骤1、通信场景初始化；

步骤2、对设备拥有者的社交关系强度进行多属性建模；

步骤3、对D2D协作缓存过程基于强化学习过程建模；

步骤4、设计深度Q网络中用于训练的Behavior网络和计算的Target网络的网络结构；

步骤5、基于已设定的系统模型，利用深度强化学习的算法使智能体和环境交互进行迭代学习输出最优策略，即设备缓存资源分配和D2D内容分发的最佳决策。

优选地，所述步骤1包含以下分步骤：

步骤1.1、设定一小区内共有M个移动用户，每个用户有两种通信模式分别是蜂窝通信和D2D通信，分别计算用户选择两种通信方式的传输速率；

步骤1.2、设定通信信道为瑞利衰落信道，自由空间传播路径损耗指数为α，将连续信道增益离散化分为L个等级，每个信道资源块带宽都相同；将功率分为K个功率级供基站选择，并为不同信道分配相应的功率级来传输数据；

步骤1.3、将每个移动设备的内存空间划分为C个缓存资源块，每个资源块大小都相同；设定用户请求视频内容的概率服从齐普洛夫分布，限制可供用户请求的视频内容为D个，并且假设每个内容所占的比特大小S都相同。

优选地，所述步骤2中将社区内用户建模为一张社交关系图G(V,E)，该图由一个点集V和一个边集E组成，以用户的终端映射为点集V；用户之间的社交强度映射为边集E，强度大小是用户兴趣相似度和用户信任程度的加权和，用0-1之间的数值表示；建模完成的社交关系图将作为网络的先验知识以指导具体缓存决策。

优选地，所述步骤3包含以下分步骤：

步骤3.1、将基站侧的服务器设置为智能体，负责小区内通信系统的全局控制，通过监控链路流量、信道条件和用户行为的网络信息，决策如缓存放置、链路建立和资源分配的网络控制操作；

步骤3.2、定义状态转移矩阵，内容是由当前状态转移到下一状态的概率，智能体的状态包括信道增益和发射功率状态，用于表示当前环境信息，对所有用户设备和信道资源块进行编号，智能体掌握系统中所有设备的信道资源占用和功率等级的信息；

步骤3.3、智能体的动作包括设备缓存块的占用或替换以及设备之间D2D通信链路的建立；设备缓存动作用二值函数表示，若用户缓存块已占用时取值为1，否则为0；链路建立动作用二值函数表示，两用户建立D2D链路时取值为1，否则为0；

步骤3.4、设计奖励函数实现系统优化目标，考虑D2D用户间协作缓存和内容交付时用户信噪比，发射功率和传输速率等因素对传输时延的影响，定义D2D用户协作缓存的约束条件为：

约束条件一、用户的信噪比大于正常通信需求的最低门限值τ_C；

约束条件二、用户传输数据满足当前业务的最低传输速率要求；

约束条件三、用户可缓存的内容不超过设备的最大缓存空间；

约束条件四、D2D用户所选的发射功率级不超过其在信道上传输的最大功率。

优选地，所述步骤4中用于训练的Behavior网络和用于计算的Target网络共有五层，包括三层卷积层用于提取特征和两层全连接层，最后一层分为两个向量，分别表示两个输出值，即可选信道的Q值和可选功率级的Q值。

优选地，所述步骤5含有以下步骤，

步骤5.1、DQN算法初始化，

步骤5.1.1、初始化样本回放缓存区的容量为D，得到一个长度为D的空队列，用来存储智能体与环境交互得到的序列，样本回放缓存区用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息；

步骤5.1.2、初始化智能体的状态模型和动作模型，得到相应状态矩阵和动作矩阵；

步骤5.1.3、随机设置Behavior网络参数θ和Target网络参数θ-使网络可用；

步骤5.2、环境参数初始化，

步骤5.2.1、初始化用户距离，设置小区半径为R，基站在小区中心位置，移动用户在小区中服从泊松点分布，计算得到所有用户到基站和用户之间的距离；

步骤5.2.2、创建初始状态矩阵，为初始化后得到的状态矩阵和动作矩阵赋值，相应信道和发射功率被选择时为1否则为0，且每个用户只占用一个信道；用户缓存块被占用时置1，每个用户的缓存向量包含有限个1；

步骤5.3、将状态矩阵和社交强度矩阵输入训练网络中进行迭代学习得到最优策略。

优选地，所述所述步骤5.3包含以下分步骤：

步骤5.3.1、将当前状态输入Behavior网络，经过三层卷积层提取特征和两层全连接层，得到两个输出向量分别表示所有缓存块占用或替换的动作和选择设备建立D2D链路的动作的Q值；

步骤5.3.2、每个智能体根据ε-greedy贪心算法来平衡探索和利用，决定缓存放置和用户间通信链路的建立，即智能体以概率ε选取Q值最大的动作，以概率1-ε随机选择，更新当前动作矩阵；

步骤5.3.3、执行所选动作，得到新一轮的状态；

步骤5.3.4、计算D2D通信的信噪比：用户设备占用信道传输数据的功率与链路增益的乘积定义为该设备信号功率，与该用户选择同一信道资源传输数据的其它D2D用户的功率与链路增益乘积之和，加上蜂窝用户的功率与链路增益乘积，以及加性高斯白噪声和邻近小区的干扰功率视为该设备的总干扰功率，信号功率除以总干扰功率即为该智能体的信噪比；

步骤5.3.5、计算蜂窝通信的信噪比：用户设备占用信道传输数据的功率与链路增益的乘积定义为该设备信号功率，蜂窝用户的功率与链路增益乘积加上加性高斯白噪声和邻近小区的干扰功率视为该设备的总干扰功率，信号功率除以总干扰功率即为该智能体的信噪比；

步骤5.3.6、计算用户通信的数据传输速率：根据用户选择的信道资源带宽和用户通信的信噪比，利用香农公式分别计算蜂窝通信和D2D通信的数据传输速率；

步骤5.3.7、计算选择当前动作后更新的状态的系统用户平均时延：根据用户请求内容所占的比特大小和数据传输速率，二者相除即为用户该次传输所消耗的时延；系统中所有用户每次请求一个内容的概率与传输该内容所消耗的时延乘积之和即为系统的用户平均时延；

步骤5.3.8、检查蜂窝用户信噪比和容量是否满足四个约束条件，求得基于上一状态所选动作的奖励值；

步骤5.3.9、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到样本回放缓存区中；

步骤5.3.10、从样本回放缓存区中采样一批样本，将采样的样本的状态分别送入Behavior网络和Target网络分别计算缓存占用动作和D2D链路建立动作的估计Q值和实际Q值；

步骤5.3.11、根据目标函数(缓存块占用及替换动作实际Q值-缓存块占用及替换动作估计Q值)²和(设备建立D2D链路动作实际Q值-设备建立D2D链路动作估计Q值)²的平均值进行梯度下降法求解更新Behavior网络参数θ；

步骤5.3.12、将更新后的状态设置为当前状态进行下一次迭代直到学习结束；

步骤5.3.13、每隔固定的迭代次数更新Target网络参数θ一直到学习结束；

步骤5.3.14、输出学习到的最优策略，即设备缓存资源分配和D2D内容分发的最佳决策。

与现有技术相比，本发明基于深度Q学习的社交感知D2D协同缓存方法具有以下优点：

1、基于多属性社交关系强度考虑D2D协作缓存和内容交付过程，一方面考虑用户的兴趣相似度，兴趣相似的用户往往倾向于请求相同的内容，提前缓存这部分内容可以减少网络中冗余流量，减轻链路负担；另一方面考虑用户信任度，更符合用户为亲密用户贡献资源的意愿，提高缓存命中率的同时实现个性化的资源分配策略。

2、利用深度强化学习算法使基站侧服务器自适应地分配信道和功率资源、部署缓存资源并指导用户通信链路的建立，这种集中式的方式可以在防止用户数据泄露的同时持续高效地实现网络的全局控制和系统性能优化。

3、在多任务联合分配的场景下，采用深度Q网络代替Q表来指导智能体更新策略解决了交互序列具有相关性会使得模型不稳定的问题和场景状态空间和动作空见过大的问题。网络部分采用卷积神经网络(CNN)导出近似Q值来提取学习三维矩阵的特征，并且三层卷积层和两层全连接层后输出两个向量，分别表示两个输出值，这是现有的强化学习Q学习方法难以实现的。

4、不仅可以确保蜂窝用户的正常通信，还可以在满足用户个人意愿的前提下最小化系统平均时延，最大程度提高用户满意度。

5、优化目标是使智能体自主学习缓存放置和通信链路建立的策略以达到优化系统时延性能的目标，最终提高用户满意度。强化学习的目的是最大化累计奖励，而系统的优化目标是最小化用户时延，因此，定义奖励函数为系统中所有用户平均时延的倒数。除此之外，为了保证通信链路的通信质量，满足业务的资源需求，本发明考虑了D2D用户间协作缓存和内容交付时用户信噪比，发射功率和传输速率等因素对传输时延的影响，定义了D2D用户协作缓存的约束条件。

6、主要针对网络中冗余内容传输造成的链路拥塞问题，为了进一步实现系统性能和用户满意度之间的最佳平衡，提供一种实现度高且符合用户个性化需求的缓存资源分配，可以充分卸载网络流量以提高链路利用率并缩短用户获取视频内容的时延，同时充分考虑用户贡献缓存资源的意愿以提高用户满意度，最终更进一步地优化D2D网络中缓存内容的时空分布，提升缓存命中率与网络的传输效率。

附图说明

图1是本发明的神经网络结构示意图；

图2是本发明的实现流程示意图；

图3是本发明的仿真实验针对视频内容传输性能的结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面结合附图和具体实施方式对本发明基于深度Q学习的社交感知D2D协同缓存方法作进一步说明：本实施例的主体技术思路是：在D2D场景中将基站侧服务器看作智能体作为一个决策中心，智能体通过与环境交互，获取当前状态，并采取行动，包括设备缓存资源分配和D2D链路建立的动作，根据环境的奖励反馈来更新策略，获取一种最优的缓存资源分配方案，使得系统用户平均时延最小。智能体与环境交互，然后对环境执行动作，选择用户缓存合适的视频内容并与合适的用户建立D2D通信链路，依照状态转移概率改变状态同时环境给出奖励反馈。

为实现系统性能优化和用户满意度的平衡，本发明基于多属性社交关系强度考虑D2D协作缓存和内容交付过程，在某一时刻，用户请求一个视频内容，先查询自身设备缓存是否缓存该内容，如果已缓存则直接获得，此时传输时延为零；若自身尚未缓存，则查询D2D最大通信范围内的设备是否缓存该内容，再从符合条件的设备中选择社交强度最强的建立D2D链路从而获得视频内容；若以上两种情况都失败，则通过蜂窝通信向基站发送请求，通过基站连接到互联网获取该视频内容。在这个过程中，设备的缓存在动态地被占用和替换，需要以最大限度缩短系统中用户的平均时延为目标学习最佳的缓存策略。由于无线信道的时变性导致了学习过程中状态空间和动作空间十分复杂。巨大的状态空间和动作空间使得通过Q学习获取最优策略的方法变得困难，因此本发明采用深度Q网络(Deep Q Network：DQN)来学习在高维输入的情况下，智能体获取最优策略的方案。

如图2所示，本发明的具体实现步骤如下。

步骤一、通信场景初始化；

步骤1.1、设定一社区内共有M个移动用户，每个用户有两种通信模式分别是蜂窝通信和D2D通信。用户选择蜂窝通信的传输速率计算如下：

Rate_C＝B_c log₂(1+SINR_C)

Rate_C代表蜂窝用户的传输速率，B_c代表该蜂窝用户占用的信道资源带宽，SINR_C代表该蜂窝用户此时的信噪比；

用户选择D2D通信的传输速率计算如下：

Rate_D＝B_D log₂(1+SINR_D)

Rate_D代表D2D用户的传输速率，B_D代表该蜂窝用户占用的信道资源带宽，SINR_D代表该D2D用户此时的信噪比；

步骤1.2、设定通信信道为瑞利衰落信道，自由空间传播路径损耗指数为α；将连续信道增益离散化分为L个等级，每个信道资源块带宽都相同；将功率分为K个功率级供基站选择，并为不同信道分配相应的功率级来传输数据；每个用户均可选择已划分好的信道资源，并在这些信道资源上选择特定的功率级来传输数据，用户选择的功率级可以相同，也可以不同；

步骤1.3、将每个移动设备的内存空间划分为C个缓存资源块，每个资源块大小都相同；设定用户请求视频内容的概率服从齐普洛夫分布，限制可供用户请求的视频内容为D个，并且假设每个内容所占的比特大小S都相同；

步骤二：对设备拥有者的社交关系强度进行多属性建模；

将社区内用户建模为一张社交关系图G(V,E)，该图由一个点集V和一个边集E组成,以用户的终端映射为点集V；用户之间的社交强度映射为边集E，强度大小为用户兴趣相似度和用户信任程度的加权和，用0-1之间的数值表示；建模完成的社交关系图将作为网络的先验知识以指导具体缓存决策。

步骤三、对D2D协作缓存过程基于强化学习过程建模；

步骤3.1、将基站侧的服务器设置为智能体，负责系统性能优化的实时决策；通过监控链路流量、信道条件和用户行为等网络信息，决策如缓存放置、链路建立和资源分配等网络控制操作；

步骤3.2、定义状态转移矩阵，内容是由当前状态转移到下一状态的概率；智能体的状态包括信道增益和发射功率状态，用于表示当前环境信息；对所有用户设备和信道资源块进行编号，智能体掌握系统中所有设备的信道资源占用和功率等级的信息；

步骤3.4、奖励函数设计是实现系统优化目标的关键。本发明的优化目标是使智能体自主学习缓存放置和通信链路建立的策略以达到优化系统时延性能的目标，最终提高用户满意度。因为强化学习的目的是最大化累计奖励，而系统的优化目标是最小化用户时延，因此，本发明定义奖励函数为系统中所有用户平均时延的倒数。除此之外，为了保证通信链路的通信质量，满足业务的资源需求，本发明考虑D2D用户间协作缓存和内容交付时用户信噪比，发射功率和传输速率等因素对传输时延的影响，定义D2D用户协作缓存的约束条件为：

约束条件三、用户可缓存的内容不可超过设备的最大缓存空间；

约束条件四、D2D用户所选的发射功率级不可超过其在信道上传输的最大功率；

步骤四、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构；

本发明设计DQN中的用于训练的Behavior网络和用于计算的Target网络采用卷积神经网络(CNN)，共有五层，包括三层卷积层用于提取特征和两层全连接层，最后一层分为两个向量，分别表示两个输出值，即可选信道的Q值和可选功率级的Q值，避免现有Q网络的单输出层造成动作信息紊乱的情况。网络结构如图1所示。

步骤五、基于已设定的系统模型，利用深度强化学习的算法使智能体和环境交互进行500-800次迭代学习输出最优策略，即设备缓存资源分配和D2D内容分发的最佳决策；迭代次数对于不同数量级的系统模型是不一样，量级更大的系统模型的次数会更多，即环境越复杂学习时间会越长；

步骤5.1、DQN算法初始化；

步骤5.1.1、初始化样本回放缓存区(Replay Buffer)的容量为D，得到一个长度为D的空队列，用来存储智能体与环境交互得到的序列，样本回放缓存区(Replay Buffer)用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息的，以便于之后从中采样计算误差并训练网络，避免神经网络输入数据的相关性导致整体学习效果不稳定的问题；

步骤5.1.2、初始化智能体的状态模型和动作模型，得到相应状态矩阵和动作矩阵；本发明中状态包括M个用户设备的信道增益和发射功率状态，每个用户有L个信道资源块可供选择，传输功率分为K级，则初始化的状态矩阵为M*(L+K)的二维全零矩阵。动作模型包括设备针对D个可请求视频内容的缓存资源分配动作和用户间的D2D链路建立动作，初始化的动作矩阵为M*(D+M)的二维全零矩阵。

步骤5.2、环境参数初始化，

步骤5.2.2、创建初始状态矩阵，为初始化后得到的状态矩阵和动作矩阵赋值；全零初始状态矩阵每一行表示一个用户的状态向量，其中前L列表示用户可选的信道增益，后(K-L)列表示用户可选的发射功率；相应信道和发射功率被选择时为1否则为0且每个用户只能占用一个信道；

步骤5.3、将状态矩阵和社交强度矩阵输入训练网络中进行迭代学习得到最优策略；

步骤5.3.3、执行所选动作，得到新一轮的状态；

步骤5.3.4、计算D2D通信的信噪比：用户设备占用信道传输数据的功率与链路增益的乘积定义为该设备信号功率，与该用户选择同一信道资源传输数据的其它D2D用户的功率与链路增益乘积之和，加上蜂窝用户的功率与链路增益乘积，以及加性高斯白噪声和邻近小区的干扰功率视为该设备的总干扰功率，信号功率除以总干扰功率即为该智能体的信噪比，其中，邻近小区的干扰功率与邻近小区内用户的发射功率和距离有关，功率越小，距离越远，干扰越小；

步骤5.3.7、计算当前选择动作后更新的状态的系统用户平均时延：根据用户请求内容所占的比特大小和数据传输速率，二者相除即为用户该次传输所消耗的时延；系统中所有用户每次请求一个内容的概率与传输该内容所消耗的时延乘积之和即为系统的用户平均时延；

步骤5.3.9、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到Replay Buffer中；

步骤5.3.10、从Replay Buffer中采样一批样本，将采样的样本的状态分别送入Behavior网络和Target网络分别计算所缓存占用动作和D2D链路建立动作的估计Q值和实际Q值；

步骤5.3.13、每隔固定的迭代次数更新Target网络参数θ-直到学习结束。

步骤5.3.14、输出学习到的最优策略，即设备缓存资源分配和D2D内容分发的最佳决策。最终输出的最佳动作矩阵每一行表示一个用户的动作向量，其中前D列表示用户是否缓存对应内容，用户缓存被该内容占用时置1，由于设备存储空间有限，每个用户的缓存向量中1的个数是有限的，即在在前D列只有有限个1；后M列表示用户之间是否建立D2D链路，当两用户建立链路时为1。

上述步骤主要说明了缓存放置和D2D链路建立的过程以及利用DQN更新学习最佳决策的步骤。在训练更新网络参数部分，DQN使用步骤四中设计的CNN来近似所选缓存决策和链路建立决策的Q值函数，通过上一步更新的网络参数计算所得的动作集的Q值来学习策略从而选择当前状态下的最优动作。基站侧服务器通过与环境不断交互动态更新动作，实现对该通信系统的全局控制，最终可以保证用户正常通信的同时最小化系统平均时延，即最大程度提高用户满意度。

下面结合仿真实验对本发明作进一步说明，针对一个小区进行具体实验验证。本案例假设有6个D2D用户对随机分布在同一小区内，这些D2D用户复用一个蜂窝用户的频谱资源，总频谱带宽为180kHz，被分为10个信道资源块，功率被分为[0,4.8,9.6,14.4,19.2,24](dB)5个功率级，每个D2D用户发射机仅可选一个功率级来发送数据，蜂窝用户发射功率固定。

深度神经网络如图1所示。主要仿真参数如表1所示。

本发明的硬件平台为：Intel Core i7-6700 CPU@3.40GHz、8GB RAM、NvidiaQuadro P2000 GPU，软件平台：Linux16.04操作系统、Python3.6，Pytorch0.4.0。

表1实施案例实验参数

图3显示了在折扣因子为0.99的情况下，采用基于深度Q学习的社交感知D2D协同缓存方法进行网络缓存放置和D2D通信链路建立的决策的收敛性能。从图3中可以看出随着迭代次数增加，累计奖励逐渐增加，大约在100次达到稳定值。由于累积奖励设定为系统用户平均时延的倒数，图3表示随着训练的进行实现了系统时延最小化的目标。针对不同类型内容大小不同，智能体学习得到最终的期望奖励值不同，收敛速度也不尽相同。比如与本文的视频内容相比，若传输文档、图片或音频等尺寸较小的内容时，最终达到的时延会相应减少。采用不同方式缓存的最终奖励值和收敛速度也有很大差别，比如不采用社交关系指导缓存资源的分配的情况下，系统的平均时延会增加，这是因为盲目的缓存方式造成了很低的缓存命中率，用户建立D2D通信的频率减少，而频繁地与基站通信会相应地增加传输时延。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：含有以下步骤，

步骤1、通信场景初始化；

步骤2、对设备拥有者的社交关系强度进行多属性建模；

步骤3、对D2D协作缓存过程基于强化学习过程建模；

2.根据权利要求1所述的基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：所述步骤1包含以下分步骤：

3.根据权利要求1所述的基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：所述步骤2中将社区内用户建模为一张社交关系图G(V,E)，该图由一个点集V和一个边集E组成，以用户的终端映射为点集V；用户之间的社交强度映射为边集E，强度大小是用户兴趣相似度和用户信任程度的加权和，用0-1之间的数值表示；建模完成的社交关系图将作为网络的先验知识以指导具体缓存决策。

4.根据权利要求1所述的基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：所述步骤3包含以下分步骤：

5.根据权利要求1所述的基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：所述步骤4中用于训练的Behavior网络和用于计算的Target网络共有五层，包括三层卷积层用于提取特征和两层全连接层，最后一层分为两个向量，分别表示两个输出值，即可选信道的Q值和可选功率级的Q值。

6.根据权利要求1所述的基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：所述步骤5含有以下步骤，

步骤5.1、DQN算法初始化，

步骤5.2、环境参数初始化，

7.根据权利要求6所述的基于深度Q学习的社交感知D2D协同缓存方法，其特征在于：所述所述步骤5.3包含以下分步骤，

步骤5.3.3、执行所选动作，得到新一轮的状态；