CN116155991A - 一种基于深度强化学习的边缘内容缓存与推荐方法及系统 - Google Patents

一种基于深度强化学习的边缘内容缓存与推荐方法及系统 Download PDF

Info

Publication number
CN116155991A
CN116155991A CN202310045386.7A CN202310045386A CN116155991A CN 116155991 A CN116155991 A CN 116155991A CN 202310045386 A CN202310045386 A CN 202310045386A CN 116155991 A CN116155991 A CN 116155991A
Authority
CN
China
Prior art keywords
content
user
representing
users
caching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310045386.7A
Other languages
English (en)
Other versions
CN116155991B (zh
Inventor
俞东进
吴桐
王东京
黄彬彬
石恩雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bindian Information Technology Co ltd
Hangzhou Dianzi University
Original Assignee
Hangzhou Bindian Information Technology Co ltd
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bindian Information Technology Co ltd, Hangzhou Dianzi University filed Critical Hangzhou Bindian Information Technology Co ltd
Priority to CN202310045386.7A priority Critical patent/CN116155991B/zh
Publication of CN116155991A publication Critical patent/CN116155991A/zh
Application granted granted Critical
Publication of CN116155991B publication Critical patent/CN116155991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度强化学习的联合边缘缓存与推荐方法及系统,该方法首先构建移动节点模型计算用户之间的D2D传输速率、用户偏好和用户间的相似性。其次构建D2D传输模型,计算出传输时长、社会关系以及接触率。然后构建推荐和请求模型和内容服务提供商模型,内容服务提供商通过蜂窝链路将内容传输给用户。再然后构建优化目标函数,预测缺失的评分,并将内容缓存与推荐建模为马尔可夫决策过程。最后完成系统与环境的交互以及参数的更新。本发明获得更准确的评分预测,将联合内容缓存和推荐问题描述为非线性整数规划问题,保证内容缓存和推荐命中率的同时,使代理成本最小化,并帮助智能体获得近似最优解。

Description

一种基于深度强化学习的边缘内容缓存与推荐方法及系统
技术领域
本发明涉及计算机科学与通信领域,尤其涉及一种基于深度强化学习的联合边缘缓存与推荐方法及系统。
背景技术
智能设备的快速增长和无线通信技术的发展,不仅给社会带来了辉煌的便利,也引发了流量的爆炸式增长。根据思科和爱立信的报告,2019年全球的请求流量为38艾字节/月,到2022年将增至77.5艾字节/月,到2025年将增至160艾字节/月。因此,寻找一种有前景的方法来减轻蜂窝网络的流量负担成为内容服务中心(内容服务提供商)的当务之急。
近年来,由于对非实时应用和数据的需求急剧增加,在网络边缘缓存内容被认为是一种很有前途的解决方案。边缘缓存应用网络的互补技术,鼓励具有无线接口的移动设备进行间歇性通信,将流行内容提前缓存到边缘,并通过设备到设备(D2D)链接与相邻节点共享。与传统的蜂窝链路数据卸载方式不同,内容服务提供商首先将内容传输到一些移动节点上,本发明将这些节点称为助手,然后由助手进行进一步的帮助分发用户感兴趣的内容。研究证明,通过边缘缓存和D2D通信可以显著缓解蜂窝网络中的流量压力。传统的边缘缓存算法通常优先缓存流行度较高的内容,理论上确实可以提高缓存的命中率。然而,移动设备的缓存容量是有限的,少数用户可能会在内容偏好模式上产生较大的变化。因此,如果没有精心设计的策略,边缘缓存的效率和性能将受到极大的限制。
近十年来,个性化推荐在日常生活中得到了广泛的应用。推荐系统的目的是帮助用户在面对大量信息的情况下找到最符合自己偏好的商品。推荐系统具有重塑不同用户内容请求概率的能力。之前的研究表明,YouTube和Netflix上50%和80%的请求分别是在推荐下发出的。同样,认为推荐系统也可以用来提高边缘缓存的命中率。但是,很多用户不愿意对内容进行评价,导致评分矩阵非常稀疏,这会降低用户偏好预测的准确性。同时,用户的移动性使得预测用户的移动和相互接触变得困难。更糟糕的是,请求的时效性还要求内容在可容忍的延迟内交付给用户。因此,有必要利用移动用户和内容之间的关系来设计高效的缓存和推荐策略。
现有技术关于D2D卸载中联合考虑内容缓存和推荐的研究通常直接使用原始评分矩阵来获取用户的偏好。然而,大多数用户不愿意评价内容,这导致了一个非常稀疏的评级矩阵。实际上,几乎所有公共数据集的稀疏性都超过了95%。如果使用这些数据集直接预测用户的偏好,结果肯定是不准确的。因此,需要解决稀疏的评级矩阵问题。现有技术主要是从用户的角度,从缓存命中率和蜂窝网络中的流量来阐述这个问题,其中一些具有缓存能力的用户或ap充当缓存节点,其他被请求的用户充当消费者。从CSC的角度来看,联合考虑内容缓存和推荐策略的成本约束来提高D2D卸载的性能仍然是可行的。现有技术大多集中在准静态系统的性能提升上,不能直接应用于动态系统。在D2D传输模型中,现有技术都假设D2D通信中的节点是静态的,或者一次可以完全传递内容。考虑资源需求的不确定性和动态性,以及节点的移动性和有限的缓存容量,开发缓存和推荐策略以最小化CSC的成本是一个非线性整数规划(NLIP)问题,属于NP困难。传统的优化方法由于其巨大的复杂性,可能不适用于动态系统中的智能联合决策。
现有的联合考虑内容缓存和推荐的工作主要从蜂窝网络中缓存命中率和流量的角度来阐述问题,而忽略了内容缓存和推荐过程中智能体CSC的实际成本。同时,在计算用户偏好时没有考虑数据稀疏导致的预测不准确的问题。此外,现有的工作没有考虑节点的移动性。事实上,边缘缓存网络中的节点在大多数情况下都不是固定在一个位置的。它们通常是随机移动的,一对节点之间的接触也是机会性的。因此,准确预测移动节点未来的移动轨迹对内容缓存和推荐有很大的影响。
根据前面的分析,推荐可以极大地影响用户的请求。然而,还需要解决一些挑战:(i)如何根据稀疏评分矩阵准确推荐内容?(ii)如何在机会型移动网络中设计有效的缓存和推荐策略?(iii)如何在不同情景下使内容服务提供商的成本最小化?
发明内容
为了克服上述现有技术的不足,本发明考虑一个蜂窝网络场景,该场景包含一个内容服务提供商,一个基站和一些移动用户,并提供了一种基于深度强化学习的联合边缘缓存与推荐方法及系统,可有效解决上述问题。
本发明具体采用的技术方案如下:
设计一种联合内容缓存和推荐系统,所述联合容缓存和推荐系统的目标是利用边缘缓存和内容推荐最小化内容服务提供商的传输成本,为解决评分矩阵稀疏的问题,所述联合容缓存和推荐系统首先提出一种基于宽度增量学习的评分预测算法,接着提出一种基于深度强化学习的内容缓存与推荐算法。
一种基于深度强化学习的边缘内容缓存与推荐方法,包括以下步骤:
1.构建移动节点模型
1.1设定
Figure BDA0004055182130000031
为用户i在时隙t的缓存状态,
Figure BDA0004055182130000032
表示用户i在时隙t缓存了内容f,反之
Figure BDA0004055182130000033
表示用户i在时隙t的缓存能力,作为用户i的缓存约束。
1.2计算用户之间的D2D传输速率
Figure BDA0004055182130000034
本发明采用正交模型,将每个用户i的带宽划分为ni个相等的子带宽。在进行D2D通信时,为每一个用户分配不重叠的正交无线通信资源,以此来防止信道间的相互干扰。D2D的传输速率
Figure BDA0004055182130000035
的计算公式如下:
Figure BDA0004055182130000036
其中Bi表示用户i的可用带宽,
Figure BDA0004055182130000037
表示用户i和j之间在时隙t的信道增益,Pi Trans表示用户i的D2D传输功率,ωt表示在时隙t邻居的同信道干扰水平,σ2是加性高斯白噪声。
1.3计算用户偏好:令
Figure BDA0004055182130000038
RiF表示用户i对内容的评价,其中Rif∈{1,2,3,4,5}。评分越高代表兴趣程度越高。
Figure BDA0004055182130000039
表示内容f与类别k的关联度。于是可以根据以下公式计算出用户对类别的偏好:
Figure BDA00040551821300000310
同时,令
Figure BDA00040551821300000311
表示内容对类别的关联度,则可以计算出用户对内容的偏好,计算公式如下:
Figure BDA00040551821300000312
其中
Figure BDA00040551821300000313
Figure BDA00040551821300000314
分别表示用户i对类别的偏好向量和对内容的偏好向量。
Figure BDA00040551821300000315
表示用户偏好的阈值,只有当用户对内容的偏好高于此阈值时才会请求该内容。
1.4具有相同评分的用户具有更高的相似度,则利用余弦相似度可以计算出用户之间的相似性。
2.构建D2D传输模型
本发明根据用户的历史接触记录,将每对用户的接触时长建模为帕累托分布。
2.1令Df表示内容f的大小,则根据如下公式可以计算出用户j对内容f的请求可以被用户i满足的传输时长:
Figure BDA0004055182130000041
为了建模用户之间发生机会接触的过程,本发明用一个随机变量
Figure BDA0004055182130000042
表示用户i和j之间发生λij次接触所需的时间,ηij表示用户i和j之间的接触概率,用
Figure BDA0004055182130000043
表示用户i和j在容忍时延T0内发生接触且能完全通过D2D传输内容f的概率,又用
Figure BDA0004055182130000044
表示用户j对内容f的请求可以在λij次接触中被用户i满足的概率。令Pijf表示用户j对内容f的请求可以被用户i满足的概率,其计算公式如下:
Figure BDA0004055182130000045
其中,
Figure BDA0004055182130000046
表示用户i和j之间最大的接触次数,
Figure BDA0004055182130000047
表示用户j对内容f的请求无法在前k-1次接触中被用户i满足的概率。
2.2本发明认为用户更愿意将内容传递给关系密切的人,并假设偏好相似的用户具有更强的社会关系。令
Figure BDA0004055182130000048
表示用户i和j之间的社会关系,其计算公式如下:
Figure BDA0004055182130000049
其中,ηij表示用户i和j之间的接触率,其计算公式如下:
Figure BDA00040551821300000410
其中
Figure BDA00040551821300000411
表示用户之间的接触间隔时间。
3.构建推荐和请求模型
推荐系统可以为用户提供更多的选择,即用户的请求会由其偏好和推荐共同决定。
3.1令
Figure BDA00040551821300000412
表示在时隙t的推荐决策,
Figure BDA00040551821300000413
表示向用户i推荐内容f,反之
Figure BDA0004055182130000051
3.2令
Figure BDA0004055182130000052
表示用户愿意接受推荐的概率,则用户i在时隙t请求内容f的概率可由如下公式计算:
Figure BDA0004055182130000053
4.构建内容服务提供商模型
内容服务提供商通过蜂窝链路将内容传输给用户。
4.1
Figure BDA0004055182130000054
表示在时隙t的缓存决策,
Figure BDA0004055182130000055
表示用户i被选择成为内容f的缓存节点,反之
Figure BDA0004055182130000056
当用户i被选择成为缓存节点,则将立刻从内容服务提供商获得被缓存的内容。
4.2内容服务提供商的传输成本计算公式如下:
Figure BDA0004055182130000057
其中α表示内容服务提供商通过蜂窝网络传输内容的单位成本;
Figure BDA0004055182130000058
表示不进行D2D卸载时,内容服务提供商的总成本,其计算公式如下:
Figure BDA0004055182130000059
Figure BDA00040551821300000510
表示在时隙t通过D2D通信可以传输的总流量,其计算公式如下:
Figure BDA00040551821300000511
其中
Figure BDA00040551821300000512
表示在缓存和推荐决策下的分发潜力,其计算公式如下:
Figure BDA00040551821300000513
其中,其中
Figure BDA00040551821300000514
表示是否将用户i选择成为缓存节点来缓存内容f;
Figure BDA00040551821300000515
表示是否在时隙t为用户i推荐f;
Figure BDA00040551821300000516
表示用户j在时隙t请求内容f的概率;Pijf(T0,Sf)表示用户j对内容f的请求可以在时隙内由用户i传输的概率。
Figure BDA00040551821300000517
表示内容服务提供商传输的额外流量,其计算公式如下:
Figure BDA00040551821300000518
其中,Df表示内容f的大小,
Figure BDA00040551821300000519
表示用户i对内容f的缓存状态。
5.构建优化目标函数
以最小化内容服务提供商的成本为目标,则优化目标如下所示:
Figure BDA0004055182130000061
Figure BDA0004055182130000062
其中,Ut为内容服务提供商的传输成本计算公式;
Figure BDA0004055182130000069
分别是内容的缓存决策和推荐决策。
6.基于增量宽度学习的协同过滤算法
在实际生活中大多数用户不愿意对每一个访问过的内容进行评价,在缺失了大量用户对内容评价的情况下直接利用这种数据预测用户偏好,将导致结果极度不准确,本发明提出了一种基于增量宽度学习的协同过滤算法(BILCF)来预测缺失的评分。
6.1将用户对内容的历史评分数据转换成评分矩阵,从而得到与用户i最相似的k个用户对内容f的评分,用
Figure BDA0004055182130000063
表示。同理可以得到用户i对与内容f最相似的l个内容的评分,用
Figure BDA0004055182130000064
表示。于是,可以根据评分矩阵得到BILCF的输入:
Figure BDA0004055182130000065
上式表示将
Figure BDA0004055182130000066
Figure BDA0004055182130000067
合并成一个1×(k+l)的向量,且每一个元素的值不为0。
6.2令特征映射层包含n个特征映射组,然后将6.1中的输入通过以下特征映射层转化为特征映射向量,其转换公式如下:
Figure BDA0004055182130000068
其中φ是非线性映射函数,
Figure BDA0004055182130000071
Figure BDA0004055182130000072
分别表示特征映射层的权重和偏置。
6.3将6.2中的Mi作为特征增强层的输入,令增强层包含m个特征增强组,则通过非线性变换得到特征增强向量,如下所示:
Figure BDA0004055182130000073
其中,ξ为非线性增强函数,
Figure BDA0004055182130000074
Figure BDA0004055182130000075
分别表示特征增强组的权重和偏置。如果当前的网络结构无法达到所期望的精度,则加入一组与新的节点作为增量增强层,其线性变化过程与特征增强层相同,依据上述公式进行非线性变换,相当于横向扩大了输入层。
7.构建马尔可夫决策过程
将内容缓存与推荐建模为马尔可夫决策过程,并构建其三要素:状态空间、动作空间、奖励。
7.1系统的状态空间
在每个时隙开始,用户会向内容服务提供商提供自己的信息,以此作为系统的状态空间,其表示如下:
Figure BDA0004055182130000076
其中,
Figure BDA0004055182130000077
是用户i在时隙t的可用缓存,
Figure BDA0004055182130000078
表示用户i在时隙t对内容f的缓存状态,
Figure BDA0004055182130000079
表示用户i在时隙t请求内容f的概率。
7.2系统的动作空间
当获得了每个时隙的状态,内容服务提供商需要产生内容缓存和推荐决策。因此,动作空间表示如下:
Figure BDA00040551821300000710
其中
Figure BDA00040551821300000711
表示是否将用户i选择成为缓存节点来缓存内容f;
Figure BDA00040551821300000712
表示是否在时隙t为用户i推荐f。
7.3系统的奖励
将步骤5中的优化目标视为内容服务提供商的负奖励,则系统奖励表示如下:
Figure BDA00040551821300000713
对于内容服务提供商而言,它希望找到最佳的策略来最大化自身的奖励,即最小化系统的传输成本。
8基于深度强化学习的内容缓存与推荐算法(DCRM)
8.1系统与环境的交互
基于深度强化学习的内容缓存与推荐算法,它包含三个部分:主网络、目标网络和回放空间。主网络和目标网络具有相同的结构,都包含一个演员网络和一个评论家网络。
当主网络中的演员网络接收到当前状态St,它将产生一个动作At并传输给评论家网络,At包含内容的缓存决策
Figure BDA0004055182130000081
和推荐决策
Figure BDA0004055182130000082
决策是依据当前网络的参数选择概率最大的动作,同时也有一定几率探索其它概率较低的动作以避免陷入局部最优解。接着,评论家网络会对计算该动作的Q值来评论该动作的好坏,其计算公式如下:
Qπ(At,St)≈Qπ(At,St;θ)
其中,π表示策略,θ表示主网络中的评论家网络的参数。同时,系统将用一个四元组{St,At,r(At,St),St+1}表示网络的经验,并存储在回放空间。当回放空间被经验存满后,将开始学习和更新参数的过程。
8.2参数的更新
系统随机从回放空间选择一小批样本并重新输入主网络和目标网络,从主网络得到Q值。同时,从目标网络计算目标Q值,其计算公式如下:
Qπ′(At+1,St+1)≈Qπ′(At+1,St+1;θ′}
其中,θ′是目标网络的评论家网络的参数,它等于较早之前的主网络中的评论家网络的参数。接着,用于更新参数的损失函数如下:
Loss(θt)=E[(y′-Qπ(At,St;θ))2]
其中,y′的计算公式如下:
y′=r(At,St)+εmaxQπ′(At+1,St+1;θ′}
其中,ε为参数。
一种基于深度强化学习的联合边缘缓存与推荐系统,包括移动节点模块、D2D传输模块、推荐和请求模块和内容服务提供商模块。
所述移动节点模块,用于计算用户之间的D2D传输速率、用户偏好,得到用户之间的相似性。
所述D2D传输模块,用于根据用户的历史接触记录,将每对用户的接触时长建模为帕累托分布,通过移动节点模块,构建D2D传输模型。
所述推荐和请求模块,根据移动节点模块构建推荐和请求模型,使得推荐系统为用户提供更多的选择,用户的请求会由其偏好和推荐共同决定。
所述内容服务提供商模块,用于构建内容服务提供商模型,使得内容服务提供商通过蜂窝链路,根据推荐和请求模块以及D2D传输模型,将内容传输给用户。
本发明有益效果:
本发明设计了一种基于广义增量学习的协同过滤方法BILCF来预测稀疏评分矩阵中的缺失评分,获得更准确的评分预测。将联合内容缓存和推荐问题描述为非线性整数规划(NLIP)问题,保证内容缓存和推荐命中率的同时,使代理(CSC)成本最小化。将优化问题近似为马尔可夫决策过程(MDP),并定义了动作空间、状态空间和奖励函数。在此基础上,提出了一种基于深度确定性策略梯度的内容缓存和推荐方法(DCRM),以帮助智能体获得近似最优解。在真实数据集和合成数据集上的大量实验表明,所提出的BILCF和DCRM分别在预测精度和CSC成本方面优于其他基线。
附图说明
图1为机会接触场景;
图2为所提基于深度强化学习的联合边缘缓存与推荐系统的系统架构;
图3为所提BILCF的架构;
图4为所提DCRM的架构;
图5为不同用户数情况下各种算法在预测评分时的RMSE对比;
图6为不同内容数情况下各种算法在预测评分时的RMSE对比;
图7为所提DCRM算法的收敛性分析;
图8为在不同用户数情况下各算法关于内容服务提供商传输成本性能对比;
图9为在不同内容数情况下各算法关于内容服务提供商传输成本性能对比;
图10为在时隙的持续时长不同的情况下各种算法关于内容服务提供商传输成本的性能对比;
图11为在时隙的持续时长不同的情况下各种算法关于卸载率的性能对比;
图12为在用户数不同的情况下各种算法关于卸载率的性能对比;
图13为在用户数不同的情况下关于评分预测算法和内容推荐的性能对比;
图14为在时隙持续时长不同的情况下评分预测算法和内容推荐性能对比;
图15为本发明系统示意图。
具体实施方式
本发明考虑一个蜂窝网络场景,该场景包含一个内容服务提供商,一个基站和一些移动用户,如图1所示,考虑一个具有内容服务提供商、基站和在基站覆盖范围内的一些移动用户的蜂窝网络,这些移动用户配备了缓存和通信设备。内容服务提供商可以向用户推荐内容,用户可以接受推荐也可以不接受。如果用户对某些内容有请求,则基站将通过回程网络从内容服务提供商接收内容,并通过蜂窝链路将内容发送给用户。同时,用户可以缓存这些内容,并在需要时通过D2D链路将这些内容传递给其他人。应该注意的是,系统模型可以很容易地扩展到多个基站场景。并提供了一种基于深度强化学习的联合边缘缓存与推荐方法及系统,如图2所示,它包含两个部分:基于增量宽度学习的协同过滤算法和基于深度强化学习的内容缓存与推荐算法。
本发明从以下方面对问题建模并设计算法:解决稀疏的评级矩阵问题。联合考虑内容缓存和推荐策略的成本约束来提高D2D卸载的性能。本发明在时域上考虑了一个时变系统,将整个数据卸载过程划分为多个时隙,每个时隙会根据系统和移动节点的当前状态更新请求。本发明考虑了一个更现实的场景,即D2D通信中的节点机会性相遇,如果内容的大小变得非常大,则一次可能无法完全传输一个内容。针对节点的运动和相互接触难以预测的问题,提出了一种基于接触模式的概率框架来估计传递概率。本发明提出了一种深度强化学习方法,通过智能体(CSC)与环境之间的相互作用来获得最优解,如图2所示。
一种基于深度强化学习的边缘内容缓存与推荐方法,包括以下步骤:
1.构建移动节点模型
1.1设定
Figure BDA0004055182130000101
为用户i在时隙t的缓存状态,
Figure BDA0004055182130000102
表示用户i在时隙t缓存了内容f,反之
Figure BDA0004055182130000103
表示用户i在时隙t的缓存能力,作为用户i的缓存约束。
1.2计算用户之间的D2D传输速率
Figure BDA0004055182130000104
本发明采用正交模型,将每个用户i的带宽划分为ni个相等的子带宽。在进行D2D通信时,为每一个用户分配不重叠的正交无线通信资源,以此来防止信道间的相互干扰。D2D的传输速率
Figure BDA0004055182130000105
的计算公式如下:
Figure BDA0004055182130000106
其中Bi表示用户i的可用带宽,
Figure BDA0004055182130000111
表示用户i和j之间在时隙t的信道增益,
Figure BDA00040551821300001114
表示用户i的D2D传输功率,ωt表示在时隙t邻居的同信道干扰水平,σ2是加性高斯白噪声。
1.3计算用户偏好:令
Figure BDA0004055182130000112
表示用户i对内容的评价,其中Rif∈{1,2,3,4,5}。评分越高代表兴趣程度越高。
Figure BDA00040551821300001115
表示内容f与类别k的关联度。于是可以根据以下公式计算出用户对类别的偏好:
Figure BDA0004055182130000113
同时,令
Figure BDA0004055182130000114
表示内容对类别的关联度,则可以计算出用户对内容的偏好,计算公式如下:
Figure BDA0004055182130000115
其中
Figure BDA0004055182130000116
Figure BDA0004055182130000117
分别表示用户i对类别的偏好向量和对内容的偏好向量。
Figure BDA0004055182130000118
表示用户偏好的阈值,只有当用户对内容的偏好高于此阈值时才会请求该内容。
1.4具有相同评分的用户具有更高的相似度,则利用余弦相似度可以计算出用户之间的相似性,其计算公式如下:
Figure BDA0004055182130000119
2.构建D2D传输模型
用户的移动性和机会接触使得即使在特定路径下,也很难预测D2D通信中内容f的传递概率。本发明根据用户的历史接触记录,将每对用户的接触时长建模为帕累托分布。
2.1令Df表示内容f的大小,则根据如下公式可以计算出用户j对内容f的请求可以被用户i满足的传输时长:
Figure BDA00040551821300001110
为了建模用户之间发生机会接触的过程,本发明用一个随机变量
Figure BDA00040551821300001111
表示用户i和j之间发生λij次接触所需的时间,ηij表示用户i和j之间的接触概率,用
Figure BDA00040551821300001112
表示用户i和j在容忍时延T0内发生接触且能完全通过D2D传输内容f的概率,又用
Figure BDA00040551821300001113
表示用户j对内容f的请求可以在λij次接触中被用户i满足的概率。令Pijf表示用户j对内容f的请求可以被用户i满足的概率,其计算公式如下:
Figure BDA0004055182130000121
其中,
Figure BDA0004055182130000122
表示用户i和j之间最大的接触次数,
Figure BDA0004055182130000123
表示用户j对内容f的请求无法在前k-1次接触中被用户i满足的概率。
2.2由于个体的理性,用户不会愿意将内容免费传递给陌生人。本发明认为用户更愿意将内容传递给关系密切的人,并假设偏好相似的用户具有更强的社会关系。令
Figure BDA0004055182130000124
表示用户i和j之间的社会关系,其计算公式如下:
Figure BDA0004055182130000125
其中,ηij表示用户i和j之间的接触率,其计算公式如下:
Figure BDA0004055182130000126
其中
Figure BDA0004055182130000127
表示用户之间的接触间隔时间。
3.构建推荐和请求模型
在没有任何外部干预的情况下,用户会优先请求自己更感兴趣的内容。而推荐系统可以为用户提供更多的选择,即用户的请求会由其偏好和推荐共同决定。
3.1令
Figure BDA0004055182130000128
表示在时隙t的推荐决策,
Figure BDA0004055182130000129
表示向用户i推荐内容f,反之
Figure BDA00040551821300001210
3.2令
Figure BDA00040551821300001211
表示用户愿意接受推荐的概率,则用户i在时隙t请求内容f的概率可由如下公式计算:
Figure BDA00040551821300001212
4.构建内容服务提供商模型
内容服务提供商通过蜂窝链路将内容传输给用户。
4.1
Figure BDA00040551821300001213
表示在时隙t的缓存决策,
Figure BDA00040551821300001214
表示用户i被选择成为内容f的缓存节点,反之
Figure BDA00040551821300001215
当用户i被选择成为缓存节点,则将立刻从内容服务提供商获得被缓存的内容。
4.2内容服务提供商的传输成本计算公式如下:
Figure BDA00040551821300001216
其中α表示内容服务提供商通过蜂窝网络传输内容的单位成本;
Figure BDA0004055182130000131
表示不进行D2D卸载时,内容服务提供商的总成本,其计算公式如下:
Figure BDA0004055182130000132
Figure BDA0004055182130000133
表示在时隙t通过D2D通信可以传输的总流量,其计算公式如下:
Figure BDA0004055182130000134
其中
Figure BDA0004055182130000135
表示在缓存和推荐决策下的分发潜力,其计算公式如下:
Figure BDA0004055182130000136
其中,
Figure BDA0004055182130000137
表示在时隙t将内容f缓存在用户i;
Figure BDA0004055182130000138
表示用户j在时隙t请求内容f的概率;Pijf(T0,Sf)表示用户j对内容f的请求可以在时隙内由用户i传输的概率。
Figure BDA0004055182130000139
表示内容服务提供商传输的额外流量,其计算公式如下:
Figure BDA00040551821300001310
其中,Df表示内容f的大小,
Figure BDA00040551821300001311
表示用户i对内容f的缓存状态。
5.构建优化目标函数
以最小化内容服务提供商的成本为目标,则优化目标如下所示:
Figure BDA00040551821300001312
Figure BDA0004055182130000141
其中,Ut为内容服务提供商的传输成本计算公式;
Figure BDA00040551821300001413
分别是内容的缓存决策和推荐决策。约束条件1和2保证了缓存空间的合理性;约束条件3保证了通过D2D传输内容的传输时延不能超过用户的容忍时延;约束条件4和5保证了内容服务提供商在每个时隙最多只能为每一个用户缓存和推荐一个内容;约束条件6保证了决策变量的整数性质。
6.基于增量宽度学习的协同过滤算法
本发明利用用户对内容的历史评分预测用户的偏好,但是在实际生活中大多数用户不愿意对每一个访问过的内容进行评价,这导致实际的用户-内容评分数据非常稀疏,在缺失了大量用户对内容评价的情况下直接利用这种数据预测用户偏好,将导致结果极度不准确。为了解决这一问题,本发明提出了一种基于增量宽度学习的协同过滤算法(BILCF)来预测缺失的评分,如图3所示。
6.1将用户对内容的历史评分数据转换成评分矩阵,从而得到与用户i最相似的k个用户对内容f的评分,用
Figure BDA0004055182130000142
表示。同理可以得到用户i对与内容f最相似的l个内容的评分,用
Figure BDA0004055182130000143
表示。于是,可以根据评分矩阵得到BILCF的输入:
Figure BDA0004055182130000144
上式表示将
Figure BDA0004055182130000145
Figure BDA0004055182130000146
合并成一个1×(k+l)的向量,且每一个元素的值不为0。
6.2令特征映射层包含n个特征映射组,然后将6.1中的输入通过以下特征映射层转化为特征映射向量,其转换公式如下:
Figure BDA0004055182130000147
其中φ是非线性映射函数,
Figure BDA0004055182130000148
Figure BDA0004055182130000149
分别表示特征映射层的权重和偏置。
6.3将6.2中的Mi作为特征增强层的输入,令增强层包含m个特征增强组,则通过非线性变换得到特征增强向量,如下所示:
Figure BDA00040551821300001410
其中,ξ为非线性增强函数,
Figure BDA00040551821300001411
Figure BDA00040551821300001412
分别表示特征增强组的权重和偏置。如果当前的网络结构无法达到所期望的精度,则加入一组与新的节点作为增量增强层,其线性变化过程与特征增强层相同,依据上述公式进行非线性变换,相当于横向扩大了输入层。
7.构建马尔可夫决策过程
将内容缓存与推荐建模为马尔可夫决策过程,并构建其三要素:状态空间、动作空间、奖励。
7.1系统的状态空间
在每个时隙开始,用户会向内容服务提供商提供自己的信息,以此作为系统的状态空间,其表示如下:
Figure BDA0004055182130000151
其中,
Figure BDA0004055182130000152
是用户i在时隙t的可用缓存,
Figure BDA0004055182130000153
表示用户i在时隙t对内容f的缓存状态,
Figure BDA0004055182130000154
表示用户i在时隙t请求内容f的概率。
7.2系统的动作空间
当获得了每个时隙的状态,内容服务提供商需要产生内容缓存和推荐决策。因此,动作空间表示如下:
Figure BDA0004055182130000155
其中
Figure BDA0004055182130000156
示是否将用户i选择成为缓存节点来缓存内容f;
Figure BDA0004055182130000157
表示是否在时隙t为用户i推荐f。
7.3系统的奖励
在本发明所提的DCRM中,奖励被视为内容服务提供商采取某一个动作后获得的反馈。将步骤5中的优化目标视为内容服务提供商的负奖励,则系统奖励表示如下:
Figure BDA0004055182130000158
对于内容服务提供商而言,它希望找到最佳的策略来最大化自身的奖励,即最小化系统的传输成本。
8基于深度强化学习的内容缓存与推荐算法(DCRM)
8.1系统与环境的交互
基于深度强化学习的内容缓存与推荐算法如图4所示,它包含三个部分:主网络、目标网络和回放空间。主网络和目标网络具有相同的结构,都包含一个演员网络和一个评论家网络。
当主网络中的演员网络接收到当前状态St,它将产生一个动作At并传输给评论家网络,At包含内容的缓存决策
Figure BDA0004055182130000159
和推荐决策
Figure BDA00040551821300001510
决策是依据当前网络的参数选择概率最大的动作,同时也有一定几率探索其它概率较低的动作以避免陷入局部最优解。接着,评论家网络会对计算该动作的Q值来评论该动作的好坏,其计算公式如下:
Qπ(At,St)≈Qπ(At,St;θ)
其中,π表示策略,θ表示主网络中的评论家网络的参数。同时,系统将用一个四元组{St,At,r(At,St),St+1}表示网络的经验,并存储在回放空间。当回放空间被经验存满后,将开始学习和更新参数的过程。
8.2参数的更新
系统随机从回放空间选择一小批样本并重新输入主网络和目标网络,从主网络得到Q值。同时,从目标网络计算目标Q值,其计算公式如下:
Qπ′(At+1,St+1)≈Qπ′(At+1,St+1;θ′}
其中,θ′是目标网络的评论家网络的参数,它与等于较早之前的主网络中的评论家网络的参数。接着,用于更新参数的损失函数如下:
Loss(θt)=E[(y′-Qπ(At,St;θ))2]
其中,y′的计算公式如下:
y′=r(At,St)+εmaxQπ′(At+1,St+1;θ′}
其中,ε为参数,即折扣因子。
如图15所示,一种基于深度强化学习的联合边缘缓存与推荐系统,包括移动节点模块、D2D传输模块、推荐和请求模块和内容服务提供商模块。
所述移动节点模块用于计算用户之间的D2D传输速率、用户偏好,得到用户之间的相似性。
所述D2D传输模块用于根据用户的历史接触记录,将每对用户的接触时长建模为帕累托分布,通过移动节点模块,构建D2D传输模型。
推荐和请求模块根据移动节点模块构建推荐和请求模型,使得推荐系统为用户提供更多的选择,用户的请求会由其偏好和推荐共同决定。
内容服务提供商模块用于构建内容服务提供商模型,使得内容服务提供商通过蜂窝链路,根据推荐和请求模块以及D2D传输模型,将内容传输给用户。
实施例
下面就部分实施过程和实施结果进行展示:
本实施例首先根据均方根误差(RMSE)的基线方法评估所提议的基于增量宽度学习的协同过滤算法(BILCF)的性能。然后,将提出的基于深度强化学习的内容缓存与推荐算法(DCRM)方法与其他基线方法在不同参数下进行比较。最后,通过消融实验验证了不同模块对联合内容缓存与推荐系统(JCCRS)的影响。本实施例在真实数据集Movielens 1M和由Movielens和Infocom 06trance组成的合成数据集上进行。合成数据集将Movielens 1M和Infocom 06跟踪中相同数量的用户逐个映射,合成为新的数据集。
假设每个用户的缓存容量和每个内容的大小分别在[2000,3000]MB和[500,1000]MB的范围内。通过蜂窝链路的内容服务提供商的单位流量成本为0.2货币单位/MB,高斯白噪声功率和传输功率分别设置为-100dBm和[1,2]W。BILCF中用户的邻居数和内容的邻居数都设置为5。映射特征层和增强特征层共有10组节点。每组映射特征层和增强特征层分别有10个和15个节点。在DCRM中,时隙数为10,最小批尺寸和回放空间的大小分别设置为128和10000。最后,奖励折扣为0.99,令主网络中演员和评论家的学习率分别为0.00001和0.00002。
实验将本方法与若干传统预测方法进行了比较,作为BILCF对照的预测方法有:(1)概率矩阵分解Probabilistic Matrix Factorization(PMF):PMF是现代推荐系统的基本算法之一,它通过矩阵分解来发现用户与内容之间的潜在因素,并捕获两者之间的线性关系;(2)基于注意力机制的反向传播神经网络BP Neural Network with AttentionMechanism(BPAM):在BPAM中,使用BP神经网络构建基于邻居的CF框架,以捕获用户与其最近邻居之间的全局影响;(3)基于宽度学习的协同过滤算法Broad CollaborativeFiltering(BroadCF):BroadCF将Broad Learning和CF结合起来,利用目标用户的K个邻居的评分来预测目标用户的评分。本实施例采用均方根误差(RMSE)作为流量预测模型的评价指标。RMSE的值越低表示预测结果越准确。均方根误差的定义为:
Figure BDA0004055182130000171
其中
Figure BDA0004055182130000172
表示预测值,yi表示实际值,n表示预测的评分个数。
实验结果如图5所示,当用户数量增加时,本发明的BILCF能保持最佳性能。原因是BILCF考虑了更多的信息。在寻找相邻的内容时,也会考虑内容的类别,而不仅仅是评分,这样可以更准确地定位MD的偏好。BroadCF的性能略好于其他基线方法,因为它还结合了神经网络和协同过滤来实现更强的拟合能力。如图6所示,当内容数量增加时,特别是当内容数量增加时,所提出的BILCF也保持了最佳性能。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
作为DCRM对照的预测方法有:
(1)Random Content Caching and Recommendation(RCCR):内容服务提供商在每个时隙随机决定对用户的缓存和推荐策略。缓存和推荐内容的数量与DCRM相同;(2)GreedyContent Caching and Recommendation(GCCR):内容服务提供商贪婪地根据每个MD在每个时隙的溢出潜力和边际效益来确定对MD的缓存和推荐策略;(3)Top cache and toprecommendation(TopCache):内容服务提供商将缓存并推荐最喜欢的内容给用户;(4)Decay based Content Caching and Recommendation(DCCR):在贪婪地执行第一个缓存策略后,内容服务提供商将所选MD的邻居的选择概率降低一个衰减因子;(5)Caching-awareRecommendation(CawR):内容服务提供商将通过动态规划获得期望收益最大的内容缓存和推荐解决方案;(6)Iterative Recommendation and Caching(IRC):内容服务提供商将通过交替使用固定推荐和缓存策略迭代地获得解决方案。本实施例采用内容服务提供商的传输成本作为模型的评价指标。
如图7所示,从第50次评估开始,内容服务提供商明显学会了选择奖励更多的动作的策略,这意味着在没有任何先验知识的情况下,可以成功地学习内容缓存和推荐策略。图8至12显示了合成数据集中不同场景下内容服务提供商的性能比较。从图8中可以发现,随着用户数量的增加,不同方法之间的成本差距越来越明显。正如预期的那样,提出的DCRM优于其他基线方法,特别是在用户数量较大的情况下。原因是,随着用户的增加,所提出的DCRM可以从长远角度找到更好的缓存和推荐策略。同时,CawR和DCCR也优于其他基线方法。其主要原因在于,CawR采用动态规划的方法,在每个时隙中寻找一个最大化用户请求概率的策略。此外,DCCR利用衰减因子降低了相邻用户作为相同内容的辅助者的概率,同时扩大了D2D传输的范围,从而大大降低了内容服务提供商的成本。由于GCCR和TopCache只考虑预期奖励的最大化,没有考虑用户集群所造成的卸载重叠问题,因此性能仅略好于RCCR。不出所料,RCCR在实验中表现最差。
在图9中,注意到,随着内容数量的增加,内容服务提供商将有更多的缓存和推荐选项。正如预期的那样,在不同的内容数量下,所提出的DCRM也表现最好。可以发现,在提出的DCRM中,内容服务提供商的成本随着内容数量的增加而相对稳定。原因是DCRM从全球的角度考虑了每种策略对内容服务提供商成本的长期影响。此外,可以看出,CawR和DCCR也优于其他基线方法。但是,由于他们的策略只是基于每个时间段的局部优化,当内容数量增加时,他们可能会发现未来收益较少的策略,导致整体成本增加。与图8类似,GCCR和TopCache的性能也略好于RCCR,而RCCR的性能在预期中最差。需要注意的是,随着内容数量的增加,内容服务提供商的成本变化不大。原因是内容的普及程度遵循Zipf分布,有一小部分内容会被大部分md要求。
图10显示了不同时隙持续时间下内容服务提供商传输成本的性能比较。在实验中,用户个数设置为30,内容设置为50。本实施例将各MD的容差延迟视为一个常数,该常数等于时隙的持续时间。由式(6)可知,MD请求在允许时延内通过D2D链路得到满足的概率随着每个时隙持续时间的增加而增加。可以看出,在不同的算法下,随着时隙持续时间的增加,内容服务提供商的成本会降低。正如预期的那样,由于考虑了全局优化,提出的DCRM优于其他基线方法。RCCR仍然表现最差。但是,随着时隙持续时间的增加,其性能有了明显的提高。图11显示了在每个时隙的不同持续时间下卸载速率的性能比较。此处用户个数设置为30,内容设置为50。很明显,随着时隙持续时间的增加,用户之间D2D接触的概率也会增加。正如预期的那样,DCRM在不同场景下的性能也最好,随着时隙持续时间的增加,所有方法的卸载率都有所提高。还可以看到,当增加时隙持续时间时,CawR、DCCR和IRC的性能提高最大。这是因为随着时隙持续时间的增加,通过CawR、DCCR和IRC得到的局部最优解会逐渐接近近似的全局最优解。同时,CawR和DCCR之间的性能差距仍然很小。需要注意的是,虽然RCCR的性能得到了提高,但它仍然是最差的。
图12显示了不同用户数量下卸载速率的性能对比。在实验中,内容数量设置为50个,时隙时长设置为3小时。随着用户数量的增加,内容在时间段内通过D2D链路下发的概率也会增加。可以看出,当用户数量增加时,提出的DCRM优于其他基线方法。这是因为DCRM所制定的策略综合考虑了用户的请求概率和每个时隙的缓存状态,得到了近似的全局最优解。此外,CawR和DCCR之间的性能差距很小,可能是由于这两种方法都通过优化每对用户的接触概率来扩大每个时隙的卸载率。正如预期的那样,IRC、GCCR和TopCache的性能略好于RCCR。究其原因,可能是这三种方法都采用了贪心的思路,简单地选择卸载潜力大的用户作为辅助,自然会在每个时隙得到一个局部最优解。图13和图14通过消融实验分别分析了合成数据集中DCRM和BILCF对提出的JCCRS的影响。
图13为不同用户数量下内容服务提供商成本的性能比较,其中JCCRSDCRM表示不含内容推荐的JCCRS,以JCCRS为基线方法。在实验中,内容的数量和时长分别设置为50小时和3小时。可以看出,随着用户数量的增加,JCCRS与JCCRS-dcrm之间的差距也在增大。由于个体理性,用户可以接受或不接受推荐,并根据自己的喜好要求内容。因此,当用户数量增加时,JCCRS的优势更加明显。这表明,缓存和推荐的结合确实可以提高数据卸载的效率,降低内容服务提供商的成本。图14为不同用户数量下内容服务提供商成本的性能对比,其中JCCRSBILCF表示不进行评级预测的JCCRS。可以看出,随着md数量的增加,所提出的JCCRS具有明显的优势。主要原因是原始评分矩阵非常稀疏,没有评分预测,很难准确获取用户对内容的偏好,导致代理(内容服务提供商)产生错误的缓存和推荐策略。
综上所述,通过调整不同的参数,证明了所提出的DCRM可以获得近似的全局最优解,并且在不同的场景下性能最好。此外,通过消融实验,证明了所提出的JCCRS可以有效地结合内容缓存和推荐,然后通过评级预测有效地提高缓存效率,降低内容服务提供商成本。

Claims (10)

1.一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,包括以下步骤:
S1、构建移动节点模型
S1.1、设定
Figure FDA0004055182100000011
为用户i在时隙t的缓存状态,
Figure FDA0004055182100000012
表示用户i在时隙t缓存了内容f,反之
Figure FDA0004055182100000013
表示用户i在时隙t的缓存能力,作为用户i的缓存约束;
S1.2、计算用户之间的设备到设备D2D传输速率;
S1.3、计算用户偏好;
S1.4、利用余弦相似度计算出用户之间的相似性;
S2、构建D2D传输模型
S3、构建推荐和请求模型
S3.1、令
Figure FDA0004055182100000014
表示在时隙t的推荐决策,
Figure FDA0004055182100000015
表示向用户i推荐内容f,反之
Figure FDA0004055182100000016
S3.2、令
Figure FDA0004055182100000017
表示用户愿意接受推荐的概率,则用户i在时隙t请求内容f的概率由如下公式计算:
Figure FDA0004055182100000018
其中,
Figure FDA0004055182100000019
为用户对内容的偏好;
S4、构建内容服务提供商模型
内容服务提供商通过蜂窝链路将内容传输给用户;
S4.1、
Figure FDA00040551821000000110
表示在时隙t的缓存决策,
Figure FDA00040551821000000111
表示用户i被选择成为内容f的缓存节点,反之
Figure FDA00040551821000000112
当用户i被选择成为缓存节点,则将立刻从内容服务提供商获得被缓存的内容;
S4.2、计算内容服务提供商的传输成本;
S5、以最小化内容服务提供商的成本为目标,构建优化目标函数;
S6、基于增量宽度学习的协同过滤算法BILCF预测缺失的评分;
S7、构建马尔可夫决策过程
将内容缓存与推荐建模为马尔可夫决策过程,并构建其三要素:状态空间、动作空间、奖励;
S8、基于深度强化学习的内容缓存与推荐算法DCRM
S8.1、系统与环境的交互;
S8.2、参数的更新。
2.根据权利要求1所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,在步骤S1中,所述传输速率和用户偏好的计算如下:
传输速率:采用正交模型,将每个用户i的带宽划分为ni个相等的子带宽,在进行D2D通信时,为每一个用户分配不重叠的正交无线通信资源,D2D的传输速率
Figure FDA0004055182100000021
的计算公式如下:
Figure FDA0004055182100000022
其中Bi表示用户i的可用带宽,
Figure FDA0004055182100000023
表示用户i和j之间在时隙t的信道增益,
Figure FDA0004055182100000024
表示用户i的D2D传输功率,ωt表示在时隙t邻居的同信道干扰水平,σ2是加性高斯白噪声;
用户偏好:令
Figure FDA0004055182100000025
表示用户i对内容的评价,其中Rif∈{1,2,3,4,5},评分越高代表兴趣程度越高,
Figure FDA0004055182100000026
表示内容f与类别k的关联度,根据以下公式计算出用户对类别的偏好:
Figure FDA0004055182100000027
同时,令
Figure FDA0004055182100000028
表示内容对类别的关联度,计算出用户对内容的偏好,计算公式如下:
Figure FDA0004055182100000029
其中
Figure FDA00040551821000000210
Figure FDA00040551821000000211
分别表示用户i对类别的偏好向量和对内容的偏好向量;
Figure FDA00040551821000000212
表示用户偏好的阈值,只有当用户对内容的偏好高于此阈值时才请求该内容。
3.根据权利要求2所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,步骤S2具体过程如下:
S2.1、令Df表示内容f的大小,根据如下公式计算出用户j对内容f的请求被用户i满足的传输时长:
Figure FDA00040551821000000213
用一个随机变量
Figure FDA0004055182100000031
表示用户i和j之间发生λij次接触的时间,ηij表示用户i和j之间的接触概率,用
Figure FDA0004055182100000032
表示用户i和j在容忍时延T0内发生接触且能完全通过D2D传输内容f的概率,又用
Figure FDA0004055182100000033
表示用户j对内容f的请求在λij次接触中被用户i满足的概率,令Pijf表示用户j对内容f的请求被用户i满足的概率,其计算公式如下:
Figure FDA0004055182100000034
其中,
Figure FDA0004055182100000035
表示用户i和j之间最大的接触次数,
Figure FDA0004055182100000036
表示用户j对内容f的请求无法在前k-1次接触中被用户i满足的概率;
S2.2、假设偏好相似的用户具有更强的社会关系,令
Figure FDA0004055182100000037
表示用户i和j之间的社会关系,其计算公式如下:
Figure FDA0004055182100000038
其中ηij表示用户i和j之间的接触率,其计算公式如下:
Figure FDA0004055182100000039
其中
Figure FDA00040551821000000310
表示用户之间的接触间隔时间。
4.根据权利要求3所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,S4.2所述内容服务提供商的传输成本计算如下:
Figure FDA00040551821000000311
其中α表示内容服务提供商通过蜂窝网络传输内容的单位成本;
Figure FDA00040551821000000312
表示不进行D2D卸载时,内容服务提供商的总成本,其计算公式如下:
Figure FDA00040551821000000313
Figure FDA00040551821000000314
表示在时隙t通过D2D通信传输的总流量,其计算公式如下:
Figure FDA00040551821000000315
其中
Figure FDA00040551821000000316
表示在缓存和推荐决策下的分发潜力,其计算公式如下:
Figure FDA00040551821000000317
其中,其中
Figure FDA0004055182100000041
表示是否将用户i选择成为缓存节点缓存内容f;
Figure FDA0004055182100000042
表示是否在时隙t为用户i推荐f;
Figure FDA0004055182100000043
表示用户j在时隙t请求内容f的概率;Pijf(T0,Sf)表示用户j对内容f的请求在时隙内由用户i传输的概率;
Figure FDA0004055182100000044
表示内容服务提供商传输的额外流量,其计算公式如下:
Figure FDA0004055182100000045
其中,Df表示内容f的大小,
Figure FDA0004055182100000046
表示用户i对内容f的缓存状态。
5.根据权利要求4所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,在S5中所述优化目标如下所示:
Figure FDA0004055182100000047
st:
Figure FDA0004055182100000048
Figure FDA0004055182100000049
Figure FDA00040551821000000410
Figure FDA00040551821000000411
Figure FDA00040551821000000412
Figure FDA00040551821000000413
其中,
Figure FDA00040551821000000414
分别是内容的缓存决策和推荐决策;
Figure FDA00040551821000000415
是用户i在时隙t对内容f的缓存状态。
6.根据权利要求5所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,S6包含如下具体步骤:
S6.1、将用户对内容的历史评分数据转换成评分矩阵,得到与用户i最相似的k个用户对内容f的评分,用
Figure FDA00040551821000000416
表示;同理得到用户i对与内容f最相似的l个内容的评分,用
Figure FDA00040551821000000417
表示;
根据评分矩阵得到BILCF的输入:
Figure FDA0004055182100000051
上式表示将
Figure FDA0004055182100000052
Figure FDA0004055182100000053
合并成一个1×(k+l)的向量,且每一个元素的值不为0;
S6.2、令特征映射层包含n个特征映射组,然后将S6.1中的输入通过以下特征映射层转化为特征映射向量,其转换公式如下:
Figure FDA0004055182100000054
其中,φ是非线性映射函数,
Figure FDA0004055182100000055
Figure FDA0004055182100000056
分别表示特征映射层的权重和偏置;
S6.3、将S6.2中的Mi作为特征增强层的输入,令增强层包含m个特征增强组,则通过非线性变换得到特征增强向量,如下所示:
Figure FDA0004055182100000057
其中,ξ为非线性增强函数,
Figure FDA0004055182100000058
Figure FDA0004055182100000059
分别表示特征增强组的权重和偏置。
7.根据权利要求6所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,还包括,如果无法达到所期望的精度,则加入一组新的节点作为增量增强层,其线性变化过程与特征增强层相同,进行非线性变换。
8.根据权利要求6所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,在S7中所述的状态空间、动作空间和奖励具体计算如下:
S7.1、系统的状态空间
在每个时隙开始,用户向内容服务提供商提供自己的信息,以此作为系统的状态空间,其表示如下:
Figure FDA00040551821000000510
S7.2、系统的动作空间
当获得了每个时隙的状态,内容服务提供商产生内容缓存和推荐决策,因此,动作空间表示如下:
Figure FDA00040551821000000511
S7.3、系统的奖励
将S5中的优化目标视为内容服务提供商的负奖励,则系统奖励表示如下:
Figure FDA00040551821000000512
对于内容服务提供商而言,找到最佳的策略最大化自身的奖励,即最小化系统的传输成本。
9.根据权利要求7所述的一种基于深度强化学习的边缘内容缓存与推荐方法,其特征在于,在S8中,具体过程如下:
S8.1、系统与环境的交互
基于深度强化学习的内容缓存与推荐算法包含三个部分:主网络、目标网络和回放空间,主网络和目标网络具有相同的结构,都包含一个演员网络和一个评论家网络;
当主网络中的演员网络接收到当前状态St,将产生一个动作At并传输给评论家网络,At包含内容的缓存决策
Figure FDA0004055182100000061
和推荐决策
Figure FDA0004055182100000062
决策是依据当前网络的参数选择概率最大的动作,同时也有一定几率探索其它概率较低的动作;接着,评论家网络对计算该动作的Q值评论该动作的好坏,其计算公式如下:
Qπ(At,St)≈Qπ(At,St;θ)
其中,π表示策略,θ表示主网络中的评论家网络的参数;
同时,系统将用一个四元组{St,At,r(At,St),St+1}表示网络的经验,并存储在回放空间,当回放空间被经验存满后,将开始学习和更新参数的过程;
S8.2参数的更新
系统随机从回放空间选择一小批样本并重新输入主网络和目标网络,从主网络得到Q值;同时,从目标网络计算目标Q值,其计算公式如下:
Qπ′(At+1,St+1)≈Qπ′(At+1,St+1;θ′}
其中,θ′是目标网络的评论家网络的参数,它等于较早之前的主网络中的评论家网络的参数;接着,用于更新参数的损失函数如下:
Loss(θt)=E[(y′-Qπ(At,St;θ))2]
其中,y′的计算公式如下:
y′=r(At,St)+εmax Qπ′(At+1,St+1;θ′}
其中,ε为参数。
10.一种基于深度强化学习的边缘内容缓存与推荐系统,其特征在于,包括移动节点模块、D2D传输模块、推荐和请求模块和内容服务提供商模块;
所述移动节点模块,用于计算用户之间的D2D传输速率、用户偏好,得到用户之间的相似性;
所述D2D传输模块,用于根据用户的历史接触记录,将每对用户的接触时长建模为帕累托分布,通过移动节点模块,构建D2D传输模型;
所述推荐和请求模块,根据移动节点模块构建推荐和请求模型,使得推荐系统为用户提供更多的选择,用户的请求会由其偏好和推荐共同决定;
所述内容服务提供商模块,用于构建内容服务提供商模型,使得内容服务提供商通过蜂窝链路,根据推荐和请求模块以及D2D传输模型,将内容传输给用户。
CN202310045386.7A 2023-01-30 2023-01-30 一种基于深度强化学习的边缘内容缓存与推荐方法及系统 Active CN116155991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310045386.7A CN116155991B (zh) 2023-01-30 2023-01-30 一种基于深度强化学习的边缘内容缓存与推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310045386.7A CN116155991B (zh) 2023-01-30 2023-01-30 一种基于深度强化学习的边缘内容缓存与推荐方法及系统

Publications (2)

Publication Number Publication Date
CN116155991A true CN116155991A (zh) 2023-05-23
CN116155991B CN116155991B (zh) 2023-10-10

Family

ID=86338470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310045386.7A Active CN116155991B (zh) 2023-01-30 2023-01-30 一种基于深度强化学习的边缘内容缓存与推荐方法及系统

Country Status (1)

Country Link
CN (1) CN116155991B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639760A (zh) * 2018-11-02 2019-04-16 西北工业大学 一种基于深度强化学习的d2d网络中的缓存策略方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
US20210007023A1 (en) * 2020-09-17 2021-01-07 Intel Corporation Context aware handovers
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法
CN112948707A (zh) * 2021-02-02 2021-06-11 辽宁工程技术大学 一种强化学习优化lfm的协同过滤推荐算法
CN113918829A (zh) * 2021-10-12 2022-01-11 重庆邮电大学 一种雾计算网络中基于联邦学习的内容缓存和推荐方法
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法
US20220261683A1 (en) * 2021-02-12 2022-08-18 Adobe Inc. Constraint sampling reinforcement learning for recommendation systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639760A (zh) * 2018-11-02 2019-04-16 西北工业大学 一种基于深度强化学习的d2d网络中的缓存策略方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN112218337A (zh) * 2020-09-04 2021-01-12 暨南大学 一种移动边缘计算中的缓存策略决策方法
US20210007023A1 (en) * 2020-09-17 2021-01-07 Intel Corporation Context aware handovers
CN112948707A (zh) * 2021-02-02 2021-06-11 辽宁工程技术大学 一种强化学习优化lfm的协同过滤推荐算法
US20220261683A1 (en) * 2021-02-12 2022-08-18 Adobe Inc. Constraint sampling reinforcement learning for recommendation systems
CN113918829A (zh) * 2021-10-12 2022-01-11 重庆邮电大学 一种雾计算网络中基于联邦学习的内容缓存和推荐方法
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋爱香等: "基于强化学习的图书内容推荐策略研究与应用", 情报探索, no. 01, pages 14 - 20 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Also Published As

Publication number Publication date
CN116155991B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
Yu et al. Federated learning based proactive content caching in edge computing
CN111860595A (zh) 一种基于用户偏好预测的异构网络缓存决策方法
Li et al. Edge caching enhancement for industrial internet: A recommendation-aided approach
Sun et al. Federated deep reinforcement learning for recommendation-enabled edge caching in mobile edge-cloud computing networks
CN111885648A (zh) 基于边缘缓存的能量有效的网络内容分发机制构建方法
CN116155991B (zh) 一种基于深度强化学习的边缘内容缓存与推荐方法及系统
Zhao et al. Mobility-aware and interest-predicted caching strategy based on IoT data freshness in D2D networks
CN116347463A (zh) 云边协同多基站下具有协作缓存功能的短视频放置方法
Liu et al. Collaborative online edge caching with bayesian clustering in wireless networks
Jiang et al. Federated learning-based content popularity prediction in fog radio access networks
Wu et al. Cooperative edge caching based on elastic federated and multi-agent deep reinforcement learning in next-generation networks
CN113918829A (zh) 一种雾计算网络中基于联邦学习的内容缓存和推荐方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Somesula et al. Deadline-aware caching using echo state network integrated fuzzy logic for mobile edge networks
Feng et al. Proactive content caching scheme in urban vehicular networks
Cao et al. Mobility-aware routing and caching in small cell networks using federated learning
Chen et al. Twin delayed deep deterministic policy gradient-based intelligent computation offloading for IoT
Zhou et al. Recommendation-driven multi-cell cooperative caching: A multi-agent reinforcement learning approach
Somesula et al. Deep reinforcement learning mechanism for deadline-aware cache placement in device-to-device mobile edge networks
Jiang et al. Asynchronous federated and reinforcement learning for mobility-aware edge caching in IoVs
Wu et al. Multi-Agent Federated Deep Reinforcement Learning Based Collaborative Caching Strategy for Vehicular Edge Networks
Chen et al. Joint Task and Computing Resource Allocation in Distributed Edge Computing Systems via Multi-Agent Deep Reinforcement Learning
Qu et al. Optimizing Dynamic Cache Allocation in Vehicular Edge Networks: A Method Combining Multi-Source Data Prediction and Deep Reinforcement Learning
CN111901394B (zh) 一种联合考虑用户偏好及活跃程度的移动边缘缓存的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant