CN113064907B - 一种基于深度强化学习的内容更新方法 - Google Patents

一种基于深度强化学习的内容更新方法 Download PDF

Info

Publication number
CN113064907B
CN113064907B CN202110454708.4A CN202110454708A CN113064907B CN 113064907 B CN113064907 B CN 113064907B CN 202110454708 A CN202110454708 A CN 202110454708A CN 113064907 B CN113064907 B CN 113064907B
Authority
CN
China
Prior art keywords
cache
state
cache replacement
network
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110454708.4A
Other languages
English (en)
Other versions
CN113064907A (zh
Inventor
姜静
王凯
孙军涛
杜剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Haohan (Jiangsu) Intelligent Technology Co.,Ltd.
Original Assignee
Shaanxi Wukongyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Wukongyun Information Technology Co ltd filed Critical Shaanxi Wukongyun Information Technology Co ltd
Priority to CN202110454708.4A priority Critical patent/CN113064907B/zh
Publication of CN113064907A publication Critical patent/CN113064907A/zh
Application granted granted Critical
Publication of CN113064907B publication Critical patent/CN113064907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于深度强化学习的内容更新方法,可以解决缓存内容的流行度未知且是动态变化的问题,使缓存策略能够适应动态变化的移动网络环境,从而最大化缓存命中率。具体过程主要包括首先建立缓存替换模型,其次利用神经网络获得当前缓存状态下的缓存替换策略,同时获得当前缓存状态到下一缓存状态奖赏函数,之后,利用神经网络找出当前缓存状态下最优缓存替换策略,最后利用最优缓存替换策略进行内容更新。

Description

一种基于深度强化学习的内容更新方法
技术领域
本发明涉及无线缓存技术领域,具体涉及一种基于深度强化学习的内容更新方法及应用。
背景技术
在无线缓存技术领域,内容更新是指将存储于Internet内容库中的数据调用到基站缓存中,然后通过缓存替换策略对基站缓存中的数据进行实时更新。通过缓存替换策略可使基站缓存清除陈旧、冷门、价值低或占用空间大的内容。现有的缓存替换策略主要包括先进先出策略(FIFO)、最近最少使用策略(LRU)和最少频率使用策略(LFU),其中这些均无法跟踪内容流行度的快速变化,由此降低了缓存命中率,从而降低了用户体验感。
发明内容
为了解决传统缓存替换策略存在的无法跟踪内容流行度导致缓存命中率较低的问题。本发明提供了一种基于深度强化学习的内容更新方法,所述内容更新方法是采用学习算法,能够适应流行度动态变化的场景,及时跟踪文件流行度的快速变化,根据内容流行度的变换进行缓存替换,最后进行内容更新实现更高的缓存命中。
本发明的技术解决方案是提供了一种基与深度强化学习的内容更新方法,其特殊之处在于,包括以下步骤:
步骤一、建立缓存替换模型:
对内容更新建立缓存替换模型,并定义缓存替换模型的状态空间、动作空间和奖赏函数;
步骤二、利用神经网络获得当前缓存状态下的缓存替换策略,同时获得当前缓存状态到下一缓存状态奖赏函数;
步骤2.1、将当前缓存状态作为神经网络的输入数据;
步骤2.2、神经网络输出缓存替换策略;智能体根据缓存替换策略执行不同缓存替换动作,选取概率最大的一个缓存替换动作,同时转移到下一缓存状态此得出所述当前缓存状态到下一缓存状态奖赏函数;
步骤2.3、判断当前缓存状态是否为终止状态或者是否达到最大迭代次数,若是,则执行步骤三,否则,将下一缓存状态作为神经网络的输入数据,返回步骤2.2;
步骤三、利用神经网络找出当前缓存状态下最优缓存替换策略;
在神经网络中利用奖赏函数计算状态值函数,使用神经网络拟合状态值函数,同时获得状态值函数的TD误差,利用状态值函数的TD误差更新神经网络参数,得到当前状态下最优缓存替换策略;
步骤四、利用最优缓存替换策略进行内容更新。
进一步的,步骤二中所述神经网络为Actor网络;Actor网络根据当前缓存状态输出缓存替换策略;
步骤三中所述神经网络为Critic网络,使用Critic网络拟合状态值函数,用来评价Actor网络输出的缓存替换策略,并指导Actor网络更新网络参数以改善缓存替换策略。
进一步的,步骤1中缓存替换模型的状态空间:S={s1,s2,...,sn},每个时刻n∈[1,n]的缓存状态定义为sn,sn={cn,rn,cn∈c,rn∈r},其中c为缓存放置内容,r为请求内容;
动作空间A={a1,a2,...,an},其中a1,a2,...,an代表缓存替换动作;
奖赏函数为
Figure BDA0003040067370000031
其中sn为缓存状态,采取缓存替换动作an,缓存状态转化为sn+1,且有
Figure BDA0003040067370000032
Figure BDA0003040067370000033
表示指示函数;
Figure BDA0003040067370000034
表示在缓存放置内容cn+1中,如果请求内容rn+1,指示函数
Figure BDA0003040067370000035
的值取1,否则取0;
Figure BDA0003040067370000036
表示在初始缓存放置内容cn中请求内容rn+1,指示函数
Figure BDA0003040067370000037
的值取1,否则取0;当
Figure BDA0003040067370000038
取1时代表通过缓存替换可以命中请求文件,而不进行缓存替换就无法命中;当
Figure BDA0003040067370000039
取0时代表是否进行缓存替换都命中请求文件或都无法命中;当
Figure BDA00030400673700000310
取-1时代表通过缓存替换无法命中请求文件,反而不进行缓存替换会命中。
进一步的,步骤2.1具体为:
步骤2.11、更新时间序列n=1;
步骤2.12、重置Actor网络和Critic网络的梯度更新量:dθ←0,dω←0,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ′=θ,ω′=ω;θ,ω分别为Actor网络和Critic网络对应参数;
步骤2.13、令nstart=n,并获取当前缓存状态sn={cn,rn};
步骤2.14、每个线程私有智能体将sn输入到Actor网络;
步骤2.2具体为:
步骤2.21、Actor网络探索环境输出此时的策略π(sn;θ′),该策略是在当前缓存状态sn下,执行不同缓存替换动作的概率,表示为:π(sn;θ′)=P(a|sn;θ′),其中π(sn,an;θ′)∈π(sn;θ′)代表执行缓存替换动作an;智能体根据缓存替换策略执行不同缓存替换动作;
步骤2.22、按照Actor网络的输出选取概率最大的一个缓存替换动作an,同时转移到的下个状态sn+1并按照公式(1)计算奖赏函数记为
Figure BDA0003040067370000041
步骤2.3具体为:
判断sn是否为终止状态或者n-nstart=Tmax,若是,则执行步骤三,否则,令n=n+1,获取当前缓存状态空间sn+1={cn+1,rn+1},返回步骤2.2;Tmax为全局最大迭代次数。
进一步的,步骤三具体为:
步骤3.1、在Critic网络中利用奖赏函数计算出状态值函数
Figure BDA0003040067370000042
使用Critic网络拟合状态值函数
Figure BDA0003040067370000043
其中ω′为Critic网络中神经网络参数,γ∈[0,1]为折扣因子;
步骤3.2、若sn是终止状态,则状态值函数的TD误差为0;否则计算状态值函数的TD误差
Figure BDA0003040067370000044
其中k的上界为Tmax;利用状态值函数的TD误差更新Actor网络的策略函数参数
Figure BDA0003040067370000045
Critic网络的策略函数参数
Figure BDA0003040067370000046
步骤3.3、用dθ和dω更新公共部分的A3C神经网络参数θ,ω,直到最大迭代次数,Actor网络输出当前状态下最优缓存替换策略。
进一步的,结合最优缓存替换策略进行内容更新。
本发明的有益效果是:本发明将深度强化学习的方法应用到无线缓存基站中,进而实现了具有环境自适应能力的缓存替换策略。将缓存放置内容、请求内容作为状态空间,缓存替换策略作为动作空间并依此实现更多的缓存命中来设计奖赏函数,本发明结合深度强化学习算法,在线学习内容的流行度,进而有利于使其缓存内容能够根据时间的变化进行改变,避免造成缓存“污染”现象,进而有利于增强用户体验感。
附图说明
图1是本发明实施例中基于深度强化学习的缓存替换方法流程图;
图2是本发明实施例中应用场景图。
具体实施方式
下面将结合具体实施例及附图,对本发明进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,当基站收到用户请求时,首先判断是否已缓存请求内容,若存在,则将已缓存的请求内容发送给用户;否则,需要返回Intemet内容库获取请求内容。同时在基站中缓存所请求的内容,如果基站缓存已满,则需要对基站缓存内容进行替换,根据缓存替换策略决定替换哪些已缓存的旧内容。为了提高缓存命中率,本发明提供了一种基于深度强化学习的内容更新方法。具体思想是:建立缓存替换模型,该模型包括缓存状态空间、动作空间和奖赏函数。定义缓存状态空间为缓存放置内容和请求内容,动作空间为缓存替换策略并依此实现更多的缓存命中来设计奖赏函数;之后基于深度强化学习设计了缓存替换策略,通过迭代学习获得最优缓存替换策略,根据最优缓存替换策略删除旧内容,并缓存请求内容,通过更新缓存内容实现更高的内容请求命中率。
本实施例基于深度强化学习的内容更新方法主要包括以下步骤:
步骤一、建立缓存替换模型;
缓存替换模型用三元数组<S,A,R>,其中:
S是缓存状态空间:定义缓存状态空间S={s1,s2,...,sn},每个时刻n∈[1,n]的缓存状态定义为sn,且可以表示为sn={cn,rn,cn∈c,rn∈r},其中c为缓存放置内容,r为请求内容。
A是动作空间:所述动作空间为缓存替换策略,当缓存未命中且缓存已满时,通过该策略可以确定替换哪些内容,定义动作空间A={a1,a2,...,an},其中a1,a2,...,an代表缓存替换动作,即分别替换基站缓存中第a1,a2,...,an个内容;每个缓存状态可以对应多个缓存替换动作,缓存状态sn对应的缓存替换动作记为an,其为动作空间中的某些子集。
R是奖赏函数:假设当前缓存状态sn={cn,rn},采取缓存替换动作an后,缓存状态空间转换为sn+1={cn+1,rn+1},得到的累计奖赏函数构建为下式(1):
Figure BDA0003040067370000061
Figure BDA0003040067370000062
表示指示函数;
Figure BDA0003040067370000063
表示在缓存放置内容cn+1中,如果请求内容rn+1,指示函数
Figure BDA0003040067370000064
的值取1,否则取0;
Figure BDA0003040067370000065
表示在初始缓存放置内容cn中请求内容rn+1,指示函数
Figure BDA0003040067370000066
的值取1,否则取0;当
Figure BDA0003040067370000067
取1时代表通过缓存替换可以命中请求文件,而不进行缓存替换就无法命中;当
Figure BDA0003040067370000068
取0时代表是否进行缓存替换都命中请求文件或都无法命中;当
Figure BDA0003040067370000069
取-1时代表通过缓存替换无法命中请求文件,反而不进行缓存替换会命中。
步骤二、找出缓存替换策略,具体为基于Actor网络输出缓存替换策略;
A3C神经网络具有一个公共神经网络,该公共神经网络拥有Actor网络和Critic网络。除了公共神经网络外还有许多worker线程,每个线程中有和公共的神经网络一样的网络结构,每个线程会独立的和环境进行交互得到经验数据,这些线程之间互不干扰,独立运行。由于A3C是异步多线程的,这里给出任意一个线程的算法流程。
输入:公共部分的A3C神经网络结构,Actor网络和Critic网络对应参数θ,ω;本线程的A3C神经网络结构,Actor网络和Critic网络对应参数θ′,ω′;全局最大迭代次数Tmax;折扣因子γ。
步骤1、更新时间序列n=1;
步骤2、重置Actor网络和Critic网络的梯度更新量:dθ←0,dω←0,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ′=θ,ω′=ω;
步骤3、令nstart=n,并获取当前系统状态sn={cn,rn};
步骤4、每个线程私有智能体将sn输入到Actor网络;
步骤5、Actor网络探索环境输出此时的策略π(sn;θ′),该策略该策略是在当前缓存状态sn下,执行不同缓存替换动作的概率,表示为:π(sn;θ′)=P(a|sn;θ′),其中π(sn,an;θ′)∈π(sn;θ′)代表执行缓存替换动作an
步骤6、按照Actor网络的输出选取概率最大的一个缓存替换动作an,同时转移到的下个状态sn+1并按照公式(1)计算奖赏函数记为Rn
步骤7、判断sn是否为终止状态或者n-nstart=Tmax,若是,则执行步骤8,否则,令n=n+1,获取当前缓存状态空间sn+1={cn+1,rn+1},返回步骤4;
步骤三、找出得到当前状态下最优缓存替换策略,具体为基于Critic网络获得的最优缓存替换策略;
步骤8:在Critic网络中利用奖赏函数计算出状态值函数
Figure BDA0003040067370000071
使用Critic网络拟合状态值函数
Figure BDA0003040067370000072
步骤9、若sn是终止状态,则状态值函数的TD误差为0;否则计算状态值函数的TD误差
Figure BDA0003040067370000081
其中k的上界为Tmax;利用状态值函数的TD误差更新Actor网络的策略函数参数
Figure BDA0003040067370000082
Critic网络的策略函数参数
Figure BDA0003040067370000083
步骤10、用dθ和dω更新公共部分的A3C神经网络参数θ,ω,直到最大迭代次数Tmax
输出:公共部分的A3C神经网络参数θ,ω。
步骤四、利用通过神经网络迭代更新得到的最优缓存替换策略进行内容更新。
如图2所示,本发明基于深度强化学习进行内容更新,在使用前需要建立包含有若干个用户设备、一个基站,其中基站有缓存能力的系统模型,并将系统模型中基站缓部署于用户周边;根据将基站缓存放置内容和用户请求文件作为状态空间,将缓存替换策略作为动作空间,同时利用离散空间的A3C算法来设计缓存替换策略,相比于FIFO、LRU和LFU等传统缓存替换策略,本发明缓存替换策略能够实现更高的缓存命中率,并且本发明通过采用深度强化学习技术,使得本发明能够考虑动态的内容流行度和用户偏好,进而有利于使其缓存内容能够根据时间的变化进行改变,避免造成缓存“污染现象”,进而有利于增强用户体验感。
以上所述,为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于深度强化学习的内容更新方法,其特征在于,包括以下步骤:
步骤一、建立缓存替换模型:
对内容更新建立缓存替换模型,并定义缓存替换模型的状态空间、动作空间和奖赏函数;
步骤二、利用神经网络获得当前缓存状态下的缓存替换策略,同时获得当前缓存状态到下一缓存状态的奖赏函数;
步骤2.1、将当前缓存状态作为神经网络的输入数据;
步骤2.2、神经网络输出缓存替换策略;智能体根据缓存替换策略执行不同缓存替换动作,选取概率最大的一个缓存替换动作,同时转移到下一缓存状态,以此得出所述当前缓存状态到下一缓存状态的奖赏函数;
步骤2.3、判断当前缓存状态是否为终止状态或者是否达到最大迭代次数,若是,则执行步骤三,否则,将下一缓存状态作为神经网络的输入数据,返回步骤2.2;
步骤三、利用神经网络找出当前缓存状态下最优缓存替换策略;
在神经网络中利用奖赏函数计算状态值函数,使用神经网络拟合状态值函数,同时获得状态值函数的TD误差,利用状态值函数的TD误差更新神经网络参数,得到当前状态下最优缓存替换策略;
步骤四、利用最优缓存替换策略进行内容更新。
2.根据权利要求1所述的一种基于深度强化学习的内容更新方法,其特征在于:
步骤二中所述神经网络为Actor网络;Actor网络根据当前缓存状态输出缓存替换策略;
步骤三中所述神经网络为Critic网络,使用Critic网络拟合状态值函数,评价Actor网络输出的缓存替换策略,并指导Actor网络更新网络参数以改善缓存替换策略。
3.根据权利要求1或2所述的一种基于深度强化学习的内容更新方法,其特征在于:步骤1中缓存替换模型的状态空间:S={s1,s2,...,sn},每个时刻n∈[1,n]的缓存状态定义为sn,sn={cn,rn,cn∈c,rn∈r},其中c为缓存放置内容,r为请求内容;
动作空间A={a1,a2,...,an},其中a1,a2,...,an代表缓存替换动作;
奖赏函数为
Figure FDA0003936663220000021
其中sn为缓存状态,采取缓存替换动作an,缓存状态转化为sn+1,且有
Figure FDA0003936663220000022
Figure FDA0003936663220000023
表示指示函数;
Figure FDA0003936663220000024
表示在缓存放置内容cn+1中,如果请求内容rn+1,指示函数
Figure FDA0003936663220000025
的值取1,否则取0;
Figure FDA0003936663220000026
表示在初始缓存放置内容cn中请求内容rn+1,指示函数
Figure FDA0003936663220000027
的值取1,否则取0;当
Figure FDA0003936663220000028
取1时代表通过缓存替换可以命中请求文件,而不进行缓存替换就无法命中;当
Figure FDA0003936663220000029
取0时代表是否进行缓存替换都命中请求文件或都无法命中;当
Figure FDA00039366632200000210
取-1时代表通过缓存替换无法命中请求文件,反而不进行缓存替换会命中。
4.根据权利要求3所述的一种基于深度强化学习的内容更新方法,其特征在于,步骤2.1具体为:
步骤2.11、更新时间序列n=1;
步骤2.12、重置Actor网络和Critic网络的梯度更新量:dθ←0,dω←0,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ'=θ,ω'=ω;θ,ω分别为Actor网络和Critic网络对应参数;
步骤2.13、令nstart=n,并获取当前缓存状态sn={cn,rn};
步骤2.14、每个线程私有智能体将sn输入到Actor网络;
步骤2.2具体为:
步骤2.21、Actor网络探索环境输出此时的策略π(sn;θ'),该策略是在当前缓存状态sn下,执行不同缓存替换动作的概率,表示为:π(sn;θ')=P(a|sn;θ'),用π(sn,an;θ')代表执行缓存替换动作an,其中π(sn,an;θ')∈π(sn;θ'),智能体根据缓存替换策略执行不同缓存替换动作;
步骤2.22、按照Actor网络的输出选取概率最大的一个缓存替换动作an,同时转移到的下个状态sn+1并按照公式(1)计算奖赏函数记为
Figure FDA0003936663220000031
步骤2.3具体为:
判断sn是否为终止状态或者n-nstart=Tmax,若是,则执行步骤三,否则,令n=n+1,获取当前缓存状态空间sn+1={cn+1,rn+1},返回步骤2.2;Tmax为全局最大迭代次数。
5.根据权利要求4所述的一种基于深度强化学习的内容更新方法,其特征在于,步骤三具体为:
步骤3.1、在Critic网络中利用奖赏函数计算出状态值函数
Figure FDA0003936663220000032
使用Critic网络拟合状态值函数
Figure FDA0003936663220000033
其中ω'为Critic网络中神经网络参数,γ∈[0,1]为折扣因子;
步骤3.2、若sn是终止状态,则状态值函数的TD误差为0;否则计算状态值函数的TD误差
Figure FDA0003936663220000034
其中k的上界为Tmax
利用状态值函数的TD误差更新Actor网络的策略函数参数
Figure FDA0003936663220000041
与Critic网络的策略函数参数
Figure FDA0003936663220000042
步骤3.3、用dθ和dω更新公共部分的A3C神经网络参数θ,ω,直到最大迭代次数,Actor网络输出当前状态下最优缓存替换策略。
CN202110454708.4A 2021-04-26 2021-04-26 一种基于深度强化学习的内容更新方法 Active CN113064907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110454708.4A CN113064907B (zh) 2021-04-26 2021-04-26 一种基于深度强化学习的内容更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110454708.4A CN113064907B (zh) 2021-04-26 2021-04-26 一种基于深度强化学习的内容更新方法

Publications (2)

Publication Number Publication Date
CN113064907A CN113064907A (zh) 2021-07-02
CN113064907B true CN113064907B (zh) 2023-02-21

Family

ID=76567708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110454708.4A Active CN113064907B (zh) 2021-04-26 2021-04-26 一种基于深度强化学习的内容更新方法

Country Status (1)

Country Link
CN (1) CN113064907B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676513B (zh) * 2021-07-15 2022-07-01 东北大学 一种深度强化学习驱动的网内缓存优化方法
CN114630175B (zh) * 2022-03-14 2023-08-22 网络通信与安全紫金山实验室 一种缓存管理方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103282891A (zh) * 2010-08-16 2013-09-04 甲骨文国际公司 用于使用神经网络来进行有效的缓存的系统和方法
CN110062357A (zh) * 2019-03-20 2019-07-26 重庆邮电大学 一种基于强化学习的d2d辅助设备缓存系统及缓存方法
CN110968816A (zh) * 2019-12-23 2020-04-07 广东技术师范大学 一种基于强化学习的内容缓存方法、装置及存储介质
CN111292001A (zh) * 2020-02-24 2020-06-16 清华大学深圳国际研究生院 基于强化学习的联合决策方法及装置
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112149359A (zh) * 2020-10-09 2020-12-29 中国人民解放军国防科技大学 信任域引导裁剪的策略优化方法、系统、存储介质及应用
CN112597388A (zh) * 2020-12-18 2021-04-02 南京邮电大学 一种缓存使能的d2d通信联合推荐与缓存方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11409654B2 (en) * 2019-09-05 2022-08-09 Micron Technology, Inc. Intelligent optimization of caching operations in a data storage device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103282891A (zh) * 2010-08-16 2013-09-04 甲骨文国际公司 用于使用神经网络来进行有效的缓存的系统和方法
CN110062357A (zh) * 2019-03-20 2019-07-26 重庆邮电大学 一种基于强化学习的d2d辅助设备缓存系统及缓存方法
CN110968816A (zh) * 2019-12-23 2020-04-07 广东技术师范大学 一种基于强化学习的内容缓存方法、装置及存储介质
CN111292001A (zh) * 2020-02-24 2020-06-16 清华大学深圳国际研究生院 基于强化学习的联合决策方法及装置
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112149359A (zh) * 2020-10-09 2020-12-29 中国人民解放军国防科技大学 信任域引导裁剪的策略优化方法、系统、存储介质及应用
CN112597388A (zh) * 2020-12-18 2021-04-02 南京邮电大学 一种缓存使能的d2d通信联合推荐与缓存方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Deep Reinforcement Learning Approaches for Content Caching in Cache-Enabled D2D Networks";Lixin Li et al.;《IEEE Internet of Things Journal》;20191105;全文 *
"无线缓存网络中关键技术的研究";谭夏宁;《万方数据知识服务平台》;20180208;全文 *

Also Published As

Publication number Publication date
CN113064907A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US12086516B2 (en) Generating integrated circuit floorplans using neural networks
Zhong et al. A deep reinforcement learning-based framework for content caching
CN113064907B (zh) 一种基于深度强化学习的内容更新方法
CN108063961B (zh) 一种基于强化学习的自适应码率视频传输方法以及系统
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN108108822A (zh) 并行训练的异策略深度强化学习方法
CN112752308B (zh) 一种基于深度强化学习的移动预测无线边缘缓存方法
CN112771554A (zh) 编程中的预测变量
CN114818454A (zh) 模型训练方法、数据处理方法、电子设备和程序产品
CN111221981A (zh) 知识图谱嵌入模型的训练方法、装置和计算机存储介质
US20230121843A1 (en) Managing data stored in a cache using a reinforcement learning agent
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
Zhou et al. Sacc: A size adaptive content caching algorithm in fog/edge computing using deep reinforcement learning
CN116112563A (zh) 一种基于流行度预测的双策略自适应缓存替换方法
CN113902128B (zh) 改善边缘设备利用效率的异步联邦学习方法、装置及介质
CN113193999B (zh) 一种基于深度确定性策略梯度的虚拟网络映射方法
CN113114762B (zh) 一种数据缓存方法及系统
CN117669700A (zh) 深度学习模型训练方法和深度学习模型训练系统
CN111309982A (zh) 机器学习数据索引结构的自适应结构调整方法及系统
CN116245009A (zh) 人机策略生成方法
CN114697394A (zh) 基于离散maddpg的边缘缓存决策模型、方法和系统
CN111443806B (zh) 交互任务的控制方法、装置、电子设备及存储介质
CN114025017A (zh) 基于深度循环强化学习的网络边缘缓存方法、装置及设备
Feng et al. Multi-feature content popularity prediction algorithm based on GRU-Attention in V-NDN
WO2020237687A1 (zh) 网络结构搜索的方法及装置、计算机存储介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231211

Address after: Room 17-2-1509, Huaguoshan Avenue, High tech Zone, Lianyungang City, Jiangsu Province, 222000

Patentee after: Zhongke Haohan (Jiangsu) Intelligent Technology Co.,Ltd.

Address before: 1403, enterprise headquarters building, No.2 Saigao City Plaza, 170 Weiyang Road, Xi'an Economic and Technological Development Zone, Shaanxi 710000

Patentee before: Shaanxi wukongyun Information Technology Co.,Ltd.

TR01 Transfer of patent right