CN110062357B - 一种基于强化学习的d2d辅助设备缓存系统及缓存方法 - Google Patents

一种基于强化学习的d2d辅助设备缓存系统及缓存方法 Download PDF

Info

Publication number
CN110062357B
CN110062357B CN201910212333.3A CN201910212333A CN110062357B CN 110062357 B CN110062357 B CN 110062357B CN 201910212333 A CN201910212333 A CN 201910212333A CN 110062357 B CN110062357 B CN 110062357B
Authority
CN
China
Prior art keywords
module
data
file
auxiliary
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910212333.3A
Other languages
English (en)
Other versions
CN110062357A (zh
Inventor
曾帅
王育杰
任彦
赵天烽
钱志华
肖俊
周瑜松
刘何鑫
黄振航
张烨
刘亮
段洁
赵国峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910212333.3A priority Critical patent/CN110062357B/zh
Publication of CN110062357A publication Critical patent/CN110062357A/zh
Application granted granted Critical
Publication of CN110062357B publication Critical patent/CN110062357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种基于强化学习的D2D辅助设备缓存系统及缓存方法,具体是基于DQN(Deep Q Network)强化学习方式下的D2D通信缓存优化的系统。系统由服务器端的训练数据筛选模块、服务交互模块、请求处理模块、日志记录子模块和辅助节点设备的强化学习模块、请求处理模块、文件缓存模块、日志记录模块以及用户所在的辅助节点D2D通信覆盖区所有用户构成,通过统计分析用户对文件请求的记录,将数据进行筛选后用于强化学习,通过神经网络来学习得到辅助节点设备上适应流行度的缓存策略,从而提高系统D2D辅助设备卸载的命中率,有效地降低基站负荷,发挥D2D通信降低用户时延、节省网络带宽以及增加资源复用等作用。

Description

一种基于强化学习的D2D辅助设备缓存系统及缓存方法
技术领域
本发明属于一种D2D辅助设备缓存系统,涉及到强化学习和下一代通信网络中的D2D通信。
背景技术
根据思科的研究表明,无线和有线流量每天都在快速增长,尤其是视频点播和高质量的流媒体服务占据了网络流量的很大部分。在有线网络上,视频流量已经占据互联网总流量的50%以上。在未来的5G无线网络中Device-to-Device(D2D)通信,提供了一种解决该问题的有效方法。将基站文件下载到能够进行D2D通信的设备上,不仅大大减小了用户的传输时延,而且为网络节省了大量的带宽。一般的用户设备的存储容量是极其有限的,电池的大小也是有限的,而且涉及到个人隐私问题,使得在用户设备上直接存储文件进行D2D通信变得难以实现,在研究中提出了一种具有较小或者几乎没有回程容量,但是具有相当大的存储空间的辅助设备,我们称之为辅助节点。但是问题随即出现,如何在辅助接点中缓存文件成了一个亟待解决的问题,一种能够获取用户偏好、优化辅助节点存储的新型网络系统是解决这一问题的有效手段。
最近有很多,在N.Golrezaei,K.Shanmugam,A.G.Dimakis,A.F.Molisch,andG.Caire等人所作工作的基础上我们发现,如何在辅助设备中缓存文件这一问题是NP-hard的,但是强化学习的出现,激发了我们的灵感。Mnih V,Kavukcuoglu K,Silver D等人的工作中使用Atari游戏画面使计算机程序学会了如何玩游戏。这使我们想到了使用DQN算法来优化如何在辅助设备中缓存文件这一问题。我们可以在系统中动态学习用户的行为偏好以及文件特征的变化,不断地优化辅助节点的缓存,保证在系统中的辅助节点上存储的文件能够有效降低网络负担和提升用户体验。
因此一种根据用户偏好、文件流行度等因素来动态地学习如何在辅助节点中缓存文件的系统在未来网络的应用中在降低用户时延、节省网络带宽、增加资源复用等方面能展示出尤为突出的优势。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高系统D2D辅助设备卸载的命中率,有效地降低基站负荷,发挥D2D通信降低用户时延、节省网络带宽以及增加资源复用等作用的系统及方法。本发明的技术方案如下:
一种基于强化学习的D2D辅助设备缓存系统,其包括:服务器、辅助节点设备及用户所在的辅助节点D2D通信覆盖区,所述服务器包括训练数据筛选模块、服务交互模块、服务器日志记录模块、服务器请求处理模块;所述服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时,辅助节点设备向基站发起文件请求;服务器日志记录模块用于记录来自服务器下的所有服务节点的文件请求;所述服务交互模块与辅助节点进行交互,发送对应文件的特征信息;训练数据筛选模块包括数据统计模块、数据筛选模块及数据回送模块,数据统计模块用于统计日志数据,数据筛选模块用于过滤无用数据,数据回送模块用于将筛选出来的数据回送到辅助节点;
所述辅助节点设备包括强化学习模块、请求处理模块、文件缓存模块、辅助节点日志记录模块;所述请求处理模块处理来自通信覆盖区域的用户发来的文件请求;文件缓存模块用于缓存通过辅助节点转发的文件,辅助节点日志记录模块用于记录请求数据;强化学习模块包含了数据预处理、经验池队列、神经网络三个部分,数据预处理用于对数据的格式进行转换,经验池队列用于缓存训练数据,神经网络用于计算强化学习输出动作。
进一步的,将文件的生存时间、被请求的次数,请求次数的增长率作为文件的特征F,辅助节点日志记录模块将(Fr,tr,Rr)作为一条日志记录进行记录,其中Fr为请求的文件特征,tr为请求的时间,Rr为请求结果,服务器日志记录模块将[Fr,(Fh,1,Fh,2,Fh,3,…,Fh,L),tr,a]作为一条日志记录,(Fh,1,Fh,2,Fh,3,…,Fh,L)当为当前辅助节点中的缓存的所有文件的特征,a为辅助节点设备采取的删除动作,辅助节点日志记录用于计算强化学习的reward,服务器端的日志记录作为强化学习模块的训练样本。
进一步的,所述服务器的训练数据筛选模块对服务器设备中所有的辅助节点设备的请求进行汇总统计;设当前辅助节点设备为H1,与H1距离小于R的范围内所有节点为N={n1,n2,…,ns},服务器会将来自N中所有辅助节点设备的请求记录回送到辅助设备H1,用于神经网络的训练;在数据回送时,采取的策略为:上一次请求和本次请求r0间隔时间Δt,在Δt时间内当前节点没有请求数据,服务器N中所有节点产生的请求记录为R={r1,r2,…,rs},(s≥0),rs表示一条数据请求的记录本次请求发生后服务器会将R和r一起回送到辅助节点设备的强化学习模块。
进一步的,所述强化学习模块的神经网络模块包括神经网络A和神经网络B,经验池队列不断更新经验池数据,神经网络A用于在用户发起文件请求时计算当前是否需要缓存请求的文件,神经网络B用于使用不断更新的经验池的数据对自身参数进行更新,并在训练一定时间后用已经适应了新环境的神经网络B中的参数替换适应旧环境的神经网络B,达到动态更新缓存策略的目的;经验池维持着一个长度为M的左进右出的双向数据队列,所述队列中的数据有M条时,新的数据会从队列左端进入队列,旧的数据会从队列右端出列,当经验池中的数据完全被替换,即上一次进行神经网络的替换后经验池又收到了M条新的请求数据,强化学习模块进行一次神经网络的替换,其中M的计算公式如下:
Figure BDA0002000916530000031
视频文件的平均码率为c,D2D通信中分块文件大小为b,辅助设备覆盖范围内用户数为N,平局每个用户请求30次后替换一次神经网络的参数。
进一步的,所述强化学习模块旨在通过接收来自数据预处理模块的有效命中率和辅助设备当前内部缓存信息进行学习来提高有效命中率;将能成功从非基站来源处接受到所请求的流媒体文件称之为命中,所述的流媒体请求命中率是由命中的次数参数、总的流媒体文件请求次数参数所计算得出,强化学习具体包括以下步骤:
5.1)设计每一个时间段为由X次用户流量卸载请求组成的单位时间片,令该时间段内从自身卸载成功的次数为a1,从其他用户设备进行D2D通信流量卸载成功的次数为b1,从辅助设备进行D2D通信流量卸载成功的次数为c1,则有效命中率为:
Ω=(a1+b1+c1)/X
5.2)辅助设备的存储容量为L,神经网络状态的输入为:1×(L+1)的一维数组,数组结构为:[F1,F2,F3,…,FL,Fr];FL表示当前辅助设备中缓存的文件对应的全局流行度,Fr表示当前请求的文件对应的全局流行度,为当前辅助设备中已存储的流媒体文件;r为在该辅助设备覆盖范围内用户设备当前请求的文件;
5.3)神经网络状态的输出为:[a1,a2,……,aL],k(1≤k≤L+1)为代表通过神经网络输出的替换当前辅助设备缓存中下标为k的文件的权值;
5.4)将5.2)中的数组作为输入,得到5.3)所示的输出A,辅助节点删除argmax([a1,a2,……,ak+1])所对应的缓存文件;
5.5)将神经网络输入数据对应的服务器日志文件记录中请求时间tr取出,对应辅助节点中tr的日志文件记录,用辅助节点日志记录中tr后1000条记录计算5.1)的有效命中率,将有效命中率作为本次动作的奖励。
一种基于所述系统的D2D辅助设备缓存方法,其包括以下步骤:
辅助节点设备中的请求处理模块接受并处理来自辅助节点覆盖区域的用户发来的请求,处理请求后由文件缓存模块在辅助节点设备缓存中查询该文件,若存在该文件,则将文件发送给请求者,向服务器的服务交互模块查询文件的特征信息后在日志记录模块中进行记录,同时将记录数据送入强化学习模块,进行数据处理计算强化学习的奖励参与网络参数优化;
基站在辅助设备缓存中不存在请求文件的时候,由服务器的请求处理模块接收来自辅助节点设备的请求,并向外部网络请求该文件,将文件发送给辅助设备,辅助设备将文件发送给用户,同时将辅助节点自身的状态转化为数据输入到神经网络,辅助节点根据神经网络的输出进行文件的替换,然后将记录写入自身日志模块;
在系统运行的同时会将辅助节点的数据送入强化学习模块,而且服务器会定期根据一定策略筛选记录数据,并将其送入辅助节点设备的强化学习模块,用于优化强化学习的神经网络;神经网络在经验池中选取数据送入网络,根据数据预处理模块计算的奖励对其中的一个神经网络进行不断的训练优化,在训练一定时间后会将用于计算文件替换的神经网络的参数替换掉,提供一种根据文件流行度变化的动态策略。
本发明的优点及有益效果如下:
本发明在理想状态下,能在保护用户隐私节约用户设备能源的前提下提供较高的请求命中率的D2D通信服务,同时两个神经网络的先后更新,能及时感知文件流行度的变化,动态调整辅助节点设备的缓存策略,发挥D2D通信降低用户时延、节省网络带宽、减少基站负荷以及增加资源复用等作用。
附图说明
图1是本发明提供优选实施例工作原理图;
图2为本发明的系统整体架构图;
图3为本发明的运行流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提供了一种基于DQN强化学习方式下的D2D通信缓存优化的系统。
如图1所示,本系统工作原理图,系统中包含服务器设备、辅助节点设备和用户设备,系统通过用户设备产生的请求数据由辅助节点收集,服务器汇总处理,由辅助节点设备与基站协同工作,分析、处理、学习辅助节点D2D通信覆盖区用户的数据,为系统中的用户提供更快速的网络服务。
本系统是一种三层体系的系统,服务器层设备为服务器一般为大型服务器为大区域的用户提供无线通信服务、辅助节点设备层设备一般为有较大内存的计算机设备如:个人电脑、小型服务器,辅助节点D2D通信覆盖区设备为用户所使用的移动电话、物联网设备等。
如图2所示为本发明的系统整体框架图,该D2D通信缓存系统由服务器端的训练数据筛选模块、服务交互模块、日志记录子模块、请求处理模块;辅助节点设备的强化学习模块、请求处理模块、文件缓存模块、日志记录模块;用户所在的辅助节点D2D通信覆盖区构成。
其中,服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时,辅助节点设备向基站发起的文件请求;日志记录模块用于记录来自服务器下的所有服务节点的文件请求;服务交互模块与辅助节点进行交互,发送对应文件的特征信息;训练数据筛选模块中包含了数据与处理、数据筛选、数据回送模块,其功能为在基站记录中根据策略筛选出对某一节点更有价值的数据,并将其发送给该辅助节点设备。
辅助节点设备中的请求处理模块处理来自通信覆盖区域的用户发来的文件请求;日志记录模块用于记录请求数据;强化学习模块包含了数据预处理、经验池队列、神经网络三个部分,包含了整个强化学习的所有内容:在经验池中选取数据放入神经网络计算,从数据预处理模块中计算强化学习的奖励,用于优化神经网络的参数。
如图3所示为本发明的系统整体流程图。其中辅助节点设备中的请求处理模块接受并处理来自辅助节点覆盖区域的用户发来的请求,处理请求后由文件缓存模块在辅助节点设备缓存中查询该文件,若存在该文件,则将文件发送给请求者,向服务器的服务交互模块查询文件的特征信息后在日志记录模块中进行记录,同时将记录数据送入强化学习模块,进行数据处理计算强化学习的奖励参与网络参数优化。基站在辅助设备缓存中不存在请求文件的时候,由服务器的请求处理模块接收来自辅助节点设备的请求,并向外部网络请求该文件,将文件发送给辅助设备,辅助设备将文件发送给用户,同时将辅助节点自身的状态转化为数据输入到神经网络,辅助节点根据神经网络的输出进行文件的替换,然后将记录写入自身日志模块。在系统运行的同时会将辅助节点的数据送入强化学习模块,而且服务器会定期根据一定策略筛选记录数据,并将其送入辅助节点设备的强化学习模块,用于优化强化学习的神经网络。神经网络在经验池中选取数据送入网络,根据数据预处理模块计算的奖励对其中的一个神经网络进行不断的训练优化,在训练一定时间后会将用于计算文件替换的神经网络的参数替换掉,提供一种根据文件流行度变化的动态策略,有效提高D2D系统中辅助节点设备的缓存命中率,节省大量的网络带宽,为用户提供更加快捷的网络服务。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于强化学习的D2D辅助设备缓存系统,其特征在于,包括:服务器、辅助节点设备及用户所在的辅助节点D2D通信覆盖区,所述服务器包括训练数据筛选模块、服务交互模块、服务器日志记录模块、服务器请求处理模块;所述服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时,辅助节点设备向基站发起文件请求;服务器日志记录模块用于记录来自服务器下的所有服务节点的文件请求;所述服务交互模块与辅助节点进行交互,发送对应文件的特征信息;训练数据筛选模块包括数据统计模块、数据筛选模块及数据回送模块,数据统计模块用于统计日志数据,数据筛选模块用于过滤无用数据,数据回送模块用于将筛选出来的数据回送到辅助节点;
所述辅助节点设备包括强化学习模块、请求处理模块、文件缓存模块、辅助节点日志记录模块;所述请求处理模块处理来自通信覆盖区域的用户发来的文件请求;文件缓存模块用于缓存通过辅助节点转发的文件,辅助节点日志记录模块用于记录请求数据;强化学习模块包含了数据预处理、经验池队列、神经网络三个部分,数据预处理用于对数据的格式进行转换,经验池队列用于缓存训练数据,神经网络用于计算强化学习输出结果。
2.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统,其特征在于,将文件的生存时间、被请求的次数,请求次数的增长率作为文件的特征F,辅助节点日志记录模块将(Fr,tr,Rr)作为一条日志记录进行记录,其中Fr为请求的文件特征,tr为请求的时间,Rr为请求结果,服务器日志记录模块将[Fr,(Fh,1,Fh,2,Fh,3,…,Fh,L),tr,a]作为一条日志记录,(Fh,1,Fh,2,Fh,3,…,Fh,L)当为当前辅助节点中的缓存的所有文件的特征,a为辅助节点设备采取的删除动作,辅助节点日志记录用于计算强化学习的reward,服务器端的日志记录作为强化学习模块的训练样本。
3.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统,其特征在于,所述服务器的训练数据筛选模块对服务器设备中所有的辅助节点设备的请求进行汇总统计;设当前辅助节点设备为H1,与H1距离小于R的范围内所有节点为N={n1,n2,…,ns},服务器会将来自N中所有辅助节点设备的请求记录回送到辅助设备H1,用于神经网络的训练;在数据回送时,采取的策略为:上一次请求和本次请求r0间隔时间Δt,在Δt时间内当前节点没有请求数据,服务器N中所有节点产生的请求记录为R={r1,r2,…,rs},(s≥0),rs表示一条数据请求的记录,本次请求发生后服务器会将R和r一起回送到辅助节点设备的强化学习模块。
4.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统,其特征在于,所述强化学习模块的神经网络模块包括神经网络A和神经网络B,经验池队列不断更新经验池数据,神经网络A用于在用户发起文件请求时计算当前是否需要缓存请求的文件,神经网络B用于使用不断更新的经验池的数据对自身参数进行更新,并在训练一定时间后用已经适应了新环境的神经网络B中的参数替换适应旧环境的神经网络A,达到动态更新缓存策略的目的;经验池维持着一个长度为M的左进右出的双向数据队列,所述队列中的数据有M条时,新的数据会从队列左端进入队列,旧的数据会从队列右端出列,当经验池中的数据完全被替换,即上一次进行神经网络的替换后经验池又收到了M条新的请求数据,强化学习模块进行一次神经网络的替换,其中M的计算公式如下:
Figure FDA0003290786370000021
视频文件的平均码率为c,D2D通信中分块文件大小为b,辅助设备覆盖范围内用户数为N,平局每个用户请求30次后替换一次神经网络的参数。
5.根据权利要求4所述的一种基于强化学习的D2D辅助设备缓存系统,其特征在于,所述强化学习模块旨在通过接收来自数据预处理模块的有效命中率和辅助设备当前内部缓存信息进行学习来提高有效命中率;将能成功从非基站来源处接受到所请求的流媒体文件称之为命中,流媒体请求命中率是由命中的次数参数、总的流媒体文件请求次数参数所计算得出,强化学习具体包括以下步骤:
5.1)设计每一个时间段为由X次用户流量卸载请求组成的单位时间片,令该时间段内从自身卸载成功的次数为a1,从其他用户设备进行D2D通信流量卸载成功的次数为b1,从辅助设备进行D2D通信流量卸载成功的次数为c1,则有效命中率为:
Ω=(a1+b1+c1)/X
5.2)辅助设备的存储容量为L,神经网络状态的输入为:1×(L+1)的一维数组,数组结构为:[F1,F2,F3,…,FL,Fr];FL表示当前辅助设备中缓存的文件对应的全局流行度,Fr表示当前请求的文件对应的全局流行度,为当前辅助设备中已存储的流媒体文件;r为在该辅助设备覆盖范围内用户设备当前请求的文件;
5.3)神经网络状态的输出为:[a1,a2,……,aL],k(1≤k≤L+1)为代表通过神经网络输出的替换当前辅助设备缓存中下标为k的文件的权值;
5.4)将5.2)中的数组作为输入,得到5.3)所示的输出A,辅助节点删除argmax([a1,a2,……,ak+1])所对应的缓存文件;
5.5)将神经网络输入数据对应的服务器日志文件记录中请求时间tr取出,对应辅助节点中tr的日志文件记录,用辅助节点日志记录中tr后1000条记录计算5.1)的有效命中率,将有效命中率作为本次动作的奖励。
6.一种权利要求1-5之一所述系统的基于强化学习的D2D辅助设备缓存方法,其特征在于,包括以下步骤:
辅助节点设备中的请求处理模块接受并处理来自辅助节点覆盖区域的用户发来的请求,处理请求后由文件缓存模块在辅助节点设备缓存中查询该文件,若存在该文件,则将文件发送给请求者,向服务器的服务交互模块查询文件的特征信息后在日志记录模块中进行记录,同时将记录数据送入强化学习模块,进行数据处理计算强化学习的奖励参与网络参数优化;
基站在辅助设备缓存中不存在请求文件的时候,由服务器的请求处理模块接收来自辅助节点设备的请求,并向外部网络请求该文件,将文件发送给辅助设备,辅助设备将文件发送给用户,同时将辅助节点自身的状态转化为数据输入到神经网络,辅助节点根据神经网络的输出进行文件的替换,然后将记录写入自身日志模块;
在系统运行的同时会将辅助节点的数据送入强化学习模块,而且服务器会定期根据一定策略筛选记录数据,并将其送入辅助节点设备的强化学习模块,用于优化强化学习的神经网络;神经网络在经验池中选取数据送入网络,根据数据预处理模块计算的奖励对其中的一个神经网络进行不断的训练优化,在训练一定时间后会将用于计算文件替换的神经网络的参数替换掉,提供一种根据文件流行度变化的动态策略。
CN201910212333.3A 2019-03-20 2019-03-20 一种基于强化学习的d2d辅助设备缓存系统及缓存方法 Active CN110062357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212333.3A CN110062357B (zh) 2019-03-20 2019-03-20 一种基于强化学习的d2d辅助设备缓存系统及缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212333.3A CN110062357B (zh) 2019-03-20 2019-03-20 一种基于强化学习的d2d辅助设备缓存系统及缓存方法

Publications (2)

Publication Number Publication Date
CN110062357A CN110062357A (zh) 2019-07-26
CN110062357B true CN110062357B (zh) 2022-02-11

Family

ID=67317297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212333.3A Active CN110062357B (zh) 2019-03-20 2019-03-20 一种基于强化学习的d2d辅助设备缓存系统及缓存方法

Country Status (1)

Country Link
CN (1) CN110062357B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677190B (zh) * 2019-10-09 2021-06-22 大连大学 一种天地一体化智能网络节点静态处理与缓存方法
CN111372096B (zh) * 2020-03-12 2022-02-18 重庆邮电大学 一种基于d2d辅助的视频质量自适应缓存方法和设备
CN111432380B (zh) * 2020-03-25 2022-06-21 哈尔滨工程大学 面向d2d辅助数据卸载的缓存优化方法
CN111782301B (zh) * 2020-07-08 2020-12-22 北京邮电大学 卸载动作集合获取方法及装置
CN112272353B (zh) * 2020-10-09 2021-09-28 山西大学 一种基于强化学习的设备到设备的邻近服务方法
CN112437416A (zh) * 2020-11-20 2021-03-02 中国石油大学(华东) 一种面向d2d无线缓存网络的用户卸载对象搜索方法
CN112579544B (zh) * 2020-12-18 2023-10-13 北京邮电大学 文件缓存方法、装置、电子设备及存储介质
CN113094368B (zh) * 2021-04-13 2022-08-05 成都信息工程大学 一种提升缓存访问命中率的系统及方法
CN113064907B (zh) * 2021-04-26 2023-02-21 陕西悟空云信息技术有限公司 一种基于深度强化学习的内容更新方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851731A (zh) * 2017-03-07 2017-06-13 电子科技大学 一种最大化卸载概率的d2d缓存分配方法
CN106973303A (zh) * 2017-03-20 2017-07-21 重庆邮电大学 一种基于网络编码的d2d视频分发和预缓存方法
CN108541025A (zh) * 2018-04-20 2018-09-14 西安交通大学 一种面向无线异构网络的基站与d2d共同缓存方法
CN109219025A (zh) * 2018-09-28 2019-01-15 北京邮电大学 一种无线终端直连通信资源分配方法及装置
CN109495865A (zh) * 2018-12-27 2019-03-19 华北水利水电大学 一种基于d2d辅助的自适应缓存内容放置方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9591685B2 (en) * 2015-07-21 2017-03-07 Qualcomm Incorporated Efficient application synchronization using out-of-band device-to-device communication

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851731A (zh) * 2017-03-07 2017-06-13 电子科技大学 一种最大化卸载概率的d2d缓存分配方法
CN106973303A (zh) * 2017-03-20 2017-07-21 重庆邮电大学 一种基于网络编码的d2d视频分发和预缓存方法
CN108541025A (zh) * 2018-04-20 2018-09-14 西安交通大学 一种面向无线异构网络的基站与d2d共同缓存方法
CN109219025A (zh) * 2018-09-28 2019-01-15 北京邮电大学 一种无线终端直连通信资源分配方法及装置
CN109495865A (zh) * 2018-12-27 2019-03-19 华北水利水电大学 一种基于d2d辅助的自适应缓存内容放置方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning-based Data Transmission for D2D Communications;Achraf Moussaid等;《 2018 14th International Conference on Wireless and Mobile Computing, Networking and Communications (WiMob)》;20181227;全文 *
边缘计算与D2D通信框架下的基于学习的内容迁移优化研究;王山佳;《信息科技》;20181101;全文 *

Also Published As

Publication number Publication date
CN110062357A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110062357B (zh) 一种基于强化学习的d2d辅助设备缓存系统及缓存方法
CN112218337B (zh) 一种移动边缘计算中的缓存策略决策方法
CN110730471B (zh) 基于区域用户兴趣匹配的移动边缘缓存方法
US8355384B2 (en) System and method of handover in wireless network
CN108833352B (zh) 一种缓存方法及系统
CN108600998B (zh) 超密度蜂窝与d2d异构融合网络缓存优化决策方法
Li et al. Deep reinforcement learning for cooperative edge caching in future mobile networks
CN113315978B (zh) 一种基于联邦学习的协作式在线视频边缘缓存方法
CN115002113B (zh) 一种移动基站边缘计算力资源调度方法、系统、电子设备
CN108541025B (zh) 一种面向无线异构网络的基站与d2d共同缓存方法
CN108521640B (zh) 一种蜂窝网络中的内容分发方法
CN107820278B (zh) 蜂窝网络时延与成本均衡的任务卸载方法
CN113918829A (zh) 一种雾计算网络中基于联邦学习的内容缓存和推荐方法
CN113993168B (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN110913239B (zh) 一种精细化的移动边缘计算的视频缓存更新方法
CN110113213B (zh) 一种基于云无线接入网架构的协作式缓存部署方法
CN115720237A (zh) 边缘网络自适应比特率视频的缓存和资源调度方法
CN111935025A (zh) 一种tcp传输性能的控制方法、装置、设备和介质
CN113672819B (zh) 一种基于推荐感知和协作边缘缓存的内容请求处理系统
CN112702443B (zh) 一种星地协同通信系统多星多级缓存分配方法及装置
Li et al. Edge caching for D2D enabled hierarchical wireless networks with deep reinforcement learning
CN112911614B (zh) 基于动态请求d2d网络中的协作编码缓存方法
CN108882269A (zh) 结合缓存技术的超密集网络小站开关方法
CN103825922B (zh) 一种数据更新方法及web服务器
CN110139125B (zh) 无线移动网络下基于需求感知与资源缓存的视频共享方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant