CN110062357B

CN110062357B - 一种基于强化学习的d2d辅助设备缓存系统及缓存方法

Info

Publication number: CN110062357B
Application number: CN201910212333.3A
Authority: CN
Inventors: 曾帅; 王育杰; 任彦; 赵天烽; 钱志华; 肖俊; 周瑜松; 刘何鑫; 黄振航; 张烨; 刘亮; 段洁; 赵国峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2022-02-11
Anticipated expiration: 2039-03-20
Also published as: CN110062357A

Abstract

本发明请求保护一种基于强化学习的D2D辅助设备缓存系统及缓存方法，具体是基于DQN(Deep Q Network)强化学习方式下的D2D通信缓存优化的系统。系统由服务器端的训练数据筛选模块、服务交互模块、请求处理模块、日志记录子模块和辅助节点设备的强化学习模块、请求处理模块、文件缓存模块、日志记录模块以及用户所在的辅助节点D2D通信覆盖区所有用户构成，通过统计分析用户对文件请求的记录，将数据进行筛选后用于强化学习，通过神经网络来学习得到辅助节点设备上适应流行度的缓存策略，从而提高系统D2D辅助设备卸载的命中率，有效地降低基站负荷，发挥D2D通信降低用户时延、节省网络带宽以及增加资源复用等作用。

Description

一种基于强化学习的D2D辅助设备缓存系统及缓存方法

技术领域

本发明属于一种D2D辅助设备缓存系统，涉及到强化学习和下一代通信网络中的D2D通信。

背景技术

根据思科的研究表明，无线和有线流量每天都在快速增长，尤其是视频点播和高质量的流媒体服务占据了网络流量的很大部分。在有线网络上，视频流量已经占据互联网总流量的50％以上。在未来的5G无线网络中Device-to-Device(D2D)通信，提供了一种解决该问题的有效方法。将基站文件下载到能够进行D2D通信的设备上，不仅大大减小了用户的传输时延，而且为网络节省了大量的带宽。一般的用户设备的存储容量是极其有限的，电池的大小也是有限的，而且涉及到个人隐私问题，使得在用户设备上直接存储文件进行D2D通信变得难以实现，在研究中提出了一种具有较小或者几乎没有回程容量，但是具有相当大的存储空间的辅助设备，我们称之为辅助节点。但是问题随即出现，如何在辅助接点中缓存文件成了一个亟待解决的问题，一种能够获取用户偏好、优化辅助节点存储的新型网络系统是解决这一问题的有效手段。

最近有很多，在N.Golrezaei,K.Shanmugam,A.G.Dimakis,A.F.Molisch,andG.Caire等人所作工作的基础上我们发现，如何在辅助设备中缓存文件这一问题是NP-hard的，但是强化学习的出现，激发了我们的灵感。Mnih V,Kavukcuoglu K,Silver D等人的工作中使用Atari游戏画面使计算机程序学会了如何玩游戏。这使我们想到了使用DQN算法来优化如何在辅助设备中缓存文件这一问题。我们可以在系统中动态学习用户的行为偏好以及文件特征的变化，不断地优化辅助节点的缓存，保证在系统中的辅助节点上存储的文件能够有效降低网络负担和提升用户体验。

因此一种根据用户偏好、文件流行度等因素来动态地学习如何在辅助节点中缓存文件的系统在未来网络的应用中在降低用户时延、节省网络带宽、增加资源复用等方面能展示出尤为突出的优势。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高系统D2D辅助设备卸载的命中率，有效地降低基站负荷，发挥D2D通信降低用户时延、节省网络带宽以及增加资源复用等作用的系统及方法。本发明的技术方案如下：

一种基于强化学习的D2D辅助设备缓存系统，其包括：服务器、辅助节点设备及用户所在的辅助节点D2D通信覆盖区，所述服务器包括训练数据筛选模块、服务交互模块、服务器日志记录模块、服务器请求处理模块；所述服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时，辅助节点设备向基站发起文件请求；服务器日志记录模块用于记录来自服务器下的所有服务节点的文件请求；所述服务交互模块与辅助节点进行交互，发送对应文件的特征信息；训练数据筛选模块包括数据统计模块、数据筛选模块及数据回送模块，数据统计模块用于统计日志数据，数据筛选模块用于过滤无用数据，数据回送模块用于将筛选出来的数据回送到辅助节点；

所述辅助节点设备包括强化学习模块、请求处理模块、文件缓存模块、辅助节点日志记录模块；所述请求处理模块处理来自通信覆盖区域的用户发来的文件请求；文件缓存模块用于缓存通过辅助节点转发的文件，辅助节点日志记录模块用于记录请求数据；强化学习模块包含了数据预处理、经验池队列、神经网络三个部分，数据预处理用于对数据的格式进行转换，经验池队列用于缓存训练数据，神经网络用于计算强化学习输出动作。

进一步的，将文件的生存时间、被请求的次数，请求次数的增长率作为文件的特征F，辅助节点日志记录模块将(F_r,t_r,R_r)作为一条日志记录进行记录，其中F_r为请求的文件特征，t_r为请求的时间，R_r为请求结果，服务器日志记录模块将[F_r,(F_h,1,F_h,2,F_h,3,…,F_h,L),t_r,a]作为一条日志记录,(F_h,1,F_h,2,F_h,3,…,F_h,L)当为当前辅助节点中的缓存的所有文件的特征，a为辅助节点设备采取的删除动作，辅助节点日志记录用于计算强化学习的reward，服务器端的日志记录作为强化学习模块的训练样本。

进一步的，所述服务器的训练数据筛选模块对服务器设备中所有的辅助节点设备的请求进行汇总统计；设当前辅助节点设备为H₁，与H₁距离小于R的范围内所有节点为N＝{n₁,n₂,…,n_s},服务器会将来自N中所有辅助节点设备的请求记录回送到辅助设备H₁，用于神经网络的训练；在数据回送时，采取的策略为：上一次请求和本次请求r₀间隔时间Δt，在Δt时间内当前节点没有请求数据，服务器N中所有节点产生的请求记录为R＝{r₁,r₂,…,r_s},(s≥0)，r_s表示一条数据请求的记录本次请求发生后服务器会将R和r一起回送到辅助节点设备的强化学习模块。

进一步的，所述强化学习模块的神经网络模块包括神经网络A和神经网络B，经验池队列不断更新经验池数据，神经网络A用于在用户发起文件请求时计算当前是否需要缓存请求的文件，神经网络B用于使用不断更新的经验池的数据对自身参数进行更新，并在训练一定时间后用已经适应了新环境的神经网络B中的参数替换适应旧环境的神经网络B，达到动态更新缓存策略的目的；经验池维持着一个长度为M的左进右出的双向数据队列，所述队列中的数据有M条时，新的数据会从队列左端进入队列，旧的数据会从队列右端出列，当经验池中的数据完全被替换，即上一次进行神经网络的替换后经验池又收到了M条新的请求数据，强化学习模块进行一次神经网络的替换，其中M的计算公式如下：

视频文件的平均码率为c，D2D通信中分块文件大小为b,辅助设备覆盖范围内用户数为N，平局每个用户请求30次后替换一次神经网络的参数。

进一步的，所述强化学习模块旨在通过接收来自数据预处理模块的有效命中率和辅助设备当前内部缓存信息进行学习来提高有效命中率；将能成功从非基站来源处接受到所请求的流媒体文件称之为命中，所述的流媒体请求命中率是由命中的次数参数、总的流媒体文件请求次数参数所计算得出，强化学习具体包括以下步骤：

5.1)设计每一个时间段为由X次用户流量卸载请求组成的单位时间片，令该时间段内从自身卸载成功的次数为a1，从其他用户设备进行D2D通信流量卸载成功的次数为b1，从辅助设备进行D2D通信流量卸载成功的次数为c1，则有效命中率为：

Ω＝(a1+b1+c1)/X

5.2)辅助设备的存储容量为L，神经网络状态的输入为：1×(L+1)的一维数组，数组结构为：[F₁,F₂,F₃,…,F_L,F_r]；F_L表示当前辅助设备中缓存的文件对应的全局流行度，Fr表示当前请求的文件对应的全局流行度，为当前辅助设备中已存储的流媒体文件；r为在该辅助设备覆盖范围内用户设备当前请求的文件；

5.3)神经网络状态的输出为：[a₁,a₂,……,a_L]，k(1≤k≤L+1)为代表通过神经网络输出的替换当前辅助设备缓存中下标为k的文件的权值；

5.4)将5.2)中的数组作为输入，得到5.3)所示的输出A，辅助节点删除argmax([a₁,a₂,……,a_k+1])所对应的缓存文件；

5.5)将神经网络输入数据对应的服务器日志文件记录中请求时间t_r取出，对应辅助节点中t_r的日志文件记录，用辅助节点日志记录中t_r后1000条记录计算5.1)的有效命中率，将有效命中率作为本次动作的奖励。

一种基于所述系统的D2D辅助设备缓存方法，其包括以下步骤：

辅助节点设备中的请求处理模块接受并处理来自辅助节点覆盖区域的用户发来的请求，处理请求后由文件缓存模块在辅助节点设备缓存中查询该文件，若存在该文件，则将文件发送给请求者，向服务器的服务交互模块查询文件的特征信息后在日志记录模块中进行记录，同时将记录数据送入强化学习模块，进行数据处理计算强化学习的奖励参与网络参数优化；

基站在辅助设备缓存中不存在请求文件的时候，由服务器的请求处理模块接收来自辅助节点设备的请求，并向外部网络请求该文件，将文件发送给辅助设备，辅助设备将文件发送给用户，同时将辅助节点自身的状态转化为数据输入到神经网络，辅助节点根据神经网络的输出进行文件的替换，然后将记录写入自身日志模块；

在系统运行的同时会将辅助节点的数据送入强化学习模块，而且服务器会定期根据一定策略筛选记录数据，并将其送入辅助节点设备的强化学习模块，用于优化强化学习的神经网络；神经网络在经验池中选取数据送入网络，根据数据预处理模块计算的奖励对其中的一个神经网络进行不断的训练优化，在训练一定时间后会将用于计算文件替换的神经网络的参数替换掉，提供一种根据文件流行度变化的动态策略。

本发明的优点及有益效果如下：

本发明在理想状态下，能在保护用户隐私节约用户设备能源的前提下提供较高的请求命中率的D2D通信服务，同时两个神经网络的先后更新，能及时感知文件流行度的变化，动态调整辅助节点设备的缓存策略，发挥D2D通信降低用户时延、节省网络带宽、减少基站负荷以及增加资源复用等作用。

附图说明

图1是本发明提供优选实施例工作原理图；

图2为本发明的系统整体架构图；

图3为本发明的运行流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明提供了一种基于DQN强化学习方式下的D2D通信缓存优化的系统。

如图1所示，本系统工作原理图，系统中包含服务器设备、辅助节点设备和用户设备，系统通过用户设备产生的请求数据由辅助节点收集，服务器汇总处理，由辅助节点设备与基站协同工作，分析、处理、学习辅助节点D2D通信覆盖区用户的数据，为系统中的用户提供更快速的网络服务。

本系统是一种三层体系的系统，服务器层设备为服务器一般为大型服务器为大区域的用户提供无线通信服务、辅助节点设备层设备一般为有较大内存的计算机设备如：个人电脑、小型服务器，辅助节点D2D通信覆盖区设备为用户所使用的移动电话、物联网设备等。

如图2所示为本发明的系统整体框架图，该D2D通信缓存系统由服务器端的训练数据筛选模块、服务交互模块、日志记录子模块、请求处理模块；辅助节点设备的强化学习模块、请求处理模块、文件缓存模块、日志记录模块；用户所在的辅助节点D2D通信覆盖区构成。

其中，服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时，辅助节点设备向基站发起的文件请求；日志记录模块用于记录来自服务器下的所有服务节点的文件请求；服务交互模块与辅助节点进行交互，发送对应文件的特征信息；训练数据筛选模块中包含了数据与处理、数据筛选、数据回送模块，其功能为在基站记录中根据策略筛选出对某一节点更有价值的数据，并将其发送给该辅助节点设备。

辅助节点设备中的请求处理模块处理来自通信覆盖区域的用户发来的文件请求；日志记录模块用于记录请求数据；强化学习模块包含了数据预处理、经验池队列、神经网络三个部分，包含了整个强化学习的所有内容：在经验池中选取数据放入神经网络计算，从数据预处理模块中计算强化学习的奖励，用于优化神经网络的参数。

如图3所示为本发明的系统整体流程图。其中辅助节点设备中的请求处理模块接受并处理来自辅助节点覆盖区域的用户发来的请求，处理请求后由文件缓存模块在辅助节点设备缓存中查询该文件，若存在该文件，则将文件发送给请求者，向服务器的服务交互模块查询文件的特征信息后在日志记录模块中进行记录，同时将记录数据送入强化学习模块，进行数据处理计算强化学习的奖励参与网络参数优化。基站在辅助设备缓存中不存在请求文件的时候，由服务器的请求处理模块接收来自辅助节点设备的请求，并向外部网络请求该文件，将文件发送给辅助设备，辅助设备将文件发送给用户，同时将辅助节点自身的状态转化为数据输入到神经网络，辅助节点根据神经网络的输出进行文件的替换，然后将记录写入自身日志模块。在系统运行的同时会将辅助节点的数据送入强化学习模块，而且服务器会定期根据一定策略筛选记录数据，并将其送入辅助节点设备的强化学习模块，用于优化强化学习的神经网络。神经网络在经验池中选取数据送入网络，根据数据预处理模块计算的奖励对其中的一个神经网络进行不断的训练优化，在训练一定时间后会将用于计算文件替换的神经网络的参数替换掉，提供一种根据文件流行度变化的动态策略，有效提高D2D系统中辅助节点设备的缓存命中率，节省大量的网络带宽，为用户提供更加快捷的网络服务。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于强化学习的D2D辅助设备缓存系统，其特征在于，包括：服务器、辅助节点设备及用户所在的辅助节点D2D通信覆盖区，所述服务器包括训练数据筛选模块、服务交互模块、服务器日志记录模块、服务器请求处理模块；所述服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时，辅助节点设备向基站发起文件请求；服务器日志记录模块用于记录来自服务器下的所有服务节点的文件请求；所述服务交互模块与辅助节点进行交互，发送对应文件的特征信息；训练数据筛选模块包括数据统计模块、数据筛选模块及数据回送模块，数据统计模块用于统计日志数据，数据筛选模块用于过滤无用数据，数据回送模块用于将筛选出来的数据回送到辅助节点；

所述辅助节点设备包括强化学习模块、请求处理模块、文件缓存模块、辅助节点日志记录模块；所述请求处理模块处理来自通信覆盖区域的用户发来的文件请求；文件缓存模块用于缓存通过辅助节点转发的文件，辅助节点日志记录模块用于记录请求数据；强化学习模块包含了数据预处理、经验池队列、神经网络三个部分，数据预处理用于对数据的格式进行转换，经验池队列用于缓存训练数据，神经网络用于计算强化学习输出结果。

2.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，将文件的生存时间、被请求的次数，请求次数的增长率作为文件的特征F，辅助节点日志记录模块将(F_r,t_r,R_r)作为一条日志记录进行记录，其中F_r为请求的文件特征，t_r为请求的时间，R_r为请求结果，服务器日志记录模块将[F_r,(F_h,1,F_h,2,F_h,3,…,F_h,L),t_r,a]作为一条日志记录,(F_h,1,F_h,2,F_h,3,…,F_h,L)当为当前辅助节点中的缓存的所有文件的特征，a为辅助节点设备采取的删除动作，辅助节点日志记录用于计算强化学习的reward，服务器端的日志记录作为强化学习模块的训练样本。

3.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，所述服务器的训练数据筛选模块对服务器设备中所有的辅助节点设备的请求进行汇总统计；设当前辅助节点设备为H₁，与H₁距离小于R的范围内所有节点为N＝{n₁,n₂,…,n_s},服务器会将来自N中所有辅助节点设备的请求记录回送到辅助设备H₁，用于神经网络的训练；在数据回送时，采取的策略为：上一次请求和本次请求r₀间隔时间Δt，在Δt时间内当前节点没有请求数据，服务器N中所有节点产生的请求记录为R＝{r₁,r₂,…,r_s},(s≥0)，r_s表示一条数据请求的记录，本次请求发生后服务器会将R和r一起回送到辅助节点设备的强化学习模块。

4.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，所述强化学习模块的神经网络模块包括神经网络A和神经网络B，经验池队列不断更新经验池数据，神经网络A用于在用户发起文件请求时计算当前是否需要缓存请求的文件,神经网络B用于使用不断更新的经验池的数据对自身参数进行更新，并在训练一定时间后用已经适应了新环境的神经网络B中的参数替换适应旧环境的神经网络A，达到动态更新缓存策略的目的；经验池维持着一个长度为M的左进右出的双向数据队列，所述队列中的数据有M条时，新的数据会从队列左端进入队列，旧的数据会从队列右端出列，当经验池中的数据完全被替换，即上一次进行神经网络的替换后经验池又收到了M条新的请求数据，强化学习模块进行一次神经网络的替换，其中M的计算公式如下：

5.根据权利要求4所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，所述强化学习模块旨在通过接收来自数据预处理模块的有效命中率和辅助设备当前内部缓存信息进行学习来提高有效命中率；将能成功从非基站来源处接受到所请求的流媒体文件称之为命中，流媒体请求命中率是由命中的次数参数、总的流媒体文件请求次数参数所计算得出，强化学习具体包括以下步骤：

Ω＝(a1+b1+c1)/X

6.一种权利要求1-5之一所述系统的基于强化学习的D2D辅助设备缓存方法，其特征在于，包括以下步骤：