CN109981723A

CN109981723A - 基于深度强化学习的文件缓存处理系统及方法、通信系统

Info

Publication number: CN109981723A
Application number: CN201910065280.7A
Authority: CN
Inventors: 何倩; 陈壮; 刘阳; 董庆贺; 梁任纲
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-07-05
Anticipated expiration: 2039-01-23
Also published as: CN109981723B

Abstract

本发明属于无线通信技术领域，公开了一种基于深度强化学习的文件缓存处理系统及方法、通信系统，所述基于深度强化学习的文件缓存处理方法包括以下步骤：缓存请求者的属性信息，每个请求缓存内容的大小和可利用的缓存资源的设备属性信息被移动基站收集，作为决策智能体的输入信息；决策智能体在设定时间范围内根据随机梯度下降方法和推演并设计缓存匹配的操作；输出一个最优的匹配，即具有最大的系统效益，分配缓存资源。仿真实验的数值结果表明，该算法可以有效地分配缓存资源，降低系统能耗，最大化系统效益。

Description

基于深度强化学习的文件缓存处理系统及方法、通信系统

技术领域

本发明属于无线通信技术领域，尤其涉及一种基于深度强化学习的文件缓存处理系统及方法、通信系统。

背景技术

目前，业内常用的现有技术是这样的：在5G网络中引入异构网络和端到端通信以提高通信速率并同时保证无缝覆盖。移动边缘计算是一种新的范例，通过在网络边缘部署计算和缓存资源来显着减少时延并避免回程网络拥塞。但是，由于时变无线信道，各种新兴应用的多样化和严格要求以及未知的流量系统，设计高性能算法以充分利用上述技术，是一个相当大的挑战，所以需要新方法来解决。由于人工智能可以促进智能资源管理，最新的研究，提出将AI与无线通信集成，以增强访问控制，计算和缓存资源分配以及信道分配，但是具体如何实施这一想法，有很多的瓶颈需要解决。此外，随着物联网设备的激增和网络规模的扩大，应用程序产生的数据量将呈指数增长。AI在利用这些数据进行深入的特征发现和事件预测方面具有很大的潜力。

综上所述，现有技术存在的问题是：由于时变无线信道，各种新兴应用的多样化和严格要求以及未知的流量系统，设计高性能算法以充分利用上述技术，是一个相当大的挑战，所以需要新方法来解决。

解决上述技术问题的难度：第一，如何实时地获取智能移动终端的可利用的缓存容量；第二，如何以一种最优的匹配方式，将缓存任务分配给具有可利用的缓存资源的智能移动终端；第三，如何并行执行缓存对匹配和带宽分配；第四，如何定义系统缓存效益函数、系统缓存成本函数。

解决上述技术问题的意义：最大化系统效益，使得空闲的智能移动设备的缓存资源得到高效地利用，减轻了基站端的缓存任务压力，减少了回程网络的通信成本，降低了时延，提高了用户体验。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度强化学习的文件缓存处理系统及方法、通信系统。

本发明是这样实现的，一种基于深度强化学习的文件缓存处理方法，所述基于深度强化学习的文件缓存处理方法包括以下步骤：

第一步，缓存请求者的属性信息，每个请求缓存内容的大小和可利用的缓存资源的设备属性信息被移动基站收集，作为决策智能体的输入信息；

第二步，决策智能体在设定时间范围内根据随机梯度下降方法和推演并设计缓存匹配和带宽分配的操作；

第三步，输出一个最优的匹配和带宽分配，即具有最大的系统效益，分配缓存资源。

进一步，所述基于深度强化学习的文件缓存处理方法进一步包括：

1)状态：S＝(Fm；Cn；Bn)，其中Fm表示文件m，Cn表示可用的缓存资源供应商n的缓存资源大小，Bn表示可用的缓存资源供应商n的带宽大小；移动基站将上述信息打包成一个状态，发送给决策智能体；

2)决策：A＝(x_mn；b_mn)，其中x_mn是二进制值，取0或1；b_mn是可利用的带宽大小；

3)奖励值：根据当前的状态和决策，决策智能体从环境中获得奖励值，奖励值的大小。

进一步，所述基于深度强化学习的文件缓存处理系统及方法、通信系统还包括：使用深度强化学习方法用来计算移动智能设备的实时的缓存资源大小，预测缓存请求者和缓存资源供应商之间的通信持续时间，并执行智能缓存对匹配和带宽资源分配策略；如果缓存请求者的内容成功存储在一个缓存供应商中，缓存请求者创建一个响应事务并将其发送给相关联的移动基站，定义三个角色包括：

缓存请求者：缓存资源受限并且有超额的缓存内容需求的移动智能设备；

移动基站：关联信号覆盖范围内的所有移动智能设备，并周期性更新所有设备的缓存资源数量信息；接受缓存请求者的缓存资源请求任务信息；广播所有收到的缓存资源请求任务信息到本地缓存资源供应商；缓存资源供应商将缓存资源的数量反馈给该移动基站；改移动基站使用深度强化学习算法匹配移动智能设备之间的缓存供需，确定每个缓存提供商可以提供的缓存资源，在所有的缓存资源供应商中选择一个最优的执行缓存任务；

缓存资源供应商：具有充足的缓存资源。

进一步，所述基于深度强化学习的文件缓存处理系统及方法、通信系统的文件缓存问题表述为优化问题，即最大化系统效益，系统效益包括缓存效益，能源成本和带宽成本，定义：

系统缓存效益函数：

S_utility＝x_mn*(g_Price_C*c_Total)

系统缓存成本函数：

S_cost＝g_Energy_C*c_Total+(c_Total/(action_band*Sp))*P

系统效益函数：

S_total＝S_utility-S_cost

具有X个移动基站的缓存网络，M个缓存请求者和N个缓存提供者。如果缓存请求者m的内容存储在缓存资源供应商n中，则x_mn＝1，否则x_mn＝0。

其中,g_Price_C是单位存储内容的价格，

c_Total是当前总缓存任务的大小；

g_Energy_C*c_Total是能源的消耗成本，g_Energy_C是单位缓存内容的能源消耗，

c_Total+(c_Total/(action_band*Sp))*P是通信的消耗成本，c_Total/(action_band*Sp是传输内容的通信时间，P是移动智能设备的发射功率，action_band是传输速率，Sp是传输速率干扰系数。

本发明的另一目的在于提供一种实现所述基于深度强化学习的文件缓存处理方法的基于深度强化学习的文件缓存处理系统，所述基于深度强化学习的文件缓存处理系统包括：云层，边缘层和用户层；

云层，利用数据挖掘等高级技术，通过预测事件，预先分配资源，使网络级业务流程从被动网络操作转变为主动网络操作；云层具备超高计算能力和足够的缓存资源，云服务器处理延迟容忍的应用程序并存储大尺寸和不太流行的内容；

时延敏感型应用程序和流行内容缓存在边缘层和用户层；在边缘层配置SDN和NFV技术，软件定义网络和网络功能虚拟化技术，进行动态资源管理和智能服务编排；

在用户层，移动基站与移动智能设备之间构成端到端网络，在移动基站处执行基于深度强化学习的文件缓存算法。

本发明的另一目的在于提供一种实现所述基于深度强化学习的文件缓存处理方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于深度强化学习的文件缓存处理方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于深度强化学习的文件缓存处理方法。

综上所述，本发明的优点及积极效果为：仿真实验的数值结果表明，该算法可以有效地分配缓存资源和带宽资源，降低系统能耗，最大化系统效益。从图3的对比实验中可以发现，使用本发明的算法，可以同时执行高速缓存对匹配和动态带宽分配，而一般缓存方案仅执行高速缓存对匹配，相比之下，采用本发明的方法可以提升系统效益约23％。从图4中的对比实验中可以发现，在使用本发明算法时，会受到深度强化学习中的学习率的影响，当学习率为0.001时，获得最大的系统效益并且会收敛，当学习率分别为0.01、0.0015、0.00015时，系统效益同样会达到向上收敛的稳态，即表明这种系统最大效益是稳定的。

附图说明

图1是本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统结构示意图。

图2是本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统流程图。

图3是本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统的并行执行高速缓存对匹配和动态带宽分配与仅执行高速缓存对匹配的数值仿真对比系统效益图。

图4是本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统的采取不同学习率的数值仿真对比系统效益图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的仿真实验的数值结果表明，该算法可以有效地分配缓存资源，降低系统能耗，最大化系统效益。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统包括：云层，边缘层和用户层。

在云层配备了许多高性能服务器，使得云层具备强大的计算，缓存资源；利用数据挖掘等高级技术，通过预测事件，预先分配一些资源，使网络级业务流程从被动网络操作转变为主动网络操作；云层具备超高计算能力和足够的缓存资源，云服务器可以处理延迟容忍的应用程序并存储大尺寸和不太流行的内容。

时延敏感型应用程序(如：多媒体视频流)和流行内容缓存在边缘层和用户层；在边缘层配置SDN和NFV技术，即软件定义网络和网络功能虚拟化技术，进行动态资源管理和智能服务编排；

如图2所示，本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统包括以下步骤：

S201：缓存请求者的属性信息，每个请求缓存内容的大小和可利用的缓存资源的设备属性信息被移动基站收集，作为决策智能体的输入信息；

S202：决策智能体在设定时间范围内根据随机梯度下降方法和推演并设计缓存匹配的操作；

S203：最终输出一个最优的匹配，即具有最大的系统效益，分配缓存资源。

本发明实施例提供的基于深度强化学习的文件缓存处理方法有三个关键要素，即状态，决策，和奖励值：

1)状态：S＝(Fm；Cn；Bn)，其中Fm表示文件m，Cn表示可用的缓存资源供应商n的缓存资源大小，Bn表示可用的缓存资源供应商n的带宽大小。移动基站将上述信息打包成一个状态，发送给决策智能体。

2)决策：A＝(x_mn；b_mn)，其中x_mn是二进制值，取0或1；b_mn是可利用的带宽大小。

3)奖励值：根据当前的状态和决策，决策智能体从环境中获得奖励值。奖励值的大小

与目标函数有关，在本发明的基于深度强化学习的文件缓存处理方法中，系统效益函数即为奖励函数。

由于移动基站具有有限缓存资源，所以需要充分利用可用资源，在端到端网络中，移动智能设备之间以协同作业地方式提供分布式边缘缓存资源共享服务，也就是说，对于需要更多缓存资源的移动智能设备可以选择任何其他具有足够缓存资源的移动智能设备作为其服务提供商。

本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统，已知某个移动基站周围的所有的移动智能设备的最初的缓存资源的大小。使用深度强化学习方法用来计算移动智能设备的实时的缓存资源大小，预测缓存请求者和缓存资源供应商之间的通信持续时间，并执行智能缓存对匹配和资源分配策略，以提高缓存命中率或系统效用。如果缓存请求者的内容成功存储在一个缓存供应商中，缓存请求者创建一个响应事务并将其发送给相关联的移动基站。定义三个角色包括：

移动基站：1.关联信号覆盖范围内的所有移动智能设备，并周期性(一次缓存任务的完成时间)更新所有设备的缓存资源数量信息；2.接受缓存请求者的缓存资源请求任务信息；3.广播所有收到的缓存资源请求任务信息到本地缓存资源供应商；4.缓存资源供应商将缓存资源的数量反馈给该移动基站；5.该移动基站使用深度强化学习算法匹配移动智能设备之间的缓存供需，确定每个缓存提供商可以提供的缓存资源，在所有的缓存资源供应商中选择一个最优(缓存请求者和缓存资源供应商之间的通信持续时间最短，即带宽最大)的执行缓存任务。

缓存资源供应商：具有充足的缓存资源。

本发明实施例提供的基于深度强化学习的文件缓存处理系统及方法、通信系统的文件缓存问题可以表述为优化问题，即最大化系统效益，系统效益包括缓存效益，能源成本和带宽成本，定义：

系统缓存效益函数：

S_utility＝x_mn*(g_Price_C*c_Total)

系统缓存成本函数：

S_cost＝g_Energy_C*c_Total+(c_Total/(action_band*Sp))*P

系统效益函数：

S_total＝S_utility-S_cost

具有X个基站的缓存网络，M个缓存请求者和N个缓存提供者。如果缓存请求者m的内容存储在缓存资源供应商n中，则x_mn＝1，否则x_mn＝0。

其中,g_Price_C是单位存储内容的收益，

c_Total是当前总缓存任务的大小；

下面结合实验对本发明的应用效果作详细的描述。

在仿真实验场景中，在一个移动基站的信号有效覆盖范围内，有30个缓存请求者，8个缓存资源供应商，随机的从{20,22,24,28，30,32,34,40}(单位：GB)中选择一个数值作为自身可利用的缓存资源大小，其相应的带宽资源大小随机的从{15,18,21,24,27,30,33,37}(单位：MHz),中选取,每个任务文件的大小随机的从{2,4,8}(单位：GB)中选取。

从图3的对比实验中可以发现，使用本发明的算法，可以同时执行高速缓存对匹配和动态带宽分配，而一般缓存方案仅执行高速缓存对匹配。从图3中，可以得出几个观察结果。首先，与基线方案相比，基于本发明的算法的文件缓存方案的累积平均系统效益显然是最高的，高出一般缓存方案约23％。通过动态带宽分配，联合缓存方案可以优化缓存资源供应商和缓存请求者之间的通信速率，以降低无线通信的能源成本。但是，一般缓存方案只为每个缓存请求者选择一个合适的缓存资源供应商，由于端到端网络中有限的带宽资源，限制了通信连接持续时间，可能导致文件传输失败。

从图4中的对比实验中可以发现，在使用本发明算法时，会受到深度强化学习中的学习率的影响，当学习率为0.001时，获得最大的系统效益并且会收敛，即这种系统最大效益稳定的。虽然当学习率不同时，系统的最大效益可能会有数值差异，但是其各自对应的曲线都会在训练250次时收敛，表明本发明的算法是稳定可行的。

通过以上的数值仿真实验，证明本发明是科学可行的，能直接带来约23％的系统效益的提升。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的文件缓存处理方法，其特征在于，所述基于深度强化学习的文件缓存处理方法包括以下步骤：

第二步，决策智能体在设定时间范围内根据随机梯度下降方法和推演并设计缓存匹配的操作；

第三步，输出一个最优的匹配，即具有最大的系统效益，分配缓存资源。

2.如权利要求1所述的基于深度强化学习的文件缓存处理方法，其特征在于，所述基于深度强化学习的文件缓存处理方法进一步包括：

3)奖励值：根据当前的状态和决策，决策智能体从环境中获得奖励值，奖励值的大小与目标函数有关，在本发明中，系统效益函数即为奖励函数。

3.如权利要求1所述的基于深度强化学习的文件缓存处理方法，其特征在于，所述基于深度强化学习的文件缓存处理方法还包括：使用深度强化学习方法用来计算移动智能设备的实时的缓存资源大小，预测缓存请求者和缓存资源供应商之间的通信持续时间，并执行智能缓存对匹配和带宽资源分配策略；如果缓存请求者的内容成功存储在一个缓存供应商中，缓存请求者创建一个响应事务并将其发送给相关联的移动基站，定义三个角色包括：

移动基站：关联信号覆盖范围内的所有移动智能设备，并周期性更新所有设备的缓存资源数量信息；接收缓存请求者的缓存资源请求任务信息；广播所有收到的缓存资源请求任务信息到本地缓存资源供应商；缓存资源供应商将缓存资源的数量反馈给该移动基站；该移动基站使用深度强化学习算法匹配移动智能设备之间的缓存供需，确定每个缓存提供商可以提供的缓存资源，并优化带宽资源分配，在所有的缓存资源供应商中选择一个最优的执行缓存任务；

缓存资源供应商：具有充足的缓存资源。

4.如权利要求1所述的基于深度强化学习的文件缓存处理方法，其特征在于，所述基于深度强化学习的文件缓存处理方法的文件缓存问题表述为优化问题，即最大化系统效益，系统效益包括缓存效益，能源成本和带宽成本，定义：

系统缓存效益函数：

S_utility＝x_mn*(g_Price_C*c_Total)

系统缓存成本函数：

S_cost＝g_Energy_C*c_Total+(c_Total/(action_band*Sp))*P

系统效益函数：

S_total＝S_utility-S_cost

具有X个移动基站的缓存网络，M个缓存请求者和N个缓存提供者；如果缓存请求者m的内容存储在缓存资源供应商n中，则x_mn＝1，否则x_mn＝0；

其中,g_Price_C是单位存储内容的价格，

c_Total是当前总缓存任务的大小；

5.一种实现权利要求1所述基于深度强化学习的文件缓存处理系统及方法、通信系统，其特征在于，所述基于深度强化学习的文件缓存处理系统包括：云层，边缘层和用户层；

6.一种实现权利要求1～5任意一项所述基于深度强化学习的文件缓存处理方法的计算机程序。

7.一种实现权利要求1～5任意一项所述基于深度强化学习的文件缓存处理方法的信息数据处理终端。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的基于深度强化学习的文件缓存处理系统及方法、通信系统。