CN111292001A

CN111292001A - 基于强化学习的联合决策方法及装置

Info

Publication number: CN111292001A
Application number: CN202010110462.4A
Authority: CN
Inventors: 朱文武; 王智; 叶佳辉; 李子纯
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-16
Anticipated expiration: 2040-02-24
Also published as: CN111292001B

Abstract

本申请实施例公开一种基于强化学习的联合决策方法及装置。所述方法包括A1、通过演说家‑评论家网络的演说家网络根据输入的环境状态观测值，输出决策变量的动作概率分布；A2、通过所述演说家‑评论家网络的评论家网络根据输入的环境状态观测值，输出当前状态的价值估计；A3、根据所述决策变量的动作概率分布和所述当前状态的价值估计，得到优势函数的估计值；A4、使用所述演说家‑评论家网络和基于所述优势函数的策略梯度算法，利用过往的内容访问数据进行训练，得到深度强化学习的模型，从而实现输出联合决策策略。所述装置可实现所述方法。本申请实施例可在不需要先验信息的情况下最大化使用者的长期利益。

Description

基于强化学习的联合决策方法及装置

技术领域

本申请涉及网络和强化学习技术领域，特别涉及一种基于强化学习的联合决策方法及装置。

背景技术

在当前的工程技术中，服务提供商要么静态地设置缓存策略，要么单一地动态调整缓存空间大小或者动态选择缓存替换策略，但是缓存空间分配与缓存策略调整是互相耦合的决策，当前的方式无法选择最佳的决策组合，使得缓存效率是次优的。

最新的研究成果中主要采用两种方法来实现动态缓存：

1)在固定缓存替换策略的情况下，通过求解最大效用优化问题来动态决策所需缓存空间大小，这种方法需要假设已知内容的到达率或流行度分布，很难在真实系统中取得理想的性能；

2)在固定缓存空间大小的情况下，动态决策缓存替换策略；在类别型策略选择场景中，一些方法通过在几个专家策略中选择最优的来动态决策缓存替换策略；在离散型策略选择场景中，一些方法通过选择一个最优参数来动态决策缓存替换策略；这类方法主要适合于频繁进行缓存替换操作的场景，无法处理需要间隔一段时间更新缓存配置的场景。

美国专利公开号为US8965819B2的专利文献1，提出基于神经网络的缓存算法替换框架，通过收集缓存系统性能相关参数(如缓存命中率、数据吞吐率、缓存相应速度等)，挖掘缓存内容的访问模式、检测访问模式的变化、决策缓存替换算法，从而使用神经网络或强化学习的方法训练神经网络的输入-输出传递函数，最大化短期或长期的缓存系统收益，提高缓存收益。当缓存系统参数变化时迭代地选择并应用新的缓存替换算法，具体的，当缓存系统性能差于设定的阈值时，触发神经网络的推断功能，决策新的缓存替换算法，若系统性能未得到提升，则迭代地选择并应用新的缓存替换算法。专利文献1是单纯决策缓存替换策略。

以上背景技术内容的公开仅用于辅助理解本申请的发明构思及技术方案，其并不必然属于本申请的现有技术，在没有明确的证据表明上述内容在本申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本申请提出一种基于强化学习的联合决策方法及装置，可在不需要先验信息的情况下最大化使用者的长期利益。

在第一方面，本申请提供一种基于强化学习的联合决策方法，包括：

A1、通过演说家-评论家网络的演说家网络根据输入的环境状态观测值，输出决策变量的动作概率分布；

A2、通过所述演说家-评论家网络的评论家网络根据输入的环境状态观测值，输出当前状态的价值估计；

A3、根据所述决策变量的动作概率分布和所述当前状态的价值估计，得到优势函数的估计值；

A4、使用所述演说家-评论家网络和基于所述优势函数的策略梯度算法，利用过往的内容访问数据进行训练，得到深度强化学习的模型，从而实现输出联合决策策略。

在一些优选的实施方式中，所述A4包括：A41、在训练的过程中，针对离散型策略选择场景和类别型策略选择场景应用不同的正则化约束。

在一些优选的实施方式中，所述A41具体为：引入高斯分布作为引导策略，并在损失函数中加入所述演说家网络输出的动作概率分布和所述引导策略之间的瓦瑟斯坦距离作为额外的约束项。

在一些优选的实施方式中，所述环境状态观测值包括内容得分函数c_t，c_t＝x_t+δ_tc_t-1；其中，x_t为时刻t的内容请求次数，δ_t为指定决策变量的取值。

在一些优选的实施方式中，所述方法为基于强化学习的边缘网络多模态联合弹性缓存决策方法，所述决策变量包括缓存空间大小和缓存替换策略，所述决策变量的动作概率分布包括缓存空间大小的概率分布和缓存替换策略的概率分布。

在一些优选的实施方式中，所述环境状态观测值包括当前时刻t的收益r_t，r_t＝λ*h_t-d_t，其中，h_t为已被缓存的内容的请求命中数，λ为每一次缓存命中带来的收益，d_t为当前租赁缓存单元所收取的费用。

在第二方面，本申请提供一种基于强化学习的联合决策装置，可实现上述方法。

在第三方面，本申请提供一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行上述方法。

与现有技术相比，本申请实施例的有益效果有：

演说家-评论家网络的演说家网络根据输入的环境状态观测值输出决策变量的动作概率分布，评论家网络则根据输入的环境状态观测值输出当前状态的价值估计，如此，可得到优势函数的估计值；使用演说家-评论家网络和基于优势函数的策略梯度算法，利用过往的内容访问数据进行训练，得到深度强化学习的模型。本申请实施例可在不需要先验信息的情况下最大化使用者的长期利益；具体在弹性缓存租赁与策略配置的场景中，可在无需事先知道被请求内容的到达率和流行度的情况下，在每个时间窗口的起始时刻，高效动态地联合决策所需的缓存空间大小和缓存替换策略，可在确保缓存命中率的同时，减少购买缓存所产生的开支。

附图说明

图1为本申请一个实施例的基于强化学习的联合决策方法的流程示意图；

图2示出本申请一个实施例的联合缓存决策器的工作流示意图；

图3为本申请一个实施例的类型决策控制示意图；

图4为本申请一个实施例的离散决策控制示意图；

图5为本申请一个实施例的联合缓存决策器的内部结构示意图。

具体实施方式

为了使本申请实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合图1至图5及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本实施例提供一种基于强化学习的联合决策方法和一种基于强化学习的联合决策装置，其中，本实施例的基于强化学习的联合决策装置可实现本实施例的基于强化学习的联合决策方法。本实施例适用的用户使用场景包括但不限于：(1)弹性缓存租赁与策略配置；(2)组合投资策略选择。

对弹性缓存租赁与策略配置进行说明。对于没有能力自建内容分发网络的内容提供商来说，他们需要租用第三方服务提供商提供的弹性缓存服务，并且希望在有限的预算下最大化缓存命中率。在这种情况下，这些内容提供商需要选择适合自己的缓存空间大小与缓存替换策略，并且根据实时的内容请求情况对这两项配置进行动态更新。

对组合投资策略选择进行说明。在进行投资策略选择时，买家需要同时决策购买的金融产品与仓位大小，并且动态调整自己的投资决策来获得最大的长期投资收益。

以弹性缓存租赁与策略配置的场景为例对本实施例进行说明。本实施例基于强化学习的联合决策方法为基于强化学习的边缘网络多模态联合弹性缓存决策方法；本实施例基于强化学习的联合决策装置为基于强化学习的边缘网络多模态联合弹性缓存决策装置。

前述的内容提供商是指拥有视频、音频等多媒体内容的内容提供者，例如：爱奇艺、优酷、腾讯视频、抖音、快手等内容提供者。内容提供商有一个源服务器来存储多媒体内容。当用户发送一个内容请求给内容提供商时，如果从内容提供商的源服务器取内容，将会导致较大的延迟。如果内容被缓存到一个离用户较近的服务器，那么用户获取该内容的延迟就会大大降低。这也就是传统内容分发网络(CDN)扮演的角色，也就是：将内容缓存在离用户较近的位置，当用户发起内容请求时，从边缘缓存节点将内容传输给用户，从而降低延迟，可提供更好的用户体验。

前述的服务提供商是指提供第三方内容分发服务的实体，这里指可以提供弹性缓存租赁服务的服务提供者，例如：亚马逊的Aura、华为的uCDN。内容提供者的请求需求随时间波动，且之前一段时间被频繁请求的内容可能在未来只有极少量的请求，需要缓存更有价值的内容。基于以上情况，这些弹性缓存租赁服务提供商允许内容提供商动态调整其缓存配置策略来达到动态更新缓存内容的目的，也就是，动态调整：1)租赁的缓存空间，2)缓存替换策略。这两个决策变量共同决定了内容提供商将在服务提供商中缓存哪些内容，并对其进行动态调整以获得最大长期回报。

本实施例的基于强化学习的边缘网络多模态联合弹性缓存决策装置主要包括联合缓存决策器。

本实施例所提出的联合缓存决策器采用深度强化学习的方法来解决联合缓存决策的问题。

参考图1，本实施例的基于强化学习的边缘网络多模态联合弹性缓存决策方法包括步骤A1至步骤A4。

步骤A1、通过演说家-评论家网络的演说家网络根据输入的环境状态观测值，输出决策变量的动作概率分布。

本实施例的联合缓存决策器包括一个演说家-评论家网络。如图5中框I所示，演说家-评论家网络的上半部分为演说家网络，接受的输入为环境状态观测值，输出为两个决策变量的动作概率分布，也就是动作a_t ¹的概率分布和动作a_t ²的概率分布；在本实施例中，两个决策变量分别为缓存空间大小和缓存替换策略，如此，动作a_t ¹的概率分布为缓存空间大小的概率分布和缓存替换策略的概率分布。

步骤A2、通过演说家-评论家网络的评论家网络根据输入的环境状态观测值，输出当前状态的价值估计。

参考图5，演说家-评论家网络的下半部分为评论家网络，接受的输入同样为环境状态观测值，输出的是当前状态的价值估计V(s_t)。

价值估计函数V(s_t)表示的是该状态在采取所有不同动作下的回报的期望。

步骤A3、根据决策变量的动作概率分布和当前状态的价值估计，得到优势函数的估计值。

将联合缓存决策问题定义为一个马尔可夫决策过程并为其建立一个与强化学习代理(agent)交互的环境。环境的状态(state)更新主要包括如下五个部分：1)内容请求向量req_t，用一个向量来记录当前时刻t各个内容的请求次数；2)内容得分函数c_t，用来记录各个内容当前时刻t的得分值，并按从大到小的顺序排序；3)根据演说家网络输出的动作a_t ¹(租赁的缓存空间大小)来选择得分排名前a_t ¹个内容进行缓存；4)根据3)中的结果更新缓存内容及其已缓存时长的大小，具体来说，如果该内容在t-1时刻已被缓存，则对其现有的缓存时长+1，反之，则对其缓存时长置1；5)计算当前时刻t的收益r_t，r_t＝λ*h_t-d_t。

参考图2，联合缓存决策器被允许每隔一段时间更新一次联合决策，例如每隔一小时。一个简单的决策场景是：关于租赁缓存空间大小，内容提供商的每个内容的大小等于一个缓存单元的容量大小，也就是内容提供商每次需要决策需要租赁多少个缓存单元。而关于缓存替换策略的选择，服务提供商提供：1)最不经常使用算法(LFU)、2)最近最少使用算法(LRU)、3)随机替换策略(Random)三种，供每次决策时任选其一。比如某一次决策时，联合缓存决策器输出：<10,2>，即代表当前轮，租用10个缓存单元，选择LRU内容替换策略。当联合缓存决策器将前述决策发送给服务提供商后，服务提供商返回当前轮中：1)已被缓存的内容的请求命中数h_t，以及2)当前租赁10个缓存单元所收取的费用d_t。由于在较近节点使用缓存内容服务用户将提供更低的延迟和更好的用户体验，也会节省内容提供商源服务器的维护成本，因此可设置每一次缓存命中将带来λ的收益。如此，每一轮决策过后，联合缓存决策器得到的收益(或者奖励)计为：r_t＝λ*h_t-d_t。

如此，根据状态价值V(s_t)，可进一步得到优势函数的估计值A(s_t)＝r_t+γV(s_t+1)-V(s_t)，其中，γ表示强化学习中奖励折算的折扣因子，r_t表示当前时刻t的收益(或者说奖励)。

步骤A4、使用演说家-评论家网络和基于优势函数的策略梯度算法，利用过往的内容访问数据进行训练，得到深度强化学习的模型，从而实现输出联合决策策略。

通过训练神经网络及更新策略梯度，得到联合缓存决策策略。

得到深度强化学习的模型后，当在新的请求数据上进行测试时，在每个决策窗口的起始时刻，输入状态表征，策略网络即可输出联合缓存决策，获得当前时刻下的联合缓存决策，即缓存租用大小和缓存替换策略。

如图3和图4所示，本实施例的控制场景可分为“类型控制”和“离散控制”。

图3所示为“类型决策控制”示意图。由于现有强化学习算法本质上是用来解决类型决策控制问题，也就是说，动作变量之间彼此独立且等距，不存在临近或相关关系。在本实施例的联合缓存决策背景下，用如图3和图4所示例子来说明类型决策变量与离散决策变量的区别。图3所示场景为：关于缓存替换策略部分，在每次决策时，服务提供商允许内容提供商从1)最不经常使用算法(LFU)、2)最近最少使用算法(LRU)、3)随机替换策略(Random)三种不同策略中选择其一。可以等价为，当前控制场景下，决策变量的取值虽然为{1,2,3}，但这三种策略可看作互相独立，也就是说这里决策变量之间无相关性或邻近性，因此这部分决策本质上可看作一个分类问题。

图4所示为“离散控制”示意图。本实施例提供了一种包含所有基于内容访问频率及临近性的缓存替换策略的通用表达式c_t＝x_t+δ_tc_t-1，c_t为内容得分函数，x_t为时刻t的内容请求次数，δ_t为指定决策变量的取值。在本实施例中，δ_t为缓存替换策略的取值。上述通用表达式的通用性体现在：当δ_t＝0时，相当于决策器一直选择LRU作为缓存替换策略；当δ_t＝1时，相当于决策器一直选择LFU作为缓存替换策略；除此之外，其他的δ_t取值组合代表了各种在访问频率和邻近性之间的折衷。在此通用表达式下，只需要决策一个参数δ_t即可动态选择缓存替换策略，在提升性能的同时大大减小了决策维度和探索难度。显然，在这种策略选择场景下，决策变量的取值δ_t为[0,1]，不同决策变量之间存在相关性和邻近性；示例的，δ_t＝0.1与δ_t＝0.2的距离比δ_t＝0.1与δ_t＝0.9的距离小。因此，这部分决策可看作对决策变量有精度限制的回归问题，把这类决策称之为“离散控制”问题。同理，对于租赁缓存空间大小的决策，也是离散控制问题。

传统强化学习算法在解决“离散控制”问题时，会出现图5中框III的小框中所示弊端：给定一个输入状态，预期的输出动作概率分布是一个类似高斯分布的单峰分布，但实际输出可能出现非预期的分布，且破坏了决策变量原有的邻近性的特性。由于现有强化学习方法在解决“离散控制”问题时存在这样的弊端，因此，本实施例的步骤A4包括步骤A41：在训练的过程中，针对离散型策略选择场景和类别型策略选择场景应用不同的正则化约束；具体的，引入高斯分布作为引导策略，并在损失函数中加入演说家网络的输出动作概率分布和引导策略之间的瓦瑟斯坦距离作为额外的约束项，以此使得本实施例的联合缓存决策器在离散控制场景下也有很好的性能表现。

本实施例提出第一个用于联合弹性缓存决策的统一框架。它是一种基于深度强化学习的方法，用于同时选择缓存大小和缓存替换策略，从而自适应地学习不同请求负载下的联合缓存策略，而不需要先验信息来最大化内容提供商(CP)的长期利益。本实施例可在无需事先知道被请求内容的到达率和流行度的情况下，在每个时间窗口的起始时刻，高效动态地联合决策所需的缓存空间大小和缓存替换策略。本实施例使用无模型强化学习的方法，根据内容提供商的请求状态、当前缓存状态、缓存收费情况，同时动态调整租赁的缓存空间和缓存替换策略，而非单纯决策缓存替换策略，从而最大化内容提供商的长期回报，可以在弹性缓存租用场景中最大化内容提供商的收益，可准确地为租户联合决策每个时间窗口所需的缓存空间大小与缓存替换策略，可在确保缓存命中率的同时减少购买缓存所产生的开支。

本实施例利用内容访问的历史信息建立一个深度强化学习的环境，其中状态量(或者说观测量)包含长短期访问频率特征、当前缓存内容及对应被缓存时长；动作包含两部分：所需的缓存空间大小、所选的缓存替换策略；回报(收益)定义为当前时间窗口的收益减去支出；借助于演员-评论家结构、基于优势函数的策略梯度算法和结合长短期请求模式的高效状态表征，本实施例的框架在离散型策略选择和类别型策略选择场景中，都能有良好的性能表现。

在离散型策略选择场景中，本实施例通过引入瓦瑟斯坦距离损失来约束策略网络的输出概率分布，使其具有平滑变化的特性，来更好地保持动作变量之间的结构信息。

本实施例提供一种包含所有基于内容访问频率及临近性的缓存替换策略的通用表达式，只需要决策一个参数即可选择最优动态缓存替换策略，可在提升性能的同时大大减小决策维度和探索难度。

本实施例采用在线更新的方式更新策略网络，网络以最新的策略与缓存系统交互，做出决策的同时收集新的训练数据，使得本实施例可以更快更好地适应请求模式和缓存系统状态的变化。

本实施例的方法同时适用于决策变量是浮点数、整数、有限位数小数的应用场景。因此，本实施例的应用场景包括但不限于联合缓存决策，其他不同场景下的以优化长期收益为目标的联合决策也依然适用。本实施例适用于广泛的场景，使用者可根据任务目标来决定所选择的决策变量的精度，可同时支持整数与浮点数决策变量，且用户可以根据需要调整决策粒度，比如小数点后位数。此外，收益函数r_t的设定也有很大的灵活性，灵活的参数使用户可以根据需要自定义收益函数和收益时间范围。

本领域的技术人员可以理解实施例方法中的全部或部分流程可以由计算机程序来命令相关的硬件完成，程序可存储于计算机可读取存储介质中，程序在执行时，可包括如各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上内容是结合具体/优选的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本申请的保护范围。

Claims

1.一种基于强化学习的联合决策方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于所述A4包括：A41、在训练的过程中，针对离散型策略选择场景和类别型策略选择场景应用不同的正则化约束。

3.根据权利要求2所述方法，其特征在于所述A41具体为：引入高斯分布作为引导策略，并在损失函数中加入所述演说家网络输出的动作概率分布和所述引导策略之间的瓦瑟斯坦距离作为额外的约束项。

4.根据权利要求1所述方法，其特征在于：所述环境状态观测值包括内容得分函数c_t，c_t＝x_t+δ_tc_t-1；其中，x_t为时刻t的内容请求次数，δ_t为指定决策变量的取值。

5.根据权利要求1所述方法，其特征在于：所述方法为基于强化学习的边缘网络多模态联合弹性缓存决策方法，所述决策变量包括缓存空间大小和缓存替换策略，所述决策变量的动作概率分布包括缓存空间大小的概率分布和缓存替换策略的概率分布。

6.根据权利要求5所述方法，其特征在于：所述环境状态观测值包括当前时刻t的收益r_t，r_t＝λ*h_t-d_t，其中，h_t为已被缓存的内容的请求命中数，λ为每一次缓存命中带来的收益，d_t为当前租赁缓存单元所收取的费用。

7.一种基于强化学习的联合决策装置，其特征在于：可实现根据权利要求1至6任一项所述方法。

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行根据权利要求1至6任一项所述方法。