CN111400031A

CN111400031A - 面向处理单元部署的基于值函数的强化学习方法

Info

Publication number: CN111400031A
Application number: CN202010135253.5A
Authority: CN
Inventors: 胡昊; 王禹又; 匡宏宇; 陶先平
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-03-01
Filing date: 2020-03-01
Publication date: 2020-07-10
Anticipated expiration: 2040-03-01
Also published as: CN111400031B

Abstract

本发明公开了面向处理单元部署的基于值函数的强化学习方法，对于基于值函数更新的此类强化学习方法，提供了一种将处理单元图部署在物理节点上的对应框架，充分利用强化学习能够通过多次部署尝试得到处理单元部署的更优方案的优点，得到使处理单元图部署后的响应时间更低的部署方法。本发明根据复杂事件处理在边缘计算环境下的特性，来预测响应时间。并根据复杂事件处理响应时间的特性，针对限制了处理单元图整体响应时间的处理单元进行优先部署，来降低处理单元图整体响应时间。

Description

面向处理单元部署的基于值函数的强化学习方法

技术领域

本发明涉及面向处理单元部署的基于值函数的强化学习方法，对代表多个用户的多个处理单元图，通过其响应时间预测，部署在一个资源受限的网络中，以获得该处理单元图平均响应时间最低的效果。

背景技术

流处理技术通过处理大量实时数据流来发掘数据中潜在的语义，基于分布式内存，对不断产生的动态数据进行处理。具有数据处理快速，高效，低延迟的特点。流处理技术的核心是处理单元，处理单元以图的形式组织，用以处理数据。

处理单元图需要一定的计算资源来完成任务。在大多数情况下，拥有计算资源的物理节点由于地理因素、成本因素，通常是分布式的。将处理单元部署在分布式计算节点上，需要从多方面考虑部署方案。

在现有的部署方案中，通常考虑将应用部署在最近的网络节点中运行，以达到尽可能小的传输时延以及尽可能小的网络传输量。但是当数据量大幅度增加时，最近的网络节点可能发生拥塞，无法满足响应时间需求。现有技术中仍然需要解决的问题。一方面，系统无法判断一种部署方式是否会发生拥塞。另一方面，系统无法判断如何部署是最合适的。若集中部署于最近的节点，当数据量增加时，会导致拥塞。若为了避免拥塞，分散地部署又会增加传输时延以及网络传输量，造成系统性能下降。

强化学习方法是一种有效的针对这类优化问题的解决方案。在强化学习中，包含智能体和环境两个实体。在本文中，智能体对应处理单元部署决策算法，环境对应边缘环境。智能体可以观察到环境的状态，并根据该状态选择相应的动作。该动作会对环境产生一定影响，使得环境的状态有一定概率发生改变，称为状态转移概率。上述强化学习过程通常被描述为马尔可夫决策过程。该影响的好坏由事先定义的奖赏函数衡量。

发明内容

本发明针对现有技术中的不足，本发明提出了面向处理单元部署的基于值函数的强化学习方法来降低处理单元图的平均响应时间。

本发明监控附近的边缘节点之间的传输速率，边缘节点处理事件的吞吐率，以及各个处理单元图的事件输入率，作为基于值函数更新的强化学习框架的参数。根据强化学习算法，选出处理单元图中的关键路径中未部署的处理单元。为该处理单元选出响应时间最小的边缘节点。如此重复直至所有处理单元均被部署。

为实现上述目的，本发明采用以下技术方案：

面向处理单元部署的基于值函数的强化学习方法，其特征在于，包括如下步骤：

步骤1：监控处理单元图部署必要的参数，包括传输速率、处理事件的吞吐率和事件输入率，以便后续将处理单元部署在适当的节点上；

步骤2：强化学习方法建模：将事件输入率作为状态，根据强化学习模型以及事件输入率的状态s，将强化学习模型中的动作a定义为：在节点资源受限情况下，监控数据源附近的满足资源条件的节点作为候选节点，并选择适当的节点部署；

步骤3：训练：根据步骤2观察到的事件输入率的状态，以及状态-动作值函数更新方式，按照如下方式选择动作a：以ε的概率随机选择满足资源条件的节点部署；以1-ε的概率选择这样的边缘节点部署：满足策略π的映射关系，即在当前策略下，根据当前状态-动作值函数，选择使得值函数最大的动作；记录执行动作后的处理单元图响应时间，作为执行动作得到的奖赏，观察下一个事件输入率的状态，重复步骤3直至达到一定的训练时间；

步骤4：实施：根据训练得到的部署策略，观察事件输入率的状态，并根据训练好的策略执行动作，直到部署所有节点。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤1中，在H跳以内的边缘网络环境下，边缘节点V_edge定期收集边缘节点之间的传输速率w、边缘节点处理事件的吞吐率λ以及各个处理单元图的事件输入率r。

进一步地，步骤1中，对于一个处理单元的事件输入率，避免由于抖动导致变化过大，采用最近t时间内的平均值；根据各个处理单元最近t时间内每秒t_i的数据输入量为n(t_i)，从而计算出平均事件输入速率

(ω_i)作为处理单元图的事件输入率：

进一步地，步骤2中，根据一个处理单元的事件输入率的最高值和最低值，将事件输入率平均划分为7个状态s，分别为lowest，low，slow，middle，shigh，high，highest。

进一步地，步骤2中，策略π由以下公式定义：

表示从状态S到可能选择动作A的映射。

进一步地，步骤3中，ε为探索-利用概率，探索是指随机选择资源足够的节点部署，利用是指选择当前最有利的动作：期望得到的响应时间最小；ε根据如下公式逐步减小：

其中，N_r为很大的常数，count为当前状态学习的次数，ε₀为初始概率，ε_e为结束概率。

进一步地，步骤3包括以下步骤：

步骤3.1：初始时，将处理单元部署在最靠近数据源的节点上；观察下一个事件输入率的状态s₁，并记录得到的奖赏r₁，初始化策略π；

步骤3.2：根据如下公式更新状态-动作值函数Q(s，a)：

Q(s_i，a_i)←Q(s_i，a_i)+α[r+γQ(s_i+1，a_i+1)-Q(s_i，a_i)]

其中，状态-动作值函数是指在状态s下执行动作a得到的期望累积奖赏；α为学习率，下标i为观察到的状态序号，r为累积的奖赏，γ为折扣因子，根据强化学习算法取值，范围在0到1之间；

步骤3.3：按照如下方式选择下一个动作a_i+1：以ε的概率随机选择满足资源条件的节点部署；以1-ε的概率选择这样的边缘节点部署：满足策略π的映射关系，即在当前策略下，根据当前状态-动作值函数Q(s_i，a_i)，选择使得值函数最大的动作；

步骤3.4：记录执行动作后的处理单元图响应时间，作为执行动作得到的奖赏，观察下一个事件输入率的状态，重复以上步骤直至达到一定的训练时间N，训练时间是可以更改的。

进一步地，状态-动作值函数由以下公式定义：

其中，Q_π(s_t，α_t)表示策略π下，在状态s_t下执行动作a_t得到的期望累积奖赏；s_t和a_t分别表示t时刻的状态和动作，l为未来增加的时刻，

代表期望。

进一步地，步骤3.4中，奖赏由以下公式定义：

其中，T(G)为该处理单元图最长路径时延。

本发明的有益效果是：本发明根据复杂事件处理在边缘计算环境下的特性，来预测响应时间。并根据复杂事件处理响应时间的特性，针对限制了处理单元图整体响应时间的处理单元进行优先部署，来降低处理单元图整体响应时间。

附图说明

图1是本发明的场景示意图。

图2是节点部署示例图(一)。

图3是节点部署示例图(二)。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

如图1所示的面向处理单元部署的基于值函数的强化学习方法，包括如下步骤：

步骤1、监控处理单元图部署必要的参数，包括传输速率、事件输入率等参数，以便后续将处理单元部署在适当的节点上；

步骤2、强化学习方法建模：将事件输入率作为状态，根据强化学习模型以及事件输入率的状态s，强化学习模型中的动作a定义为：在节点资源受限情况下，监控数据源附近的满足资源条件的节点作为候选节点，并选择适当的节点部署；

步骤3、训练：根据步骤2观察到的事件输入率的状态，以及状态-动作值函数更新方式，按照如下方式选择动作a：以ε的概率随机选择满足资源条件的节点部署；以1-ε的概率选择这样的边缘节点部署：满足策略π的映射关系，即在当前策略下，根据当前状态-动作值函数，选择使得值函数最大的动作；记录执行动作后的处理单元图响应时间，作为执行动作得到的奖赏，观察下一个事件输入率的状态，重复步骤3直至达到一定的训练时间；

步骤4、实施：根据训练得到的部署策略，观察事件输入率的状态，并根据训练好的策略执行动作，直到部署所有节点；

步骤3的算法过程如图2、图3所示。

(1)如图2所示的一个处理单元图需要部署在网络上，对于第一个处理单元来说，有四种可以选择的动作：1)部署在节点V0上；2)部署在节点V1上；3)部署在节点V2上；4)部署在节点V3上；

(2)根据当前的ε值，假设选择q值最大的动作，则遍历图中的表，找到q值最大的动作为a3，部署在节点V3上。

(3)执行动作后，观察得到的奖赏，对应地更新q值。

本发明通过当前网络信息，处理单元信息，基于强化学习框架，根据部署策略将处理单元部署在使得响应时间更小的物理节点上。从而合理地分配网络节点中的资源，降低了处理单元图的响应时间。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.面向处理单元部署的基于值函数的强化学习方法，其特征在于，包括如下步骤：

2.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤1中，在H跳以内的边缘网络环境下，边缘节点V_edge定期收集边缘节点之间的传输速率w、边缘节点处理事件的吞吐率λ以及各个处理单元图的事件输入率r。

3.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤1中，对于一个处理单元的事件输入率，采用最近t时间内的平均值；根据各个处理单元最近t时间内每秒t_i的数据输入量为n(t_i)，从而计算出平均事件输入速率

作为处理单元图的事件输入率：

4.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤2中，根据一个处理单元的事件输入率的最高值和最低值，将事件输入率平均划分为7个状态S，分别为lowest，low，slow，middle，shigh，high，highest。

5.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤2中，策略π由以下公式定义：

表示从状态S到可能选择动作A的映射。

6.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤3中，ε为探索-利用概率，探索是指随机选择资源足够的节点部署，利用是指选择当前最有利的动作：期望得到的响应时间最小；ε根据如下公式逐步减小：

其中，N_r为常数，count为当前状态学习的次数，ε₀为初始概率，ε_e为结束概率。

7.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤3包括以下步骤：

步骤3.2：根据如下公式更新状态-动作值函数Q(s，a)：

Q(s_i，a_i)←Q(s_i，a_i)+α[r+γQ(s_i+1，a_i+1)-Q(s_i，a_i)]

步骤3.4：记录执行动作后的处理单元图响应时间，作为执行动作得到的奖赏，观察下一个事件输入率的状态，重复以上步骤直至达到一定的训练时间N。

8.如权利要求7所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：状态-动作值函数由以下公式定义：

其中，Q_π(s_t，a_t)表示策略π下，在状态s_t下执行动作a_t得到的期望累积奖赏；s_t和a_t分别表示t时刻的状态和动作，l为未来增加的时刻，

代表期望。

9.如权利要求7所述的面向处理单元部署的基于值函数的强化学习方法，其特征在于：步骤3.4中，奖赏由以下公式定义：

其中，T(G)为该处理单元图最长路径时延。