CN111400031A - 面向处理单元部署的基于值函数的强化学习方法 - Google Patents

面向处理单元部署的基于值函数的强化学习方法 Download PDF

Info

Publication number
CN111400031A
CN111400031A CN202010135253.5A CN202010135253A CN111400031A CN 111400031 A CN111400031 A CN 111400031A CN 202010135253 A CN202010135253 A CN 202010135253A CN 111400031 A CN111400031 A CN 111400031A
Authority
CN
China
Prior art keywords
processing unit
action
deployment
state
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010135253.5A
Other languages
English (en)
Other versions
CN111400031B (zh
Inventor
胡昊
王禹又
匡宏宇
陶先平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010135253.5A priority Critical patent/CN111400031B/zh
Publication of CN111400031A publication Critical patent/CN111400031A/zh
Application granted granted Critical
Publication of CN111400031B publication Critical patent/CN111400031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了面向处理单元部署的基于值函数的强化学习方法,对于基于值函数更新的此类强化学习方法,提供了一种将处理单元图部署在物理节点上的对应框架,充分利用强化学习能够通过多次部署尝试得到处理单元部署的更优方案的优点,得到使处理单元图部署后的响应时间更低的部署方法。本发明根据复杂事件处理在边缘计算环境下的特性,来预测响应时间。并根据复杂事件处理响应时间的特性,针对限制了处理单元图整体响应时间的处理单元进行优先部署,来降低处理单元图整体响应时间。

Description

面向处理单元部署的基于值函数的强化学习方法
技术领域
本发明涉及面向处理单元部署的基于值函数的强化学习方法,对代表多个用户的多个处理单元图,通过其响应时间预测,部署在一个资源受限的网络中,以获得该处理单元图平均响应时间最低的效果。
背景技术
流处理技术通过处理大量实时数据流来发掘数据中潜在的语义,基于分布式内存,对不断产生的动态数据进行处理。具有数据处理快速,高效,低延迟的特点。流处理技术的核心是处理单元,处理单元以图的形式组织,用以处理数据。
处理单元图需要一定的计算资源来完成任务。在大多数情况下,拥有计算资源的物理节点由于地理因素、成本因素,通常是分布式的。将处理单元部署在分布式计算节点上,需要从多方面考虑部署方案。
在现有的部署方案中,通常考虑将应用部署在最近的网络节点中运行,以达到尽可能小的传输时延以及尽可能小的网络传输量。但是当数据量大幅度增加时,最近的网络节点可能发生拥塞,无法满足响应时间需求。现有技术中仍然需要解决的问题。一方面,系统无法判断一种部署方式是否会发生拥塞。另一方面,系统无法判断如何部署是最合适的。若集中部署于最近的节点,当数据量增加时,会导致拥塞。若为了避免拥塞,分散地部署又会增加传输时延以及网络传输量,造成系统性能下降。
强化学习方法是一种有效的针对这类优化问题的解决方案。在强化学习中,包含智能体和环境两个实体。在本文中,智能体对应处理单元部署决策算法,环境对应边缘环境。智能体可以观察到环境的状态,并根据该状态选择相应的动作。该动作会对环境产生一定影响,使得环境的状态有一定概率发生改变,称为状态转移概率。上述强化学习过程通常被描述为马尔可夫决策过程。该影响的好坏由事先定义的奖赏函数衡量。
发明内容
本发明针对现有技术中的不足,本发明提出了面向处理单元部署的基于值函数的强化学习方法来降低处理单元图的平均响应时间。
本发明监控附近的边缘节点之间的传输速率,边缘节点处理事件的吞吐率,以及各个处理单元图的事件输入率,作为基于值函数更新的强化学习框架的参数。根据强化学习算法,选出处理单元图中的关键路径中未部署的处理单元。为该处理单元选出响应时间最小的边缘节点。如此重复直至所有处理单元均被部署。
为实现上述目的,本发明采用以下技术方案:
面向处理单元部署的基于值函数的强化学习方法,其特征在于,包括如下步骤:
步骤1:监控处理单元图部署必要的参数,包括传输速率、处理事件的吞吐率和事件输入率,以便后续将处理单元部署在适当的节点上;
步骤2:强化学习方法建模:将事件输入率作为状态,根据强化学习模型以及事件输入率的状态s,将强化学习模型中的动作a定义为:在节点资源受限情况下,监控数据源附近的满足资源条件的节点作为候选节点,并选择适当的节点部署;
步骤3:训练:根据步骤2观察到的事件输入率的状态,以及状态-动作值函数更新方式,按照如下方式选择动作a:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数,选择使得值函数最大的动作;记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复步骤3直至达到一定的训练时间;
步骤4:实施:根据训练得到的部署策略,观察事件输入率的状态,并根据训练好的策略执行动作,直到部署所有节点。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤1中,在H跳以内的边缘网络环境下,边缘节点Vedge定期收集边缘节点之间的传输速率w、边缘节点处理事件的吞吐率λ以及各个处理单元图的事件输入率r。
进一步地,步骤1中,对于一个处理单元的事件输入率,避免由于抖动导致变化过大,采用最近t时间内的平均值;根据各个处理单元最近t时间内每秒ti的数据输入量为n(ti),从而计算出平均事件输入速率
Figure BDA0002396344780000023
i)作为处理单元图的事件输入率:
Figure BDA0002396344780000021
进一步地,步骤2中,根据一个处理单元的事件输入率的最高值和最低值,将事件输入率平均划分为7个状态s,分别为lowest,low,slow,middle,shigh,high,highest。
进一步地,步骤2中,策略π由以下公式定义:
Figure BDA0002396344780000022
表示从状态S到可能选择动作A的映射。
进一步地,步骤3中,ε为探索-利用概率,探索是指随机选择资源足够的节点部署,利用是指选择当前最有利的动作:期望得到的响应时间最小;ε根据如下公式逐步减小:
Figure BDA0002396344780000031
其中,Nr为很大的常数,count为当前状态学习的次数,ε0为初始概率,εe为结束概率。
进一步地,步骤3包括以下步骤:
步骤3.1:初始时,将处理单元部署在最靠近数据源的节点上;观察下一个事件输入率的状态s1,并记录得到的奖赏r1,初始化策略π;
步骤3.2:根据如下公式更新状态-动作值函数Q(s,a):
Q(si,ai)←Q(si,ai)+α[r+γQ(si+1,ai+1)-Q(si,ai)]
其中,状态-动作值函数是指在状态s下执行动作a得到的期望累积奖赏;α为学习率,下标i为观察到的状态序号,r为累积的奖赏,γ为折扣因子,根据强化学习算法取值,范围在0到1之间;
步骤3.3:按照如下方式选择下一个动作ai+1:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数Q(si,ai),选择使得值函数最大的动作;
步骤3.4:记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复以上步骤直至达到一定的训练时间N,训练时间是可以更改的。
进一步地,状态-动作值函数由以下公式定义:
Figure BDA0002396344780000032
其中,Qπ(st,αt)表示策略π下,在状态st下执行动作at得到的期望累积奖赏;st和at分别表示t时刻的状态和动作,l为未来增加的时刻,
Figure BDA0002396344780000034
代表期望。
进一步地,步骤3.4中,奖赏由以下公式定义:
Figure BDA0002396344780000033
其中,T(G)为该处理单元图最长路径时延。
本发明的有益效果是:本发明根据复杂事件处理在边缘计算环境下的特性,来预测响应时间。并根据复杂事件处理响应时间的特性,针对限制了处理单元图整体响应时间的处理单元进行优先部署,来降低处理单元图整体响应时间。
附图说明
图1是本发明的场景示意图。
图2是节点部署示例图(一)。
图3是节点部署示例图(二)。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1所示的面向处理单元部署的基于值函数的强化学习方法,包括如下步骤:
步骤1、监控处理单元图部署必要的参数,包括传输速率、事件输入率等参数,以便后续将处理单元部署在适当的节点上;
步骤2、强化学习方法建模:将事件输入率作为状态,根据强化学习模型以及事件输入率的状态s,强化学习模型中的动作a定义为:在节点资源受限情况下,监控数据源附近的满足资源条件的节点作为候选节点,并选择适当的节点部署;
步骤3、训练:根据步骤2观察到的事件输入率的状态,以及状态-动作值函数更新方式,按照如下方式选择动作a:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数,选择使得值函数最大的动作;记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复步骤3直至达到一定的训练时间;
步骤4、实施:根据训练得到的部署策略,观察事件输入率的状态,并根据训练好的策略执行动作,直到部署所有节点;
步骤3的算法过程如图2、图3所示。
(1)如图2所示的一个处理单元图需要部署在网络上,对于第一个处理单元来说,有四种可以选择的动作:1)部署在节点V0上;2)部署在节点V1上;3)部署在节点V2上;4)部署在节点V3上;
(2)根据当前的ε值,假设选择q值最大的动作,则遍历图中的表,找到q值最大的动作为a3,部署在节点V3上。
(3)执行动作后,观察得到的奖赏,对应地更新q值。
本发明通过当前网络信息,处理单元信息,基于强化学习框架,根据部署策略将处理单元部署在使得响应时间更小的物理节点上。从而合理地分配网络节点中的资源,降低了处理单元图的响应时间。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.面向处理单元部署的基于值函数的强化学习方法,其特征在于,包括如下步骤:
步骤1:监控处理单元图部署必要的参数,包括传输速率、处理事件的吞吐率和事件输入率,以便后续将处理单元部署在适当的节点上;
步骤2:强化学习方法建模:将事件输入率作为状态,根据强化学习模型以及事件输入率的状态s,将强化学习模型中的动作a定义为:在节点资源受限情况下,监控数据源附近的满足资源条件的节点作为候选节点,并选择适当的节点部署;
步骤3:训练:根据步骤2观察到的事件输入率的状态,以及状态-动作值函数更新方式,按照如下方式选择动作a:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数,选择使得值函数最大的动作;记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复步骤3直至达到一定的训练时间;
步骤4:实施:根据训练得到的部署策略,观察事件输入率的状态,并根据训练好的策略执行动作,直到部署所有节点。
2.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤1中,在H跳以内的边缘网络环境下,边缘节点Vedge定期收集边缘节点之间的传输速率w、边缘节点处理事件的吞吐率λ以及各个处理单元图的事件输入率r。
3.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤1中,对于一个处理单元的事件输入率,采用最近t时间内的平均值;根据各个处理单元最近t时间内每秒ti的数据输入量为n(ti),从而计算出平均事件输入速率
Figure FDA0002396344770000011
作为处理单元图的事件输入率:
Figure FDA0002396344770000012
4.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤2中,根据一个处理单元的事件输入率的最高值和最低值,将事件输入率平均划分为7个状态S,分别为lowest,low,slow,middle,shigh,high,highest。
5.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤2中,策略π由以下公式定义:
Figure FDA0002396344770000013
表示从状态S到可能选择动作A的映射。
6.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤3中,ε为探索-利用概率,探索是指随机选择资源足够的节点部署,利用是指选择当前最有利的动作:期望得到的响应时间最小;ε根据如下公式逐步减小:
Figure FDA0002396344770000021
其中,Nr为常数,count为当前状态学习的次数,ε0为初始概率,εe为结束概率。
7.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤3包括以下步骤:
步骤3.1:初始时,将处理单元部署在最靠近数据源的节点上;观察下一个事件输入率的状态s1,并记录得到的奖赏r1,初始化策略π;
步骤3.2:根据如下公式更新状态-动作值函数Q(s,a):
Q(si,ai)←Q(si,ai)+α[r+γQ(si+1,ai+1)-Q(si,ai)]
其中,状态-动作值函数是指在状态s下执行动作a得到的期望累积奖赏;α为学习率,下标i为观察到的状态序号,r为累积的奖赏,γ为折扣因子,根据强化学习算法取值,范围在0到1之间;
步骤3.3:按照如下方式选择下一个动作ai+1:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数Q(si,ai),选择使得值函数最大的动作;
步骤3.4:记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复以上步骤直至达到一定的训练时间N。
8.如权利要求7所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:状态-动作值函数由以下公式定义:
Figure FDA0002396344770000022
其中,Qπ(st,at)表示策略π下,在状态st下执行动作at得到的期望累积奖赏;st和at分别表示t时刻的状态和动作,l为未来增加的时刻,
Figure FDA0002396344770000024
代表期望。
9.如权利要求7所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤3.4中,奖赏由以下公式定义:
Figure FDA0002396344770000023
其中,T(G)为该处理单元图最长路径时延。
CN202010135253.5A 2020-03-01 2020-03-01 面向处理单元部署的基于值函数的强化学习方法 Active CN111400031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135253.5A CN111400031B (zh) 2020-03-01 2020-03-01 面向处理单元部署的基于值函数的强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135253.5A CN111400031B (zh) 2020-03-01 2020-03-01 面向处理单元部署的基于值函数的强化学习方法

Publications (2)

Publication Number Publication Date
CN111400031A true CN111400031A (zh) 2020-07-10
CN111400031B CN111400031B (zh) 2023-08-22

Family

ID=71430476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135253.5A Active CN111400031B (zh) 2020-03-01 2020-03-01 面向处理单元部署的基于值函数的强化学习方法

Country Status (1)

Country Link
CN (1) CN111400031B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046351A (zh) * 2015-07-01 2015-11-11 内蒙古大学 在不确定环境中基于强化学习的服务组合方法及系统
CN109002358A (zh) * 2018-07-23 2018-12-14 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109088755A (zh) * 2018-08-01 2018-12-25 南京大学 一种边缘计算下的复杂事件处理系统部署方法
CN109257429A (zh) * 2018-09-25 2019-01-22 南京大学 一种基于深度强化学习的计算卸载调度方法
CN109803292A (zh) * 2018-12-26 2019-05-24 佛山市顺德区中山大学研究院 一种基于强化学习的多次级用户移动边缘计算的方法
CN110580196A (zh) * 2019-09-12 2019-12-17 北京邮电大学 一种实现并行任务调度的多任务强化学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046351A (zh) * 2015-07-01 2015-11-11 内蒙古大学 在不确定环境中基于强化学习的服务组合方法及系统
CN109002358A (zh) * 2018-07-23 2018-12-14 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109088755A (zh) * 2018-08-01 2018-12-25 南京大学 一种边缘计算下的复杂事件处理系统部署方法
CN109257429A (zh) * 2018-09-25 2019-01-22 南京大学 一种基于深度强化学习的计算卸载调度方法
CN109803292A (zh) * 2018-12-26 2019-05-24 佛山市顺德区中山大学研究院 一种基于强化学习的多次级用户移动边缘计算的方法
CN110580196A (zh) * 2019-09-12 2019-12-17 北京邮电大学 一种实现并行任务调度的多任务强化学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JI LI 等: "《Deep reinforcement learning based computation offloading and resource allocation for MEC》", 《2018 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE (WCNC)》 *
王晨梦: "《蜂窝网移动边缘计算系统联合资源管理》" *

Also Published As

Publication number Publication date
CN111400031B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US11424999B2 (en) Method and apparatus for key performance indicator forecasting using artificial life
US7890620B2 (en) Monitoring system and monitoring method
CN113348645A (zh) 数据流分类的系统和方法
US8773992B2 (en) Methods and apparatus for hierarchical routing in communication networks
Yao et al. Core and spectrum allocation based on association rules mining in spectrally and spatially elastic optical networks
Chen et al. Minimizing age-of-information for fog computing-supported vehicular networks with deep Q-learning
US9407561B2 (en) Systems and methods for traffic engineering in software defined networks
KR20200081630A (ko) 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체
CN112383485B (zh) 一种网络拥塞控制方法及装置
Cai et al. SARM: service function chain active reconfiguration mechanism based on load and demand prediction
JP7436747B2 (ja) Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体
Meyer Convergence control in ACO
CN113543160B (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
CN111400031B (zh) 面向处理单元部署的基于值函数的强化学习方法
Bouacida et al. Failure mitigation in software defined networking employing load type prediction
CN114138416A (zh) 面向负载-时间窗口的基于dqn云软件资源自适应分配方法
Falahatraftar et al. A multiple linear regression model for predicting congestion in heterogeneous vehicular networks
US20230216811A1 (en) Method and apparatus for managing network traffic via uncertainty
EP4195687A1 (en) Otn network resource optimization method and apparatus, computer device and storage medium
US20230177117A1 (en) Enhanced Reinforcement Learning Algorithms Using Future State Prediction
KR102670448B1 (ko) 심층강화학습 기반 라우팅 방법 및 장치
JP2013179517A (ja) 光パス網構成装置
US20230214725A1 (en) Method and apparatus for multiple reinforcement learning agents in a shared environment
CN111045815B (zh) 多个处理机的已部署资源的优化方法及其扩展设备
Bura et al. Structured Reinforcement Learning for Media Streaming at the Wireless Edge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant