CN111400031A - 面向处理单元部署的基于值函数的强化学习方法 - Google Patents
面向处理单元部署的基于值函数的强化学习方法 Download PDFInfo
- Publication number
- CN111400031A CN111400031A CN202010135253.5A CN202010135253A CN111400031A CN 111400031 A CN111400031 A CN 111400031A CN 202010135253 A CN202010135253 A CN 202010135253A CN 111400031 A CN111400031 A CN 111400031A
- Authority
- CN
- China
- Prior art keywords
- processing unit
- action
- deployment
- state
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 82
- 230000006870 function Effects 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 28
- 230000009471 action Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000002349 favourable effect Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/502—Proximity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了面向处理单元部署的基于值函数的强化学习方法,对于基于值函数更新的此类强化学习方法,提供了一种将处理单元图部署在物理节点上的对应框架,充分利用强化学习能够通过多次部署尝试得到处理单元部署的更优方案的优点,得到使处理单元图部署后的响应时间更低的部署方法。本发明根据复杂事件处理在边缘计算环境下的特性,来预测响应时间。并根据复杂事件处理响应时间的特性,针对限制了处理单元图整体响应时间的处理单元进行优先部署,来降低处理单元图整体响应时间。
Description
技术领域
本发明涉及面向处理单元部署的基于值函数的强化学习方法,对代表多个用户的多个处理单元图,通过其响应时间预测,部署在一个资源受限的网络中,以获得该处理单元图平均响应时间最低的效果。
背景技术
流处理技术通过处理大量实时数据流来发掘数据中潜在的语义,基于分布式内存,对不断产生的动态数据进行处理。具有数据处理快速,高效,低延迟的特点。流处理技术的核心是处理单元,处理单元以图的形式组织,用以处理数据。
处理单元图需要一定的计算资源来完成任务。在大多数情况下,拥有计算资源的物理节点由于地理因素、成本因素,通常是分布式的。将处理单元部署在分布式计算节点上,需要从多方面考虑部署方案。
在现有的部署方案中,通常考虑将应用部署在最近的网络节点中运行,以达到尽可能小的传输时延以及尽可能小的网络传输量。但是当数据量大幅度增加时,最近的网络节点可能发生拥塞,无法满足响应时间需求。现有技术中仍然需要解决的问题。一方面,系统无法判断一种部署方式是否会发生拥塞。另一方面,系统无法判断如何部署是最合适的。若集中部署于最近的节点,当数据量增加时,会导致拥塞。若为了避免拥塞,分散地部署又会增加传输时延以及网络传输量,造成系统性能下降。
强化学习方法是一种有效的针对这类优化问题的解决方案。在强化学习中,包含智能体和环境两个实体。在本文中,智能体对应处理单元部署决策算法,环境对应边缘环境。智能体可以观察到环境的状态,并根据该状态选择相应的动作。该动作会对环境产生一定影响,使得环境的状态有一定概率发生改变,称为状态转移概率。上述强化学习过程通常被描述为马尔可夫决策过程。该影响的好坏由事先定义的奖赏函数衡量。
发明内容
本发明针对现有技术中的不足,本发明提出了面向处理单元部署的基于值函数的强化学习方法来降低处理单元图的平均响应时间。
本发明监控附近的边缘节点之间的传输速率,边缘节点处理事件的吞吐率,以及各个处理单元图的事件输入率,作为基于值函数更新的强化学习框架的参数。根据强化学习算法,选出处理单元图中的关键路径中未部署的处理单元。为该处理单元选出响应时间最小的边缘节点。如此重复直至所有处理单元均被部署。
为实现上述目的,本发明采用以下技术方案:
面向处理单元部署的基于值函数的强化学习方法,其特征在于,包括如下步骤:
步骤1:监控处理单元图部署必要的参数,包括传输速率、处理事件的吞吐率和事件输入率,以便后续将处理单元部署在适当的节点上;
步骤2:强化学习方法建模:将事件输入率作为状态,根据强化学习模型以及事件输入率的状态s,将强化学习模型中的动作a定义为:在节点资源受限情况下,监控数据源附近的满足资源条件的节点作为候选节点,并选择适当的节点部署;
步骤3:训练:根据步骤2观察到的事件输入率的状态,以及状态-动作值函数更新方式,按照如下方式选择动作a:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数,选择使得值函数最大的动作;记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复步骤3直至达到一定的训练时间;
步骤4:实施:根据训练得到的部署策略,观察事件输入率的状态,并根据训练好的策略执行动作,直到部署所有节点。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤1中,在H跳以内的边缘网络环境下,边缘节点Vedge定期收集边缘节点之间的传输速率w、边缘节点处理事件的吞吐率λ以及各个处理单元图的事件输入率r。
进一步地,步骤1中,对于一个处理单元的事件输入率,避免由于抖动导致变化过大,采用最近t时间内的平均值;根据各个处理单元最近t时间内每秒ti的数据输入量为n(ti),从而计算出平均事件输入速率(ωi)作为处理单元图的事件输入率:
进一步地,步骤2中,根据一个处理单元的事件输入率的最高值和最低值,将事件输入率平均划分为7个状态s,分别为lowest,low,slow,middle,shigh,high,highest。
进一步地,步骤2中,策略π由以下公式定义:
表示从状态S到可能选择动作A的映射。
进一步地,步骤3中,ε为探索-利用概率,探索是指随机选择资源足够的节点部署,利用是指选择当前最有利的动作:期望得到的响应时间最小;ε根据如下公式逐步减小:
其中,Nr为很大的常数,count为当前状态学习的次数,ε0为初始概率,εe为结束概率。
进一步地,步骤3包括以下步骤:
步骤3.1:初始时,将处理单元部署在最靠近数据源的节点上;观察下一个事件输入率的状态s1,并记录得到的奖赏r1,初始化策略π;
步骤3.2:根据如下公式更新状态-动作值函数Q(s,a):
Q(si,ai)←Q(si,ai)+α[r+γQ(si+1,ai+1)-Q(si,ai)]
其中,状态-动作值函数是指在状态s下执行动作a得到的期望累积奖赏;α为学习率,下标i为观察到的状态序号,r为累积的奖赏,γ为折扣因子,根据强化学习算法取值,范围在0到1之间;
步骤3.3:按照如下方式选择下一个动作ai+1:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数Q(si,ai),选择使得值函数最大的动作;
步骤3.4:记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复以上步骤直至达到一定的训练时间N,训练时间是可以更改的。
进一步地,状态-动作值函数由以下公式定义:
进一步地,步骤3.4中,奖赏由以下公式定义:
其中,T(G)为该处理单元图最长路径时延。
本发明的有益效果是:本发明根据复杂事件处理在边缘计算环境下的特性,来预测响应时间。并根据复杂事件处理响应时间的特性,针对限制了处理单元图整体响应时间的处理单元进行优先部署,来降低处理单元图整体响应时间。
附图说明
图1是本发明的场景示意图。
图2是节点部署示例图(一)。
图3是节点部署示例图(二)。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
如图1所示的面向处理单元部署的基于值函数的强化学习方法,包括如下步骤:
步骤1、监控处理单元图部署必要的参数,包括传输速率、事件输入率等参数,以便后续将处理单元部署在适当的节点上;
步骤2、强化学习方法建模:将事件输入率作为状态,根据强化学习模型以及事件输入率的状态s,强化学习模型中的动作a定义为:在节点资源受限情况下,监控数据源附近的满足资源条件的节点作为候选节点,并选择适当的节点部署;
步骤3、训练:根据步骤2观察到的事件输入率的状态,以及状态-动作值函数更新方式,按照如下方式选择动作a:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数,选择使得值函数最大的动作;记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复步骤3直至达到一定的训练时间;
步骤4、实施:根据训练得到的部署策略,观察事件输入率的状态,并根据训练好的策略执行动作,直到部署所有节点;
步骤3的算法过程如图2、图3所示。
(1)如图2所示的一个处理单元图需要部署在网络上,对于第一个处理单元来说,有四种可以选择的动作:1)部署在节点V0上;2)部署在节点V1上;3)部署在节点V2上;4)部署在节点V3上;
(2)根据当前的ε值,假设选择q值最大的动作,则遍历图中的表,找到q值最大的动作为a3,部署在节点V3上。
(3)执行动作后,观察得到的奖赏,对应地更新q值。
本发明通过当前网络信息,处理单元信息,基于强化学习框架,根据部署策略将处理单元部署在使得响应时间更小的物理节点上。从而合理地分配网络节点中的资源,降低了处理单元图的响应时间。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (9)
1.面向处理单元部署的基于值函数的强化学习方法,其特征在于,包括如下步骤:
步骤1:监控处理单元图部署必要的参数,包括传输速率、处理事件的吞吐率和事件输入率,以便后续将处理单元部署在适当的节点上;
步骤2:强化学习方法建模:将事件输入率作为状态,根据强化学习模型以及事件输入率的状态s,将强化学习模型中的动作a定义为:在节点资源受限情况下,监控数据源附近的满足资源条件的节点作为候选节点,并选择适当的节点部署;
步骤3:训练:根据步骤2观察到的事件输入率的状态,以及状态-动作值函数更新方式,按照如下方式选择动作a:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数,选择使得值函数最大的动作;记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复步骤3直至达到一定的训练时间;
步骤4:实施:根据训练得到的部署策略,观察事件输入率的状态,并根据训练好的策略执行动作,直到部署所有节点。
2.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤1中,在H跳以内的边缘网络环境下,边缘节点Vedge定期收集边缘节点之间的传输速率w、边缘节点处理事件的吞吐率λ以及各个处理单元图的事件输入率r。
4.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤2中,根据一个处理单元的事件输入率的最高值和最低值,将事件输入率平均划分为7个状态S,分别为lowest,low,slow,middle,shigh,high,highest。
7.如权利要求1所述的面向处理单元部署的基于值函数的强化学习方法,其特征在于:步骤3包括以下步骤:
步骤3.1:初始时,将处理单元部署在最靠近数据源的节点上;观察下一个事件输入率的状态s1,并记录得到的奖赏r1,初始化策略π;
步骤3.2:根据如下公式更新状态-动作值函数Q(s,a):
Q(si,ai)←Q(si,ai)+α[r+γQ(si+1,ai+1)-Q(si,ai)]
其中,状态-动作值函数是指在状态s下执行动作a得到的期望累积奖赏;α为学习率,下标i为观察到的状态序号,r为累积的奖赏,γ为折扣因子,根据强化学习算法取值,范围在0到1之间;
步骤3.3:按照如下方式选择下一个动作ai+1:以ε的概率随机选择满足资源条件的节点部署;以1-ε的概率选择这样的边缘节点部署:满足策略π的映射关系,即在当前策略下,根据当前状态-动作值函数Q(si,ai),选择使得值函数最大的动作;
步骤3.4:记录执行动作后的处理单元图响应时间,作为执行动作得到的奖赏,观察下一个事件输入率的状态,重复以上步骤直至达到一定的训练时间N。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010135253.5A CN111400031B (zh) | 2020-03-01 | 2020-03-01 | 面向处理单元部署的基于值函数的强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010135253.5A CN111400031B (zh) | 2020-03-01 | 2020-03-01 | 面向处理单元部署的基于值函数的强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400031A true CN111400031A (zh) | 2020-07-10 |
CN111400031B CN111400031B (zh) | 2023-08-22 |
Family
ID=71430476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010135253.5A Active CN111400031B (zh) | 2020-03-01 | 2020-03-01 | 面向处理单元部署的基于值函数的强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400031B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046351A (zh) * | 2015-07-01 | 2015-11-11 | 内蒙古大学 | 在不确定环境中基于强化学习的服务组合方法及系统 |
CN109002358A (zh) * | 2018-07-23 | 2018-12-14 | 厦门大学 | 基于深度强化学习的移动终端软件自适应优化调度方法 |
CN109088755A (zh) * | 2018-08-01 | 2018-12-25 | 南京大学 | 一种边缘计算下的复杂事件处理系统部署方法 |
CN109257429A (zh) * | 2018-09-25 | 2019-01-22 | 南京大学 | 一种基于深度强化学习的计算卸载调度方法 |
CN109803292A (zh) * | 2018-12-26 | 2019-05-24 | 佛山市顺德区中山大学研究院 | 一种基于强化学习的多次级用户移动边缘计算的方法 |
CN110580196A (zh) * | 2019-09-12 | 2019-12-17 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
-
2020
- 2020-03-01 CN CN202010135253.5A patent/CN111400031B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046351A (zh) * | 2015-07-01 | 2015-11-11 | 内蒙古大学 | 在不确定环境中基于强化学习的服务组合方法及系统 |
CN109002358A (zh) * | 2018-07-23 | 2018-12-14 | 厦门大学 | 基于深度强化学习的移动终端软件自适应优化调度方法 |
CN109088755A (zh) * | 2018-08-01 | 2018-12-25 | 南京大学 | 一种边缘计算下的复杂事件处理系统部署方法 |
CN109257429A (zh) * | 2018-09-25 | 2019-01-22 | 南京大学 | 一种基于深度强化学习的计算卸载调度方法 |
CN109803292A (zh) * | 2018-12-26 | 2019-05-24 | 佛山市顺德区中山大学研究院 | 一种基于强化学习的多次级用户移动边缘计算的方法 |
CN110580196A (zh) * | 2019-09-12 | 2019-12-17 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
Non-Patent Citations (2)
Title |
---|
JI LI 等: "《Deep reinforcement learning based computation offloading and resource allocation for MEC》", 《2018 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE (WCNC)》 * |
王晨梦: "《蜂窝网移动边缘计算系统联合资源管理》" * |
Also Published As
Publication number | Publication date |
---|---|
CN111400031B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11424999B2 (en) | Method and apparatus for key performance indicator forecasting using artificial life | |
US7890620B2 (en) | Monitoring system and monitoring method | |
CN113348645A (zh) | 数据流分类的系统和方法 | |
US8773992B2 (en) | Methods and apparatus for hierarchical routing in communication networks | |
Yao et al. | Core and spectrum allocation based on association rules mining in spectrally and spatially elastic optical networks | |
Chen et al. | Minimizing age-of-information for fog computing-supported vehicular networks with deep Q-learning | |
US9407561B2 (en) | Systems and methods for traffic engineering in software defined networks | |
KR20200081630A (ko) | 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체 | |
CN112383485B (zh) | 一种网络拥塞控制方法及装置 | |
Cai et al. | SARM: service function chain active reconfiguration mechanism based on load and demand prediction | |
JP7436747B2 (ja) | Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 | |
Meyer | Convergence control in ACO | |
CN113543160B (zh) | 5g切片资源配置方法、装置、计算设备及计算机存储介质 | |
CN111400031B (zh) | 面向处理单元部署的基于值函数的强化学习方法 | |
Bouacida et al. | Failure mitigation in software defined networking employing load type prediction | |
CN114138416A (zh) | 面向负载-时间窗口的基于dqn云软件资源自适应分配方法 | |
Falahatraftar et al. | A multiple linear regression model for predicting congestion in heterogeneous vehicular networks | |
US20230216811A1 (en) | Method and apparatus for managing network traffic via uncertainty | |
EP4195687A1 (en) | Otn network resource optimization method and apparatus, computer device and storage medium | |
US20230177117A1 (en) | Enhanced Reinforcement Learning Algorithms Using Future State Prediction | |
KR102670448B1 (ko) | 심층강화학습 기반 라우팅 방법 및 장치 | |
JP2013179517A (ja) | 光パス網構成装置 | |
US20230214725A1 (en) | Method and apparatus for multiple reinforcement learning agents in a shared environment | |
CN111045815B (zh) | 多个处理机的已部署资源的优化方法及其扩展设备 | |
Bura et al. | Structured Reinforcement Learning for Media Streaming at the Wireless Edge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |