CN114915665B - 一种基于分层策略的异构任务调度方法 - Google Patents
一种基于分层策略的异构任务调度方法 Download PDFInfo
- Publication number
- CN114915665B CN114915665B CN202210821020.XA CN202210821020A CN114915665B CN 114915665 B CN114915665 B CN 114915665B CN 202210821020 A CN202210821020 A CN 202210821020A CN 114915665 B CN114915665 B CN 114915665B
- Authority
- CN
- China
- Prior art keywords
- task
- channel
- time slot
- network
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
- General Factory Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于分层策略的异构任务调度方法,包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;S2.构建基于分层策略的异构任务调度的离线学习模型:第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块,第二层策略模块的输入为,输出为;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现异构任务调度。本发明提供的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。
Description
技术领域
本发明涉及任务驱动下的通信传输,特别是涉及一种基于分层策略的异构任务调度方法。
背景技术
近些年来,任务驱动下的通信传输成为了物联网领域的焦点。任务类型包括但不限于以信息年龄(Age of information, AoI)为优化目标的时新型任务和以吞吐量为目标的数据型任务。相比基于预先划分信道资源这种传统调度方式,以信道资源共享为基础的联合调度算法能更好地迎合异构任务驱动通信的需求并极大地提升物联网的综合能效,但是,目前而言该问题是一个马尔科夫决策过程(Markov decision process, MDP),并且存在高维状态和行动空间以及时变约束条件,并没有一个高效的解决方法,能够实现高维状态和行动空间以及时变约束条件下的异构任务调度。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于分层策略的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。
本发明的目的是通过以下技术方案来实现的:一种基于分层策略的异构任务调度方法,包括以下步骤:
S1.构建异构任务调度模型并确定调度的目标问题;
步骤S1中所述的异构任务调度模型包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为:如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;
考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
步骤S1中所述确定调度的目标问题包括:
一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即,那么时新型任务数据送达基站的概率为,此时;其中为单个信道在一个时隙内成功服务第m个时新型任务的概率;在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为,此时;
S2.构建基于分层策略的异构任务调度的离线学习模型;
S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:
S2011.搭建DRLk模块的行动网络:
评估行动网络的输入是,输出是一个整数,记为;其中,,表示中第k列元素构成的向量,,表示中第k列元素的和;评估行动网络包含一个全连接神经网络,其中为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数;在将送入参数为的全连接神经网络后,在输出层得到N+2个归一化后的输出值,对归一化的输出值采样即可得到的值;同时成立,令;目标行动网络和评估行动网络的结构完全一致,其参数用来表征;
S2012.搭建DRLk模块的价值网络:
评估价值网络的输入是和,其中,输出是的价值,记为;评估价值网络包含一个全连接神经网络,其参数用来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用来表征,输出为;
其中
S3.进行离线训练得到成熟的模型;
S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S308.执行步骤S2013,将新的M条经历分布缓存进M个DRL的经历缓存模块;
S4.对训练得到的模型进行在线应用,实现异构任务调度:
S403.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
本发明的有益效果是:本发明提供的分层策略方法,适用于有高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的高效联合调度。
附图说明
图1为本发明的方法流程图;
图2为基于分层策略的异构任务调度的离线学习模型原理图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于分层策略的异构任务调度方法,包括以下步骤:
S1.构建异构任务调度模型并确定调度的目标问题;
步骤S1中所述的异构任务调度模型包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为:如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;
考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
步骤S1中所述确定调度的目标问题包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为 :如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;
考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
步骤S1中所述确定调度的目标问题包括:
一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即,那么时新型任务数据送达基站的概率为,此时;其中为单个信道在一个时隙内成功服务第m个时新型任务的概率;在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为,此时;
S2.构建基于分层策略的异构任务调度的离线学习模型,如图2所示;
S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块(deepreinforcement learning, DRL), 其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:
S2011.搭建DRLk模块的行动网络:
评估行动网络的输入是,输出是一个整数,记为;其中,,表示中第k列元素构成的向量,,表示中第k列元素的和;评估行动网络包含一个全连接神经网络,其中为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数;在将送入参数为的全连接神经网络后,在输出层得到N+2个归一化后的输出值,对归一化的输出值采样即可得到的值;同时成立,令;目标行动网络和评估行动网络的结构完全一致,其参数用来表征;
S2012.搭建DRLk模块的价值网络:
评估价值网络的输入是和,其中,输出是的价值,记为;评估价值网络包含一个全连接神经网络,其参数用来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用来表征,输出为;
其中
S3.进行离线训练得到成熟的模型;
S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S308.执行步骤S2013,将新的M条经历分布缓存进M个DRL的经历缓存模块;
S4.对训练得到的模型进行在线应用,实现异构任务调度:步骤S3完成后, S201中构建的行动网络和价值网络都已完成学习,所述步骤S4包括以下子步骤:
S403.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (4)
1.一种基于分层策略的异构任务调度方法,其特征在于:包括以下步骤:
S1.构建异构任务调度模型并确定调度的目标问题;
所述的异构任务调度模型包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为:如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;
考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间;
S2.构建基于分层策略的异构任务调度的离线学习模型;
S3.进行离线训练得到成熟的模型;
S4.对训练得到的模型进行在线应用,实现异构任务调度;
步骤S1中所述确定调度的目标问题包括:
一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即,那么时新型任务数据送达基站的概率为,此时;其中为单个信道在一个时隙内成功服务第m个时新型任务的概率;在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为,此时;
2.根据权利要求1所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S2包括以下子步骤:
S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块, 其中第k个模块称为;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:
评估行动网络的输入是,输出是一个整数,记为;其中,,表示中第k列元素构成的向量,,表示中第k列元素的和;评估行动网络包含一个全连接神经网络,其中为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数;在将送入参数为的全连接神经网络后,在输出层得到N+2个归一化后的输出值,对归一化的输出值采样即可得到的值;同时成立,令;目标行动网络和评估行动网络的结构完全一致,其参数用来表征;
评估价值网络的输入是和,其中,输出是的价值,记为;评估价值网络包含一个全连接神经网络,其参数用来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用来表征,输出为;
其中
3.根据权利要求2所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S3包括以下子步骤:
S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S308.执行步骤S2013,将新的M条经历分布缓存进M个DRL的经历缓存模块;
4.根据权利要求3所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S4包括以下子步骤:
S403.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210821020.XA CN114915665B (zh) | 2022-07-13 | 2022-07-13 | 一种基于分层策略的异构任务调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210821020.XA CN114915665B (zh) | 2022-07-13 | 2022-07-13 | 一种基于分层策略的异构任务调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114915665A CN114915665A (zh) | 2022-08-16 |
CN114915665B true CN114915665B (zh) | 2022-10-21 |
Family
ID=82772678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210821020.XA Active CN114915665B (zh) | 2022-07-13 | 2022-07-13 | 一种基于分层策略的异构任务调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114915665B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171117A (zh) * | 2017-12-05 | 2018-06-15 | 南京南瑞信息通信科技有限公司 | 基于多核异构并行计算的电力人工智能视觉分析系统 |
CN111245950A (zh) * | 2020-01-20 | 2020-06-05 | 南京邮电大学 | 基于深度学习的工业物联网边缘资源智能调度系统及方法 |
CN113490157A (zh) * | 2021-07-06 | 2021-10-08 | 香港中文大学(深圳) | 一种基于深度强化学习的组播调度方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676937B2 (en) * | 2011-05-12 | 2014-03-18 | Jeffrey Alan Rapaport | Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging |
EP3823390A1 (en) * | 2019-11-13 | 2021-05-19 | Nokia Solutions and Networks Oy | Packet scheduler |
CN112367353B (zh) * | 2020-10-08 | 2021-11-05 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN113395723B (zh) * | 2021-06-11 | 2022-08-09 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
-
2022
- 2022-07-13 CN CN202210821020.XA patent/CN114915665B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171117A (zh) * | 2017-12-05 | 2018-06-15 | 南京南瑞信息通信科技有限公司 | 基于多核异构并行计算的电力人工智能视觉分析系统 |
CN111245950A (zh) * | 2020-01-20 | 2020-06-05 | 南京邮电大学 | 基于深度学习的工业物联网边缘资源智能调度系统及方法 |
CN113490157A (zh) * | 2021-07-06 | 2021-10-08 | 香港中文大学(深圳) | 一种基于深度强化学习的组播调度方法 |
Non-Patent Citations (3)
Title |
---|
Adaptive Computing Scheduling for Edge-Assisted Autonomous Driving;Mushu Li etal.;《IEEE Transactions on Vehicular Technology》;20210630;第70卷(第6期);全文 * |
Coexistence between Task- and Data-Oriented Communications:A Whittle’s Index Guided Multi-Agent Reinforcement Learning Approach;Ran Li etal.;《Arxiv》;20220519;第2-5节以及附录部分 * |
面向大数据处理的数据流编程模型和工具综述;邹骁锋等;《大数据》;20201231(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114915665A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112367353B (zh) | 基于多智能体强化学习的移动边缘计算卸载方法 | |
CN113254197B (zh) | 一种基于深度强化学习的网络资源调度方法及系统 | |
CN111556461B (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN113098714B (zh) | 基于强化学习的低时延网络切片方法 | |
CN113127169B (zh) | 数据中心网络中动态工作流的高效链路调度方法 | |
CN111367657A (zh) | 一种基于深度强化学习的计算资源协同合作方法 | |
CN106453608B (zh) | 一种基于云端的移动应用的后台请求自适应调度算法 | |
CN113438315B (zh) | 基于双网络深度强化学习的物联网信息新鲜度优化方法 | |
WO2023124947A1 (zh) | 一种任务处理方法、装置及相关设备 | |
Hwang et al. | Cooperative multiagent congestion control for high-speed networks | |
CN112261725A (zh) | 一种基于深度强化学习的数据包传输智能决策方法 | |
CN114169543A (zh) | 一种基于模型陈旧性与用户参与度感知的联邦学习算法 | |
CN116610434A (zh) | 面向分层联邦学习系统的资源优化方法 | |
Liu et al. | Dynamic channel allocation for satellite internet of things via deep reinforcement learning | |
CN113490157B (zh) | 一种基于深度强化学习的组播调度方法 | |
CN114915665B (zh) | 一种基于分层策略的异构任务调度方法 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN115314399B (zh) | 一种基于逆强化学习的数据中心流量调度方法 | |
WO2023226183A1 (zh) | 一种基于多智能体协作的多基站排队式前导码分配方法 | |
CN116484976A (zh) | 一种无线网络中异步联邦学习方法 | |
CN114942799B (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN116112488A (zh) | 一种面向mec网络的细粒度任务卸载及资源分配方法 | |
CN113890653B (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
CN113485803B (zh) | 具有时延约束任务流场景下的自适应封装与协同推理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |