CN114915665B - 一种基于分层策略的异构任务调度方法 - Google Patents

一种基于分层策略的异构任务调度方法 Download PDF

Info

Publication number
CN114915665B
CN114915665B CN202210821020.XA CN202210821020A CN114915665B CN 114915665 B CN114915665 B CN 114915665B CN 202210821020 A CN202210821020 A CN 202210821020A CN 114915665 B CN114915665 B CN 114915665B
Authority
CN
China
Prior art keywords
task
channel
time slot
network
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210821020.XA
Other languages
English (en)
Other versions
CN114915665A (zh
Inventor
黄川�
崔曙光
李然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Original Assignee
Chinese University of Hong Kong Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202210821020.XA priority Critical patent/CN114915665B/zh
Publication of CN114915665A publication Critical patent/CN114915665A/zh
Application granted granted Critical
Publication of CN114915665B publication Critical patent/CN114915665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mobile Radio Communication Systems (AREA)
  • General Factory Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分层策略的异构任务调度方法,包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;S2.构建基于分层策略的异构任务调度的离线学习模型:第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块,第二层策略模块的输入为
Figure 100004_DEST_PATH_IMAGE002
,输出为
Figure 100004_DEST_PATH_IMAGE004
;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现异构任务调度。本发明提供的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。

Description

一种基于分层策略的异构任务调度方法
技术领域
本发明涉及任务驱动下的通信传输,特别是涉及一种基于分层策略的异构任务调度方法。
背景技术
近些年来,任务驱动下的通信传输成为了物联网领域的焦点。任务类型包括但不限于以信息年龄(Age of information, AoI)为优化目标的时新型任务和以吞吐量为目标的数据型任务。相比基于预先划分信道资源这种传统调度方式,以信道资源共享为基础的联合调度算法能更好地迎合异构任务驱动通信的需求并极大地提升物联网的综合能效,但是,目前而言该问题是一个马尔科夫决策过程(Markov decision process, MDP),并且存在高维状态和行动空间以及时变约束条件,并没有一个高效的解决方法,能够实现高维状态和行动空间以及时变约束条件下的异构任务调度。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于分层策略的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。
本发明的目的是通过以下技术方案来实现的:一种基于分层策略的异构任务调度方法,包括以下步骤:
S1.构建异构任务调度模型并确定调度的目标问题;
步骤S1中所述的异构任务调度模型包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为
Figure 100002_DEST_PATH_IMAGE001
:如果
Figure DEST_PATH_IMAGE002
,代表该信道在第t个时隙不会开启任何设备的数据传输;如果
Figure 100002_DEST_PATH_IMAGE003
,代表该信道在第t个时隙开始服务第
Figure DEST_PATH_IMAGE004
个时新型任务;如果
Figure 100002_DEST_PATH_IMAGE005
,代表该信道在第t个时隙开始服务第
Figure DEST_PATH_IMAGE006
个数据型任务;
考虑服务一次第n个数据型任务需要占用信道
Figure 100002_DEST_PATH_IMAGE007
个时隙,信道在被占用期间不能服务其他任务;用
Figure DEST_PATH_IMAGE008
表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么
Figure 100002_DEST_PATH_IMAGE009
;否则,
Figure DEST_PATH_IMAGE010
等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
步骤S1中所述确定调度的目标问题包括:
设优化目标有两个,第一个是时新型任务对应的信息年龄惩罚函数
Figure 100002_DEST_PATH_IMAGE011
,其中
Figure DEST_PATH_IMAGE012
是第m个时新型任务的信息年龄;第二个是数据型任务的吞吐量,其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为
Figure 100002_DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
为第k个信道的带宽,
Figure 100002_DEST_PATH_IMAGE015
为基站端的信噪比,
Figure DEST_PATH_IMAGE016
为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益;吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在,目标问题总结为:
Figure 100002_DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
其中
Figure 100002_DEST_PATH_IMAGE019
在x大于0的时候等于1,在x不大于0的时候等于0;同时,上述目标问题的解需要满足以下限制条件:
Figure DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
(1.1)
Figure 100002_DEST_PATH_IMAGE023
(1.2)
Figure DEST_PATH_IMAGE024
(1.3)
Figure 100002_DEST_PATH_IMAGE025
(1.4)
其中,公式(1.1)为
Figure DEST_PATH_IMAGE026
的更新方法,包括以下两种情况:
一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即
Figure 100002_DEST_PATH_IMAGE027
,那么时新型任务数据送达基站的概率为
Figure DEST_PATH_IMAGE028
,此时
Figure 100002_DEST_PATH_IMAGE029
;其中
Figure DEST_PATH_IMAGE030
为单个信道在一个时隙内成功服务第m个时新型任务的概率;
Figure 100002_DEST_PATH_IMAGE031
在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为
Figure DEST_PATH_IMAGE032
,此时
Figure 100002_DEST_PATH_IMAGE033
二、如果没有信道在第t个时隙服务了第m个时新型任务,即
Figure DEST_PATH_IMAGE034
,则
Figure 100002_DEST_PATH_IMAGE035
公式(1.2)为
Figure DEST_PATH_IMAGE036
的更新方法,包括三种情况:
一、如果当前第k个信道正在服务第n个数据型任务,即
Figure 100002_DEST_PATH_IMAGE037
,则在下个时隙,第k个信道的释放时间减少一个时隙;
二、如果当前第k个信道准备开始服务第n个数据型任务,即
Figure DEST_PATH_IMAGE038
,则在下个时隙,第k个信道的释放时间为
Figure 100002_DEST_PATH_IMAGE039
三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务,则
Figure DEST_PATH_IMAGE040
的值为0;
公式(1.3)为
Figure 100002_DEST_PATH_IMAGE041
的更新方法,考虑
Figure 303158DEST_PATH_IMAGE041
具有平稳性和各态历经性,所以(1.3)成立,其中
Figure DEST_PATH_IMAGE042
是一个常数;考虑
Figure 100002_DEST_PATH_IMAGE043
,其中
Figure DEST_PATH_IMAGE044
包含
Figure 100002_DEST_PATH_IMAGE045
所有的取值,是一个有限实数集合;
公式(1.4)给出了
Figure DEST_PATH_IMAGE046
的取值约束,如果当前第k个信道正在服务数据型任务,即
Figure 100002_DEST_PATH_IMAGE047
成立,则该信道不能再去服务其他任务,即
Figure DEST_PATH_IMAGE048
上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过程,其中状态空间为
Figure 100002_DEST_PATH_IMAGE049
,包含三个变量
Figure DEST_PATH_IMAGE050
,定义为
Figure 100002_DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE052
Figure 100002_DEST_PATH_IMAGE053
,行动空间为
Figure DEST_PATH_IMAGE054
;其中,
Figure 100002_DEST_PATH_IMAGE055
表示
Figure DEST_PATH_IMAGE056
第n行第k列的元素,
Figure 100002_DEST_PATH_IMAGE057
表示
Figure DEST_PATH_IMAGE058
第n行第k列的元素;
S2.构建基于分层策略的异构任务调度的离线学习模型;
S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:
S2011.搭建DRLk模块的行动网络:
评估行动网络的输入是
Figure 100002_DEST_PATH_IMAGE059
,输出是一个整数,记为
Figure DEST_PATH_IMAGE060
;其中
Figure 100002_DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
,表示
Figure 100002_DEST_PATH_IMAGE063
中第k列元素构成的向量,
Figure DEST_PATH_IMAGE064
,表示
Figure 100002_DEST_PATH_IMAGE065
中第k列元素的和;评估行动网络
Figure DEST_PATH_IMAGE066
包含一个全连接神经网络,其中
Figure 100002_DEST_PATH_IMAGE067
为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数;在将
Figure DEST_PATH_IMAGE068
送入参数为
Figure 100002_DEST_PATH_IMAGE069
的全连接神经网络
Figure DEST_PATH_IMAGE070
后,在输出层得到N+2个归一化后的输出值,对归一化的输出值采样即可得到
Figure 100002_DEST_PATH_IMAGE071
的值;同时
Figure DEST_PATH_IMAGE072
成立,令
Figure 100002_DEST_PATH_IMAGE073
;目标行动网络
Figure DEST_PATH_IMAGE074
和评估行动网络的结构完全一致,其参数用
Figure 100002_DEST_PATH_IMAGE075
来表征;
S2012.搭建DRLk模块的价值网络:
评估价值网络的输入是
Figure DEST_PATH_IMAGE076
Figure 100002_DEST_PATH_IMAGE077
,其中
Figure DEST_PATH_IMAGE078
,输出是
Figure 100002_DEST_PATH_IMAGE079
的价值,记为
Figure DEST_PATH_IMAGE080
;评估价值网络包含一个全连接神经网络,其参数用
Figure 100002_DEST_PATH_IMAGE081
来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用
Figure DEST_PATH_IMAGE082
来表征,输出为
Figure 100002_DEST_PATH_IMAGE083
S2013.搭建经历缓存模块,每条经历包含
Figure DEST_PATH_IMAGE084
,其中
Figure 100002_DEST_PATH_IMAGE085
Figure DEST_PATH_IMAGE086
(1.5)
经历缓存模块用于缓存
Figure 100002_DEST_PATH_IMAGE087
条经历;
S2014.将集合
Figure DEST_PATH_IMAGE088
中的值分别赋给k,并对于每一个k值都执行步骤S2011~S2014,完成第一层策略模块中所有DRL模块的搭建;
S202.构建第二层策略模块,该模块的输入为
Figure 100002_DEST_PATH_IMAGE089
,输出为
Figure DEST_PATH_IMAGE090
,该模块的搭建包含以下两个步骤;
S2021.构建一个M行
Figure 100002_DEST_PATH_IMAGE091
列的惠特尔指数表格,第m行第x列的元素
Figure DEST_PATH_IMAGE092
通过求解以下方程得到
Figure 100002_DEST_PATH_IMAGE093
其中
Figure DEST_PATH_IMAGE094
Figure 100002_DEST_PATH_IMAGE095
通过求解以下方程组得到
Figure DEST_PATH_IMAGE096
其中,
Figure 100002_DEST_PATH_IMAGE097
为第m个时新型任务在
Figure DEST_PATH_IMAGE098
时的惠特尔指数;
Figure 100002_DEST_PATH_IMAGE099
为中间变量;
S2022.基于惠特尔指数表格得到
Figure DEST_PATH_IMAGE100
通过下面的公式得到
Figure 997795DEST_PATH_IMAGE100
的值
Figure 100002_DEST_PATH_IMAGE101
其中,
Figure DEST_PATH_IMAGE102
为第t个时隙时,M个时新型任务中惠特尔指数排在第
Figure 100002_DEST_PATH_IMAGE103
大的那个设备的编号,
Figure 371007DEST_PATH_IMAGE103
的等于
Figure DEST_PATH_IMAGE104
中值等于N+1的元素的个数。
S3.进行离线训练得到成熟的模型;
S301.初始化
Figure 100002_DEST_PATH_IMAGE105
Figure DEST_PATH_IMAGE106
,并随机初始化
Figure 100002_DEST_PATH_IMAGE107
其中,
Figure DEST_PATH_IMAGE108
Figure 100002_DEST_PATH_IMAGE109
时的
Figure DEST_PATH_IMAGE110
;由于
Figure 687588DEST_PATH_IMAGE110
第n行第k列的元素
Figure 100002_DEST_PATH_IMAGE111
;而
Figure DEST_PATH_IMAGE112
,其中
Figure 100002_DEST_PATH_IMAGE113
包含
Figure DEST_PATH_IMAGE114
所有的取值,是一个有限实数集合;故
Figure 100002_DEST_PATH_IMAGE115
的每一个元素均随机取
Figure 626594DEST_PATH_IMAGE113
中的一个取值,即得到了随机初始化后的
Figure 714636DEST_PATH_IMAGE115
S302.得到
Figure DEST_PATH_IMAGE116
S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S304.令
Figure 100002_DEST_PATH_IMAGE117
S305.调用步骤S2011中搭建的评估行动网络
Figure DEST_PATH_IMAGE118
,将
Figure 100002_DEST_PATH_IMAGE119
作为
Figure DEST_PATH_IMAGE120
的输入,得到第一层策略的输出
Figure 100002_DEST_PATH_IMAGE121
S306.基于步骤S2022中
Figure DEST_PATH_IMAGE122
的计算方法,得到第二层策略的输出
Figure 903040DEST_PATH_IMAGE122
S307.基于公式(1.1),(1.2),(1.3)得到
Figure 100002_DEST_PATH_IMAGE123
,基于(1.5)得到
Figure DEST_PATH_IMAGE124
S308.执行步骤S2013,将新的M条经历分布缓存进M个DRL的经历缓存模块;
S309.如果
Figure 100002_DEST_PATH_IMAGE125
,令
Figure DEST_PATH_IMAGE126
并回到步骤S305,否则执行步骤S310;
S310.对于每一个DRL模块,从经历缓存模块中取出
Figure 100002_DEST_PATH_IMAGE127
条经历
Figure DEST_PATH_IMAGE128
S311.基于
Figure 100002_DEST_PATH_IMAGE129
条经历计算
Figure DEST_PATH_IMAGE130
Figure 100002_DEST_PATH_IMAGE131
S312.基于
Figure DEST_PATH_IMAGE132
的值后向传播更新
Figure 100002_DEST_PATH_IMAGE133
S313.基于
Figure DEST_PATH_IMAGE134
的值后向传播更新
Figure 100002_DEST_PATH_IMAGE135
S314.更新:
Figure DEST_PATH_IMAGE136
,即:更新前的
Figure 100002_DEST_PATH_IMAGE137
乘以0.9,然后再加上
Figure DEST_PATH_IMAGE138
乘以0.1,得到的结果作为更新后的
Figure 100002_DEST_PATH_IMAGE139
S315.更新:
Figure DEST_PATH_IMAGE140
,即:更新前的
Figure 100002_DEST_PATH_IMAGE141
乘以0.9,然后再加上
Figure DEST_PATH_IMAGE142
乘以0.1,得到的结果作为更新后的
Figure 100002_DEST_PATH_IMAGE143
S316.如果
Figure DEST_PATH_IMAGE144
,令
Figure 100002_DEST_PATH_IMAGE145
并回到步骤S305,否则结束循环,并将此时
Figure DEST_PATH_IMAGE146
的值赋给
Figure 100002_DEST_PATH_IMAGE147
,并构建出相应的评估行动网络
Figure DEST_PATH_IMAGE148
,其中
Figure 100002_DEST_PATH_IMAGE149
是一个给定的常数,表征最大学习轮数,初始值设置为10000。
S4.对训练得到的模型进行在线应用,实现异构任务调度:
S401.初始化
Figure DEST_PATH_IMAGE150
Figure 100002_DEST_PATH_IMAGE151
,并观测得到
Figure DEST_PATH_IMAGE152
的值:
Figure 100002_DEST_PATH_IMAGE153
时刻,对第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益
Figure DEST_PATH_IMAGE154
进行实时观测,并将其作为
Figure 100002_DEST_PATH_IMAGE155
中第n行第k列的元素,
Figure DEST_PATH_IMAGE156
时;最终得到观测的
Figure 923779DEST_PATH_IMAGE155
S402.得到
Figure 100002_DEST_PATH_IMAGE157
S403.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S404.令
Figure 123816DEST_PATH_IMAGE153
S405.调用步骤S316中构建的评估行动网络
Figure DEST_PATH_IMAGE158
,将
Figure 100002_DEST_PATH_IMAGE159
作为
Figure DEST_PATH_IMAGE160
的输入,得到第一层策略的输出
Figure 100002_DEST_PATH_IMAGE161
S406.基于步骤S2022中
Figure DEST_PATH_IMAGE162
的计算方法,得到第二层策略的输出
Figure 241814DEST_PATH_IMAGE162
S407.执行
Figure 527302DEST_PATH_IMAGE162
,即为第t个时隙的联合调度方案;
S408.观测得到
Figure 100002_DEST_PATH_IMAGE163
,令
Figure DEST_PATH_IMAGE164
并回到步骤S405。
本发明的有益效果是:本发明提供的分层策略方法,适用于有高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的高效联合调度。
附图说明
图1为本发明的方法流程图;
图2为基于分层策略的异构任务调度的离线学习模型原理图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于分层策略的异构任务调度方法,包括以下步骤:
S1.构建异构任务调度模型并确定调度的目标问题;
步骤S1中所述的异构任务调度模型包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为:如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;
考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
步骤S1中所述确定调度的目标问题包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为
Figure 326630DEST_PATH_IMAGE001
:如果
Figure 115595DEST_PATH_IMAGE002
,代表该信道在第t个时隙不会开启任何设备的数据传输;如果
Figure 76598DEST_PATH_IMAGE003
,代表该信道在第t个时隙开始服务第
Figure 583802DEST_PATH_IMAGE004
个时新型任务;如果
Figure 390084DEST_PATH_IMAGE005
,代表该信道在第t个时隙开始服务第
Figure 299134DEST_PATH_IMAGE006
个数据型任务;
考虑服务一次第n个数据型任务需要占用信道
Figure 899880DEST_PATH_IMAGE007
个时隙,信道在被占用期间不能服务其他任务;用
Figure 159960DEST_PATH_IMAGE008
表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么
Figure 504354DEST_PATH_IMAGE009
;否则,
Figure 267910DEST_PATH_IMAGE010
等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
步骤S1中所述确定调度的目标问题包括:
设优化目标有两个,第一个是时新型任务对应的信息年龄惩罚函数
Figure 570716DEST_PATH_IMAGE011
,其中
Figure 786933DEST_PATH_IMAGE012
是第m个时新型任务的信息年龄;第二个是数据型任务的吞吐量,其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为
Figure 200597DEST_PATH_IMAGE013
其中,
Figure 818660DEST_PATH_IMAGE014
为第k个信道的带宽,
Figure 26788DEST_PATH_IMAGE015
为基站端的信噪比,
Figure 995881DEST_PATH_IMAGE016
为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益;吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在,目标问题总结为:
Figure 682077DEST_PATH_IMAGE017
Figure 420226DEST_PATH_IMAGE018
其中
Figure 799255DEST_PATH_IMAGE019
在x大于0的时候等于1,在x不大于0的时候等于0;同时,上述目标问题的解需要满足以下限制条件:
Figure 255644DEST_PATH_IMAGE020
Figure 745531DEST_PATH_IMAGE021
Figure 338186DEST_PATH_IMAGE022
(1.1)
Figure 888116DEST_PATH_IMAGE023
(1.2)
Figure 831802DEST_PATH_IMAGE024
(1.3)
Figure 125380DEST_PATH_IMAGE025
(1.4)
其中,公式(1.1)为
Figure 572542DEST_PATH_IMAGE026
的更新方法,包括以下两种情况:
一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即
Figure 293373DEST_PATH_IMAGE027
,那么时新型任务数据送达基站的概率为
Figure 458775DEST_PATH_IMAGE028
,此时
Figure 290465DEST_PATH_IMAGE029
;其中
Figure 123292DEST_PATH_IMAGE030
为单个信道在一个时隙内成功服务第m个时新型任务的概率;
Figure 749445DEST_PATH_IMAGE031
在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为
Figure 667723DEST_PATH_IMAGE032
,此时
Figure 303103DEST_PATH_IMAGE033
二、如果没有信道在第t个时隙服务了第m个时新型任务,即
Figure 724857DEST_PATH_IMAGE034
,则
Figure 787491DEST_PATH_IMAGE035
公式(1.2)为
Figure 661906DEST_PATH_IMAGE036
的更新方法,包括三种情况:
一、如果当前第k个信道正在服务第n个数据型任务,即
Figure 100978DEST_PATH_IMAGE037
,则在下个时隙,第k个信道的释放时间减少一个时隙;
二、如果当前第k个信道准备开始服务第n个数据型任务,即
Figure 642818DEST_PATH_IMAGE038
,则在下个时隙,第k个信道的释放时间为
Figure 876353DEST_PATH_IMAGE039
三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务,则
Figure 238064DEST_PATH_IMAGE040
的值为0;
公式(1.3)为
Figure 480827DEST_PATH_IMAGE041
的更新方法,考虑
Figure 611594DEST_PATH_IMAGE041
具有平稳性和各态历经性,所以(1.3)成立,其中
Figure 16030DEST_PATH_IMAGE042
是一个常数;考虑
Figure 865038DEST_PATH_IMAGE043
,其中
Figure 380332DEST_PATH_IMAGE044
包含
Figure 631185DEST_PATH_IMAGE045
所有的取值,是一个有限实数集合;
公式(1.4)给出了
Figure 472102DEST_PATH_IMAGE046
的取值约束,如果当前第k个信道正在服务数据型任务,即
Figure 808406DEST_PATH_IMAGE047
成立,则该信道不能再去服务其他任务,即
Figure 127392DEST_PATH_IMAGE048
上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过程,其中状态空间为
Figure 232751DEST_PATH_IMAGE049
,包含三个变量
Figure 244569DEST_PATH_IMAGE050
,定义为
Figure 814308DEST_PATH_IMAGE051
Figure 202564DEST_PATH_IMAGE052
Figure 162430DEST_PATH_IMAGE053
,行动空间为
Figure 79570DEST_PATH_IMAGE054
;其中,
Figure 390466DEST_PATH_IMAGE055
表示
Figure 51255DEST_PATH_IMAGE056
第n行第k列的元素,
Figure 131206DEST_PATH_IMAGE057
表示
Figure 484827DEST_PATH_IMAGE058
第n行第k列的元素。
S2.构建基于分层策略的异构任务调度的离线学习模型,如图2所示;
S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块(deepreinforcement learning, DRL), 其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:
S2011.搭建DRLk模块的行动网络:
评估行动网络的输入是
Figure 283019DEST_PATH_IMAGE059
,输出是一个整数,记为
Figure 747498DEST_PATH_IMAGE060
;其中
Figure 681956DEST_PATH_IMAGE061
Figure 206478DEST_PATH_IMAGE062
,表示
Figure 491966DEST_PATH_IMAGE063
中第k列元素构成的向量,
Figure 494557DEST_PATH_IMAGE064
,表示
Figure 283522DEST_PATH_IMAGE065
中第k列元素的和;评估行动网络
Figure 244524DEST_PATH_IMAGE066
包含一个全连接神经网络,其中
Figure 751729DEST_PATH_IMAGE067
为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数;在将
Figure 558011DEST_PATH_IMAGE068
送入参数为
Figure 467061DEST_PATH_IMAGE069
的全连接神经网络
Figure 67807DEST_PATH_IMAGE070
后,在输出层得到N+2个归一化后的输出值,对归一化的输出值采样即可得到
Figure 62308DEST_PATH_IMAGE071
的值;同时
Figure 672281DEST_PATH_IMAGE072
成立,令
Figure 435837DEST_PATH_IMAGE073
;目标行动网络
Figure 207484DEST_PATH_IMAGE074
和评估行动网络的结构完全一致,其参数用
Figure 689281DEST_PATH_IMAGE075
来表征;
S2012.搭建DRLk模块的价值网络:
评估价值网络的输入是
Figure 837366DEST_PATH_IMAGE076
Figure 455429DEST_PATH_IMAGE077
,其中
Figure 929135DEST_PATH_IMAGE078
,输出是
Figure 632649DEST_PATH_IMAGE079
的价值,记为
Figure 318846DEST_PATH_IMAGE080
;评估价值网络包含一个全连接神经网络,其参数用
Figure 322574DEST_PATH_IMAGE081
来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用
Figure 436023DEST_PATH_IMAGE082
来表征,输出为
Figure 626833DEST_PATH_IMAGE083
S2013.搭建经历缓存模块,每条经历包含
Figure 116720DEST_PATH_IMAGE084
,其中
Figure 709376DEST_PATH_IMAGE085
Figure 259306DEST_PATH_IMAGE086
(1.5)
经历缓存模块用于缓存
Figure 202991DEST_PATH_IMAGE087
条经历;
S2014.将集合
Figure 230990DEST_PATH_IMAGE088
中的值分别赋给k,并对于每一个k值都执行步骤S2011~S2014,完成第一层策略模块中所有DRL模块的搭建;
S202.构建第二层策略模块,该模块的输入为
Figure 678152DEST_PATH_IMAGE089
,输出为
Figure 398983DEST_PATH_IMAGE090
,该模块的搭建包含以下两个步骤。
S2021.构建一个M行
Figure 829964DEST_PATH_IMAGE091
列的惠特尔指数表格,第m行第x列的元素
Figure 661654DEST_PATH_IMAGE092
通过求解以下方程得到
Figure 963322DEST_PATH_IMAGE093
其中
Figure 100002_DEST_PATH_IMAGE165
Figure 386213DEST_PATH_IMAGE095
通过求解以下方程组得到
Figure 38912DEST_PATH_IMAGE096
其中,
Figure 408713DEST_PATH_IMAGE097
为第m个时新型任务在
Figure 361626DEST_PATH_IMAGE098
时的惠特尔指数;
Figure 424260DEST_PATH_IMAGE099
为中间变量;
S2022.基于惠特尔指数表格得到
Figure 298675DEST_PATH_IMAGE100
通过下面的公式得到
Figure 737746DEST_PATH_IMAGE100
的值
Figure 14007DEST_PATH_IMAGE101
其中,
Figure 247542DEST_PATH_IMAGE102
为第t个时隙时,M个时新型任务中惠特尔指数排在第
Figure 874832DEST_PATH_IMAGE103
大的那个设备的编号,
Figure 586437DEST_PATH_IMAGE103
的等于
Figure 982783DEST_PATH_IMAGE104
中值等于N+1的元素的个数。
S3.进行离线训练得到成熟的模型;
S301.初始化
Figure 387219DEST_PATH_IMAGE105
Figure 236227DEST_PATH_IMAGE106
,并随机初始化
Figure 751522DEST_PATH_IMAGE107
其中,
Figure 267954DEST_PATH_IMAGE108
Figure 843291DEST_PATH_IMAGE109
时的
Figure 445174DEST_PATH_IMAGE110
;由于
Figure 764160DEST_PATH_IMAGE110
第n行第k列的元素
Figure 869519DEST_PATH_IMAGE111
;而
Figure 615758DEST_PATH_IMAGE112
,其中
Figure 173779DEST_PATH_IMAGE113
包含
Figure 296455DEST_PATH_IMAGE114
所有的取值,是一个有限实数集合;故
Figure 256321DEST_PATH_IMAGE115
的每一个元素均随机取
Figure 439041DEST_PATH_IMAGE113
中的一个取值,即得到了随机初始化后的
Figure 749936DEST_PATH_IMAGE115
S302.得到
Figure 410725DEST_PATH_IMAGE116
S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S304.令
Figure 225097DEST_PATH_IMAGE117
S305.调用步骤S2011中搭建的评估行动网络
Figure 578718DEST_PATH_IMAGE118
,将
Figure 376910DEST_PATH_IMAGE119
作为
Figure 575810DEST_PATH_IMAGE120
的输入,得到第一层策略的输出
Figure 510268DEST_PATH_IMAGE121
S306.基于步骤S2022中
Figure 34790DEST_PATH_IMAGE122
的计算方法,得到第二层策略的输出
Figure 789120DEST_PATH_IMAGE122
S307.基于公式(1.1),(1.2),(1.3)得到
Figure 322869DEST_PATH_IMAGE123
,基于(1.5)得到
Figure 111834DEST_PATH_IMAGE124
S308.执行步骤S2013,将新的M条经历分布缓存进M个DRL的经历缓存模块;
S309.如果
Figure 541678DEST_PATH_IMAGE125
,令
Figure 314462DEST_PATH_IMAGE126
并回到步骤S305,否则执行步骤S310;
S310.对于每一个DRL模块,从经历缓存模块中取出
Figure 120744DEST_PATH_IMAGE127
条经历
Figure 764215DEST_PATH_IMAGE128
S311.基于
Figure 630540DEST_PATH_IMAGE129
条经历计算
Figure 359461DEST_PATH_IMAGE130
Figure 969434DEST_PATH_IMAGE131
S312.基于
Figure 998570DEST_PATH_IMAGE132
的值后向传播更新
Figure 770217DEST_PATH_IMAGE133
S313.基于
Figure 252014DEST_PATH_IMAGE134
的值后向传播更新
Figure 400098DEST_PATH_IMAGE135
S314.更新:
Figure 283741DEST_PATH_IMAGE136
,即:更新前的
Figure 226289DEST_PATH_IMAGE137
乘以0.9,然后再加上
Figure 195382DEST_PATH_IMAGE138
乘以0.1,得到的结果作为更新后的
Figure 147157DEST_PATH_IMAGE139
S315.更新:
Figure 619727DEST_PATH_IMAGE140
,即:更新前的
Figure 998756DEST_PATH_IMAGE141
乘以0.9,然后再加上
Figure 189566DEST_PATH_IMAGE142
乘以0.1,得到的结果作为更新后的
Figure 679453DEST_PATH_IMAGE143
S316.如果
Figure 537687DEST_PATH_IMAGE144
,令
Figure 87618DEST_PATH_IMAGE145
并回到步骤S305,否则结束循环,并将此时
Figure 777442DEST_PATH_IMAGE146
的值赋给
Figure 71020DEST_PATH_IMAGE147
,并构建出相应的评估行动网络
Figure 518182DEST_PATH_IMAGE148
,其中
Figure 239014DEST_PATH_IMAGE149
是一个给定的常数,表征最大学习轮数,初始值设置为10000。
S4.对训练得到的模型进行在线应用,实现异构任务调度:步骤S3完成后, S201中构建的行动网络和价值网络都已完成学习,所述步骤S4包括以下子步骤:
S401.初始化
Figure 404416DEST_PATH_IMAGE150
Figure 501685DEST_PATH_IMAGE151
,并观测得到
Figure 803353DEST_PATH_IMAGE152
的值:
Figure 695086DEST_PATH_IMAGE153
时刻,对第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益
Figure 82205DEST_PATH_IMAGE154
进行实时观测,并将其作为
Figure 983165DEST_PATH_IMAGE155
中第n行第k列的元素,
Figure 404919DEST_PATH_IMAGE156
时;最终得到观测的
Figure 467553DEST_PATH_IMAGE155
S402.得到
Figure 341968DEST_PATH_IMAGE157
S403.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S404.令
Figure 515460DEST_PATH_IMAGE153
S405.调用步骤S316中构建的评估行动网络
Figure 57300DEST_PATH_IMAGE158
,将
Figure 290835DEST_PATH_IMAGE159
作为
Figure 652546DEST_PATH_IMAGE160
的输入,得到第一层策略的输出
Figure 629730DEST_PATH_IMAGE161
S406.基于步骤S2022中
Figure 291655DEST_PATH_IMAGE162
的计算方法,得到第二层策略的输出
Figure 961671DEST_PATH_IMAGE162
S407.执行
Figure 545099DEST_PATH_IMAGE162
,即为第t个时隙的联合调度方案;
S408.观测得到
Figure 591552DEST_PATH_IMAGE163
,令
Figure 842405DEST_PATH_IMAGE164
并回到步骤S405。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (4)

1.一种基于分层策略的异构任务调度方法,其特征在于:包括以下步骤:
S1.构建异构任务调度模型并确定调度的目标问题;
所述的异构任务调度模型包括:
设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;
其中,第k个信道在第t个时隙选择服务的任务编号记为
Figure DEST_PATH_IMAGE001
:如果
Figure 998686DEST_PATH_IMAGE002
,代表该信道在第t个时隙不会开启任何设备的数据传输;如果
Figure DEST_PATH_IMAGE003
,代表该信道在第t个时隙开始服务第
Figure 37049DEST_PATH_IMAGE004
个时新型任务;如果
Figure DEST_PATH_IMAGE005
,代表该信道在第t个时隙开始服务第
Figure 108911DEST_PATH_IMAGE006
个数据型任务;
考虑服务一次第n个数据型任务需要占用信道
Figure DEST_PATH_IMAGE007
个时隙,信道在被占用期间不能服务其他任务;用
Figure 549119DEST_PATH_IMAGE008
表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么
Figure DEST_PATH_IMAGE009
;否则,
Figure 681023DEST_PATH_IMAGE010
等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间;
S2.构建基于分层策略的异构任务调度的离线学习模型;
S3.进行离线训练得到成熟的模型;
S4.对训练得到的模型进行在线应用,实现异构任务调度;
步骤S1中所述确定调度的目标问题包括:
设优化目标有两个,第一个是时新型任务对应的信息年龄惩罚函数
Figure DEST_PATH_IMAGE011
,其中
Figure 941103DEST_PATH_IMAGE012
是第m个时新型任务的信息年龄;第二个是数据型任务的吞吐量,其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为
Figure DEST_PATH_IMAGE013
其中,
Figure 816655DEST_PATH_IMAGE014
为第k个信道的带宽,
Figure DEST_PATH_IMAGE015
为基站端的信噪比,
Figure 845791DEST_PATH_IMAGE016
为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益;吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在,目标问题总结为:
Figure DEST_PATH_IMAGE017
Figure 414176DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
在x大于0的时候等于1,在x不大于0的时候等于0;同时,上述目标问题的解需要满足以下限制条件:
Figure 161552DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
Figure 586935DEST_PATH_IMAGE022
(1.1)
Figure DEST_PATH_IMAGE023
(1.2)
Figure 736156DEST_PATH_IMAGE024
(1.3)
Figure DEST_PATH_IMAGE025
(1.4)
其中,公式(1.1)为
Figure 475442DEST_PATH_IMAGE026
的更新方法,包括以下两种情况:
一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即
Figure DEST_PATH_IMAGE027
,那么时新型任务数据送达基站的概率为
Figure 444535DEST_PATH_IMAGE028
,此时
Figure DEST_PATH_IMAGE029
;其中
Figure 661890DEST_PATH_IMAGE030
为单个信道在一个时隙内成功服务第m个时新型任务的概率;
Figure DEST_PATH_IMAGE031
在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为
Figure 931197DEST_PATH_IMAGE032
,此时
Figure DEST_PATH_IMAGE033
二、如果没有信道在第t个时隙服务了第m个时新型任务,即
Figure 575805DEST_PATH_IMAGE034
,则
Figure DEST_PATH_IMAGE035
公式(1.2)为
Figure 297773DEST_PATH_IMAGE036
的更新方法,包括三种情况:
一、如果当前第k个信道正在服务第n个数据型任务,即
Figure DEST_PATH_IMAGE037
,则在下个时隙,第k个信道的释放时间减少一个时隙;
二、如果当前第k个信道准备开始服务第n个数据型任务,即
Figure 584398DEST_PATH_IMAGE038
,则在下个时隙,第k个信道的释放时间为
Figure DEST_PATH_IMAGE039
三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务,则
Figure 442633DEST_PATH_IMAGE040
的值为0;
公式(1.3)为
Figure DEST_PATH_IMAGE041
的更新方法,考虑
Figure 523721DEST_PATH_IMAGE041
具有平稳性和各态历经性,所以(1.3)成立,其中
Figure 201827DEST_PATH_IMAGE042
是一个常数;考虑
Figure DEST_PATH_IMAGE043
,其中
Figure 26564DEST_PATH_IMAGE044
包含
Figure DEST_PATH_IMAGE045
所有的取值,是一个有限实数集合;
公式(1.4)给出了
Figure 4884DEST_PATH_IMAGE046
的取值约束,如果当前第k个信道正在服务数据型任务,即
Figure DEST_PATH_IMAGE047
成立,则该信道不能再去服务其他任务,即
Figure 256874DEST_PATH_IMAGE048
上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过程,其中状态空间为
Figure DEST_PATH_IMAGE049
,包含三个变量
Figure 953435DEST_PATH_IMAGE050
,定义为
Figure DEST_PATH_IMAGE051
Figure 581862DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
,行动空间为
Figure 414689DEST_PATH_IMAGE054
;其中,
Figure DEST_PATH_IMAGE055
表示
Figure 572001DEST_PATH_IMAGE056
第n行第k列的元素,
Figure DEST_PATH_IMAGE057
表示
Figure 490278DEST_PATH_IMAGE058
第n行第k列的元素;
Figure DEST_PATH_IMAGE059
2.根据权利要求1所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S2包括以下子步骤:
S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块, 其中第k个模块称为
Figure 656817DEST_PATH_IMAGE060
;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:
S2011.搭建
Figure DEST_PATH_IMAGE061
模块的行动网络:
评估行动网络的输入是
Figure 344150DEST_PATH_IMAGE062
,输出是一个整数,记为
Figure DEST_PATH_IMAGE063
;其中
Figure 937943DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
,表示
Figure 77937DEST_PATH_IMAGE066
中第k列元素构成的向量,
Figure DEST_PATH_IMAGE067
,表示
Figure 48167DEST_PATH_IMAGE068
中第k列元素的和;评估行动网络
Figure DEST_PATH_IMAGE069
包含一个全连接神经网络,其中
Figure 855586DEST_PATH_IMAGE070
为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数;在将
Figure DEST_PATH_IMAGE071
送入参数为
Figure 620280DEST_PATH_IMAGE072
的全连接神经网络
Figure DEST_PATH_IMAGE073
后,在输出层得到N+2个归一化后的输出值,对归一化的输出值采样即可得到
Figure 513150DEST_PATH_IMAGE074
的值;同时
Figure DEST_PATH_IMAGE075
成立,令
Figure 755912DEST_PATH_IMAGE076
;目标行动网络
Figure DEST_PATH_IMAGE077
和评估行动网络的结构完全一致,其参数用
Figure 417838DEST_PATH_IMAGE078
来表征;
S2012.搭建
Figure 87853DEST_PATH_IMAGE061
模块的价值网络:
评估价值网络的输入是
Figure DEST_PATH_IMAGE079
Figure 733598DEST_PATH_IMAGE080
,其中
Figure DEST_PATH_IMAGE081
,输出是
Figure 780052DEST_PATH_IMAGE082
的价值,记为
Figure DEST_PATH_IMAGE083
;评估价值网络包含一个全连接神经网络,其参数用
Figure 562063DEST_PATH_IMAGE084
来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用
Figure DEST_PATH_IMAGE085
来表征,输出为
Figure 668559DEST_PATH_IMAGE086
S2013.搭建
Figure 270442DEST_PATH_IMAGE061
模块的经历缓存模块,每条经历包含
Figure DEST_PATH_IMAGE087
,其中
Figure 120586DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE089
(1.5)
经历缓存模块用于缓存
Figure 22683DEST_PATH_IMAGE090
条经历;
S2014.将集合
Figure DEST_PATH_IMAGE091
中的值分别赋给k,并对于每一个k值都执行步骤S2011~S2014,完成第一层策略模块中所有DRL模块的搭建;
S202.构建第二层策略模块,该模块的输入为
Figure 300081DEST_PATH_IMAGE092
,输出为
Figure DEST_PATH_IMAGE093
,该模块的搭建包含以下两个步骤;
S2021.构建一个M行
Figure 389259DEST_PATH_IMAGE094
列的惠特尔指数表格,第m行第x列的元素
Figure DEST_PATH_IMAGE095
通过求解以下方程得到
Figure 43095DEST_PATH_IMAGE096
其中
Figure DEST_PATH_IMAGE097
Figure 268540DEST_PATH_IMAGE098
通过求解以下方程组得到
Figure DEST_PATH_IMAGE099
其中,
Figure 716838DEST_PATH_IMAGE100
为第m个时新型任务在
Figure DEST_PATH_IMAGE101
时的惠特尔指数;
Figure 824472DEST_PATH_IMAGE102
为中间变量;
S2022.基于惠特尔指数表格得到
Figure DEST_PATH_IMAGE103
通过下面的公式得到
Figure 16419DEST_PATH_IMAGE103
的值
Figure 842510DEST_PATH_IMAGE104
其中,
Figure DEST_PATH_IMAGE105
为第t个时隙时,M个时新型任务中惠特尔指数排在第
Figure 727289DEST_PATH_IMAGE106
大的那个设备的编号,
Figure 259902DEST_PATH_IMAGE106
的等于
Figure DEST_PATH_IMAGE107
中值等于N+1的元素的个数。
3.根据权利要求2所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S3包括以下子步骤:
S301.初始化
Figure 255539DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE109
,并随机初始化
Figure 189997DEST_PATH_IMAGE110
其中,
Figure DEST_PATH_IMAGE111
Figure 245678DEST_PATH_IMAGE112
时的
Figure DEST_PATH_IMAGE113
;由于
Figure 531166DEST_PATH_IMAGE113
第n行第k列的元素
Figure 799336DEST_PATH_IMAGE114
;而
Figure DEST_PATH_IMAGE115
,其中
Figure 853880DEST_PATH_IMAGE116
包含
Figure DEST_PATH_IMAGE117
所有的取值,是一个有限实数集合;故
Figure 80462DEST_PATH_IMAGE118
的每一个元素均随机取
Figure 322087DEST_PATH_IMAGE116
中的一个取值,即得到了随机初始化后的
Figure 128369DEST_PATH_IMAGE118
S302.得到
Figure DEST_PATH_IMAGE119
S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S304.令
Figure 568578DEST_PATH_IMAGE120
S305.调用步骤S2011中搭建的评估行动网络
Figure DEST_PATH_IMAGE121
,将
Figure 700482DEST_PATH_IMAGE122
作为
Figure DEST_PATH_IMAGE123
的输入,得到第一层策略的输出
Figure 960562DEST_PATH_IMAGE124
S306.基于步骤S2022中
Figure DEST_PATH_IMAGE125
的计算方法,得到第二层策略的输出
Figure 836114DEST_PATH_IMAGE125
S307.基于公式(1.1),(1.2),(1.3)得到
Figure 599671DEST_PATH_IMAGE126
,基于(1.5)得到
Figure DEST_PATH_IMAGE127
S308.执行步骤S2013,将新的M条经历分布缓存进M个DRL的经历缓存模块;
S309.如果
Figure 636897DEST_PATH_IMAGE128
,令
Figure DEST_PATH_IMAGE129
并回到步骤S305,否则执行步骤S310;
S310.对于每一个DRL模块,从经历缓存模块中取出
Figure 915432DEST_PATH_IMAGE130
条经历
Figure DEST_PATH_IMAGE131
S311.基于
Figure 329095DEST_PATH_IMAGE132
条经历计算
Figure DEST_PATH_IMAGE133
Figure 478317DEST_PATH_IMAGE134
S312.基于
Figure DEST_PATH_IMAGE135
的值后向传播更新
Figure 952024DEST_PATH_IMAGE136
S313.基于
Figure DEST_PATH_IMAGE137
的值后向传播更新
Figure 186696DEST_PATH_IMAGE138
S314.更新:
Figure DEST_PATH_IMAGE139
,即:更新前的
Figure 138471DEST_PATH_IMAGE140
乘以0.9,然后再加上
Figure DEST_PATH_IMAGE141
乘以0.1,得到的结果作为更新后的
Figure 407779DEST_PATH_IMAGE142
S315.更新:
Figure DEST_PATH_IMAGE143
,即:更新前的
Figure 786807DEST_PATH_IMAGE144
乘以0.9,然后再加上
Figure DEST_PATH_IMAGE145
乘以0.1,得到的结果作为更新后的
Figure 243197DEST_PATH_IMAGE146
S316.如果
Figure DEST_PATH_IMAGE147
,令
Figure 264242DEST_PATH_IMAGE148
并回到步骤S305,否则结束循环,并将此时
Figure DEST_PATH_IMAGE149
的值赋给
Figure 122477DEST_PATH_IMAGE150
,并构建出相应的评估行动网络
Figure DEST_PATH_IMAGE151
,其中
Figure 203565DEST_PATH_IMAGE152
是一个给定的常数,表征最大学习轮数。
4.根据权利要求3所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S4包括以下子步骤:
S401.初始化
Figure DEST_PATH_IMAGE153
Figure 412830DEST_PATH_IMAGE154
,并观测得到
Figure DEST_PATH_IMAGE155
的值:
Figure 971987DEST_PATH_IMAGE156
时刻,对第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益
Figure DEST_PATH_IMAGE157
进行实时观测,并将其作为
Figure 950307DEST_PATH_IMAGE158
中第n行第k列的元素,
Figure DEST_PATH_IMAGE159
时;最终得到观测的
Figure 202297DEST_PATH_IMAGE158
S402.得到
Figure 367699DEST_PATH_IMAGE160
S403.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;
S404.令
Figure 199389DEST_PATH_IMAGE156
S405.调用步骤S316中构建的评估行动网络
Figure DEST_PATH_IMAGE161
,将
Figure 32216DEST_PATH_IMAGE162
作为
Figure DEST_PATH_IMAGE163
的输入,得到第一层策略的输出
Figure 189528DEST_PATH_IMAGE164
S406.基于步骤S2022中
Figure DEST_PATH_IMAGE165
的计算方法,得到第二层策略的输出
Figure 373384DEST_PATH_IMAGE165
S407.执行
Figure 743186DEST_PATH_IMAGE165
,即为第t个时隙的联合调度方案;
S408.观测得到
Figure 430519DEST_PATH_IMAGE166
,令
Figure DEST_PATH_IMAGE167
并回到步骤S405。
CN202210821020.XA 2022-07-13 2022-07-13 一种基于分层策略的异构任务调度方法 Active CN114915665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210821020.XA CN114915665B (zh) 2022-07-13 2022-07-13 一种基于分层策略的异构任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210821020.XA CN114915665B (zh) 2022-07-13 2022-07-13 一种基于分层策略的异构任务调度方法

Publications (2)

Publication Number Publication Date
CN114915665A CN114915665A (zh) 2022-08-16
CN114915665B true CN114915665B (zh) 2022-10-21

Family

ID=82772678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210821020.XA Active CN114915665B (zh) 2022-07-13 2022-07-13 一种基于分层策略的异构任务调度方法

Country Status (1)

Country Link
CN (1) CN114915665B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN111245950A (zh) * 2020-01-20 2020-06-05 南京邮电大学 基于深度学习的工业物联网边缘资源智能调度系统及方法
CN113490157A (zh) * 2021-07-06 2021-10-08 香港中文大学(深圳) 一种基于深度强化学习的组播调度方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
EP3823390A1 (en) * 2019-11-13 2021-05-19 Nokia Solutions and Networks Oy Packet scheduler
CN112367353B (zh) * 2020-10-08 2021-11-05 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN113395723B (zh) * 2021-06-11 2022-08-09 西安交通大学 基于强化学习的5g nr下行调度时延优化系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN111245950A (zh) * 2020-01-20 2020-06-05 南京邮电大学 基于深度学习的工业物联网边缘资源智能调度系统及方法
CN113490157A (zh) * 2021-07-06 2021-10-08 香港中文大学(深圳) 一种基于深度强化学习的组播调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adaptive Computing Scheduling for Edge-Assisted Autonomous Driving;Mushu Li etal.;《IEEE Transactions on Vehicular Technology》;20210630;第70卷(第6期);全文 *
Coexistence between Task- and Data-Oriented Communications:A Whittle’s Index Guided Multi-Agent Reinforcement Learning Approach;Ran Li etal.;《Arxiv》;20220519;第2-5节以及附录部分 *
面向大数据处理的数据流编程模型和工具综述;邹骁锋等;《大数据》;20201231(第03期);全文 *

Also Published As

Publication number Publication date
CN114915665A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN113254197B (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN113127169B (zh) 数据中心网络中动态工作流的高效链路调度方法
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN106453608B (zh) 一种基于云端的移动应用的后台请求自适应调度算法
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
WO2023124947A1 (zh) 一种任务处理方法、装置及相关设备
Hwang et al. Cooperative multiagent congestion control for high-speed networks
CN112261725A (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN114169543A (zh) 一种基于模型陈旧性与用户参与度感知的联邦学习算法
CN116610434A (zh) 面向分层联邦学习系统的资源优化方法
Liu et al. Dynamic channel allocation for satellite internet of things via deep reinforcement learning
CN113490157B (zh) 一种基于深度强化学习的组播调度方法
CN114915665B (zh) 一种基于分层策略的异构任务调度方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN115314399B (zh) 一种基于逆强化学习的数据中心流量调度方法
WO2023226183A1 (zh) 一种基于多智能体协作的多基站排队式前导码分配方法
CN116484976A (zh) 一种无线网络中异步联邦学习方法
CN114942799B (zh) 云边环境下基于强化学习的工作流调度方法
CN116112488A (zh) 一种面向mec网络的细粒度任务卸载及资源分配方法
CN113890653B (zh) 面向多用户利益的多智能体强化学习功率分配方法
CN113485803B (zh) 具有时延约束任务流场景下的自适应封装与协同推理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant