CN114915665B

CN114915665B - 一种基于分层策略的异构任务调度方法

Info

Publication number: CN114915665B
Application number: CN202210821020.XA
Authority: CN
Inventors: 黄川�; 崔曙光; 李然
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-21
Anticipated expiration: 2042-07-13
Also published as: CN114915665A

Abstract

本发明公开了一种基于分层策略的异构任务调度方法，包括以下步骤：S1.构建异构任务调度模型并确定调度的目标问题；S2.构建基于分层策略的异构任务调度的离线学习模型：第一层策略模块，包含K个完全相同的深度强化学习模块，即DRL模块,其中第k个模块称为DRLk；每一个DRL模块包含一个评估行动网络，一个评估价值网络，一个目标行动网络，一个目标价值网络和一个经历缓存模块，第二层策略模块的输入为

，输出为

；S3.进行离线训练得到成熟的模型；S4.对训练得到的模型进行在线应用，实现异构任务调度。本发明提供的异构任务调度方法，适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程，有效实现了异构任务的联合调度。

Description

一种基于分层策略的异构任务调度方法

技术领域

本发明涉及任务驱动下的通信传输，特别是涉及一种基于分层策略的异构任务调度方法。

背景技术

近些年来，任务驱动下的通信传输成为了物联网领域的焦点。任务类型包括但不限于以信息年龄（Age of information, AoI）为优化目标的时新型任务和以吞吐量为目标的数据型任务。相比基于预先划分信道资源这种传统调度方式，以信道资源共享为基础的联合调度算法能更好地迎合异构任务驱动通信的需求并极大地提升物联网的综合能效，但是，目前而言该问题是一个马尔科夫决策过程（Markov decision process, MDP），并且存在高维状态和行动空间以及时变约束条件，并没有一个高效的解决方法，能够实现高维状态和行动空间以及时变约束条件下的异构任务调度。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于分层策略的异构任务调度方法，适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程，有效实现了异构任务的联合调度。

本发明的目的是通过以下技术方案来实现的：一种基于分层策略的异构任务调度方法，包括以下步骤：

S1.构建异构任务调度模型并确定调度的目标问题；

步骤S1中所述的异构任务调度模型包括：

设一个物联网系统中，有一个基站采用K个上行信道服务异构的两种任务，包括M个时新型任务和N个数据型任务；

其中，第k个信道在第t个时隙选择服务的任务编号记为

：如果

，代表该信道在第t个时隙不会开启任何设备的数据传输；如果

，代表该信道在第t个时隙开始服务第

个时新型任务；如果

，代表该信道在第t个时隙开始服务第

个数据型任务；

考虑服务一次第n个数据型任务需要占用信道

个时隙，信道在被占用期间不能服务其他任务；用

表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况：如果第k个信道在第t个时隙没有在服务第n个数据型任务，那么

；否则，

等于第k个信道距离服务完第n个数据型任务的剩余时隙数，也就是第k个信道被释放的时间。

步骤S1中所述确定调度的目标问题包括：

设优化目标有两个，第一个是时新型任务对应的信息年龄惩罚函数

，其中

是第m个时新型任务的信息年龄；第二个是数据型任务的吞吐量，其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为

其中，

为第k个信道的带宽，

为基站端的信噪比，

为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益；吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在，目标问题总结为：

其中

在x大于0的时候等于1，在x不大于0的时候等于0；同时，上述目标问题的解需要满足以下限制条件：

（1.1）

（1.2）

（1.3）

（1.4）

其中，公式（1.1）为

的更新方法，包括以下两种情况：

一、如果至少有一个信道在第t个时隙服务了第m个时新型任务，即

，那么时新型任务数据送达基站的概率为

，此时

；其中

为单个信道在一个时隙内成功服务第m个时新型任务的概率；

在x等于m的时候等于1，否则等于0；同时，时新型任务数据没有送达基站的概率为

，此时

；

二、如果没有信道在第t个时隙服务了第m个时新型任务，即

，则

；

公式（1.2）为

的更新方法，包括三种情况：

一、如果当前第k个信道正在服务第n个数据型任务，即

，则在下个时隙，第k个信道的释放时间减少一个时隙；

二、如果当前第k个信道准备开始服务第n个数据型任务，即

，则在下个时隙，第k个信道的释放时间为

；

三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务，则

的值为0；

公式（1.3）为

的更新方法，考虑

具有平稳性和各态历经性，所以（1.3）成立，其中

是一个常数；考虑

，其中

包含

所有的取值，是一个有限实数集合；

公式（1.4）给出了

的取值约束，如果当前第k个信道正在服务数据型任务，即

成立，则该信道不能再去服务其他任务，即

；

上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过程，其中状态空间为

，包含三个变量

，定义为

，

，

，行动空间为

；其中，

表示

第n行第k列的元素，

表示

第n行第k列的元素；

S2.构建基于分层策略的异构任务调度的离线学习模型；

S201.搭建第一层策略模块，包含K个完全相同的深度强化学习模块，即DRL模块,其中第k个模块称为DRL_k；每一个DRL模块包含一个评估行动网络，一个评估价值网络，一个目标行动网络，一个目标价值网络和一个经历缓存模块；第一层策略模块的搭建包括以下子步骤：

S2011.搭建DRL_k模块的行动网络：

评估行动网络的输入是

，输出是一个整数，记为

；其中

，

，表示

中第k列元素构成的向量，

，表示

中第k列元素的和；评估行动网络

包含一个全连接神经网络，其中

为其参数；其中输入层节点数量为M+N+1，输出层节点数量为N+2，预先设定隐藏层数量、隐藏层节点以及激活函数；在将

送入参数为

的全连接神经网络

后，在输出层得到N+2个归一化后的输出值，对归一化的输出值采样即可得到

的值；同时

成立，令

；目标行动网络

和评估行动网络的结构完全一致，其参数用

来表征；

S2012.搭建DRL_k模块的价值网络：

评估价值网络的输入是

和

，其中

，输出是

的价值，记为

；评估价值网络包含一个全连接神经网络，其参数用

来表征，其中输入层节点数量为M+NK+K+1，输出层节点数量为1，预先设定隐藏层数量、隐藏层节点以及激活函数；目标价值网络和评估价值网络的结构完全一致，其参数用

来表征，输出为

；

S2013.搭建经历缓存模块，每条经历包含

，其中

（1.5）

经历缓存模块用于缓存

条经历；

S2014.将集合

中的值分别赋给k，并对于每一个k值都执行步骤S2011~S2014，完成第一层策略模块中所有DRL模块的搭建；

S202.构建第二层策略模块，该模块的输入为

，输出为

，该模块的搭建包含以下两个步骤；

S2021.构建一个M行

列的惠特尔指数表格，第m行第x列的元素

通过求解以下方程得到

其中

通过求解以下方程组得到

其中，

为第m个时新型任务在

时的惠特尔指数；

为中间变量；

S2022.基于惠特尔指数表格得到

：

通过下面的公式得到

的值

其中，

为第t个时隙时，M个时新型任务中惠特尔指数排在第

大的那个设备的编号，

的等于

中值等于N+1的元素的个数。

S3.进行离线训练得到成熟的模型；

S301.初始化

，

，并随机初始化

；

其中，

即

时的

；由于

第n行第k列的元素

；而

，其中

包含

所有的取值，是一个有限实数集合；故

的每一个元素均随机取

中的一个取值，即得到了随机初始化后的

；

S302.得到

；

S303.基于步骤S2021中惠特尔指数表格的构建方法，构建惠特尔指数表格；

S304.令

；

S305.调用步骤S2011中搭建的评估行动网络

，将

作为

的输入，得到第一层策略的输出

；

S306.基于步骤S2022中

的计算方法，得到第二层策略的输出

；

S307.基于公式(1.1)，(1.2)，(1.3)得到

，基于(1.5)得到

；

S308.执行步骤S2013，将新的M条经历分布缓存进M个DRL的经历缓存模块；

S309.如果

，令

并回到步骤S305，否则执行步骤S310；

S310.对于每一个DRL模块，从经历缓存模块中取出

条经历

；

S311.基于

条经历计算

S312.基于

的值后向传播更新

；

S313.基于

的值后向传播更新

；

S314.更新：

，即：更新前的

乘以0.9，然后再加上

乘以0.1，得到的结果作为更新后的

；

S315.更新：

，即：更新前的

乘以0.9，然后再加上

乘以0.1，得到的结果作为更新后的

；

S316.如果

，令

并回到步骤S305，否则结束循环，并将此时

的值赋给

，并构建出相应的评估行动网络

，其中

是一个给定的常数，表征最大学习轮数，初始值设置为10000。

S4.对训练得到的模型进行在线应用，实现异构任务调度：

S401.初始化

，

，并观测得到

的值:

在

时刻，对第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益

进行实时观测，并将其作为

中第n行第k列的元素，

时；最终得到观测的

；

S402.得到

；

S403.基于步骤S2021中惠特尔指数表格的构建方法，构建惠特尔指数表格；

S404.令

；

S405.调用步骤S316中构建的评估行动网络

，将

作为

的输入，得到第一层策略的输出

；

S406.基于步骤S2022中

的计算方法，得到第二层策略的输出

；

S407.执行

，即为第t个时隙的联合调度方案；

S408.观测得到

，令

并回到步骤S405。

本发明的有益效果是：本发明提供的分层策略方法，适用于有高维状态和行动空间以及时变约束条件的马尔科夫决策过程，有效实现了异构任务的高效联合调度。

附图说明

图1为本发明的方法流程图；

图2为基于分层策略的异构任务调度的离线学习模型原理图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于分层策略的异构任务调度方法，包括以下步骤：

S1.构建异构任务调度模型并确定调度的目标问题；

步骤S1中所述的异构任务调度模型包括：

其中，第k个信道在第t个时隙选择服务的任务编号记为：如果，代表该信道在第t个时隙不会开启任何设备的数据传输；如果，代表该信道在第t个时隙开始服务第个时新型任务；如果，代表该信道在第t个时隙开始服务第个数据型任务；

考虑服务一次第n个数据型任务需要占用信道个时隙，信道在被占用期间不能服务其他任务；用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况：如果第k个信道在第t个时隙没有在服务第n个数据型任务，那么；否则，等于第k个信道距离服务完第n个数据型任务的剩余时隙数，也就是第k个信道被释放的时间。

步骤S1中所述确定调度的目标问题包括：

其中，第k个信道在第t个时隙选择服务的任务编号记为

：如果

，代表该信道在第t个时隙开始服务第

个时新型任务；如果

，代表该信道在第t个时隙开始服务第

个数据型任务；

考虑服务一次第n个数据型任务需要占用信道

个时隙，信道在被占用期间不能服务其他任务；用

；否则，

步骤S1中所述确定调度的目标问题包括：

，其中

其中，

为第k个信道的带宽，

为基站端的信噪比，

其中

（1.1）

（1.2）

（1.3）

（1.4）

其中，公式（1.1）为

的更新方法，包括以下两种情况：

，那么时新型任务数据送达基站的概率为

，此时

；其中

为单个信道在一个时隙内成功服务第m个时新型任务的概率；

，此时

；

二、如果没有信道在第t个时隙服务了第m个时新型任务，即

，则

；

公式（1.2）为

的更新方法，包括三种情况：

一、如果当前第k个信道正在服务第n个数据型任务，即

，则在下个时隙，第k个信道的释放时间减少一个时隙；

二、如果当前第k个信道准备开始服务第n个数据型任务，即

，则在下个时隙，第k个信道的释放时间为

；

的值为0；

公式（1.3）为

的更新方法，考虑

具有平稳性和各态历经性，所以（1.3）成立，其中

是一个常数；考虑

，其中

包含

所有的取值，是一个有限实数集合；

公式（1.4）给出了

的取值约束，如果当前第k个信道正在服务数据型任务，即

成立，则该信道不能再去服务其他任务，即

；

，包含三个变量

，定义为

，

，

，行动空间为

；其中，

表示

第n行第k列的元素，

表示

第n行第k列的元素。

S2.构建基于分层策略的异构任务调度的离线学习模型，如图2所示；

S201.搭建第一层策略模块，包含K个完全相同的深度强化学习模块（deepreinforcement learning, DRL）, 其中第k个模块称为DRL_k；每一个DRL模块包含一个评估行动网络，一个评估价值网络，一个目标行动网络，一个目标价值网络和一个经历缓存模块；第一层策略模块的搭建包括以下子步骤：

S2011.搭建DRL_k模块的行动网络：

评估行动网络的输入是

，输出是一个整数，记为

；其中

，

，表示

中第k列元素构成的向量，

，表示

中第k列元素的和；评估行动网络

包含一个全连接神经网络，其中

送入参数为

的全连接神经网络

的值；同时

成立，令

；目标行动网络

和评估行动网络的结构完全一致，其参数用

来表征；

S2012.搭建DRL_k模块的价值网络：

评估价值网络的输入是

和

，其中

，输出是

的价值，记为

；评估价值网络包含一个全连接神经网络，其参数用

来表征，输出为

；

S2013.搭建经历缓存模块，每条经历包含

，其中

（1.5）

经历缓存模块用于缓存

条经历；

S2014.将集合

S202.构建第二层策略模块，该模块的输入为

，输出为

，该模块的搭建包含以下两个步骤。

S2021.构建一个M行

列的惠特尔指数表格，第m行第x列的元素

通过求解以下方程得到

其中

通过求解以下方程组得到

其中，

为第m个时新型任务在

时的惠特尔指数；

为中间变量；

S2022.基于惠特尔指数表格得到

：

通过下面的公式得到

的值

其中，

为第t个时隙时，M个时新型任务中惠特尔指数排在第

大的那个设备的编号，

的等于

中值等于N+1的元素的个数。

S3.进行离线训练得到成熟的模型；

S301.初始化

，

，并随机初始化

；

其中，

即

时的

；由于

第n行第k列的元素

；而

，其中

包含

所有的取值，是一个有限实数集合；故

的每一个元素均随机取

中的一个取值，即得到了随机初始化后的

；

S302.得到

；

S304.令

；

S305.调用步骤S2011中搭建的评估行动网络

，将

作为

的输入，得到第一层策略的输出

；

S306.基于步骤S2022中

的计算方法，得到第二层策略的输出

；

S307.基于公式(1.1)，(1.2)，(1.3)得到

，基于(1.5)得到

；

S309.如果

，令

并回到步骤S305，否则执行步骤S310；

S310.对于每一个DRL模块，从经历缓存模块中取出

条经历

；

S311.基于

条经历计算

S312.基于

的值后向传播更新

；

S313.基于

的值后向传播更新

；

S314.更新：

，即：更新前的

乘以0.9，然后再加上

乘以0.1，得到的结果作为更新后的

；

S315.更新：

，即：更新前的

乘以0.9，然后再加上

乘以0.1，得到的结果作为更新后的

；

S316.如果

，令

并回到步骤S305，否则结束循环，并将此时

的值赋给

，并构建出相应的评估行动网络

，其中

S4.对训练得到的模型进行在线应用，实现异构任务调度：步骤S3完成后， S201中构建的行动网络和价值网络都已完成学习，所述步骤S4包括以下子步骤：

S401.初始化

，

，并观测得到

的值:

在

进行实时观测，并将其作为

中第n行第k列的元素，

时；最终得到观测的

；

S402.得到

；

S404.令

；

S405.调用步骤S316中构建的评估行动网络

，将

作为

的输入，得到第一层策略的输出

；

S406.基于步骤S2022中

的计算方法，得到第二层策略的输出

；

S407.执行

，即为第t个时隙的联合调度方案；

S408.观测得到

，令

并回到步骤S405。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于分层策略的异构任务调度方法，其特征在于：包括以下步骤：

S1.构建异构任务调度模型并确定调度的目标问题；

所述的异构任务调度模型包括：

其中，第k个信道在第t个时隙选择服务的任务编号记为

：如果

，代表该信道在第t个时隙开始服务第

个时新型任务；如果

，代表该信道在第t个时隙开始服务第

个数据型任务；

考虑服务一次第n个数据型任务需要占用信道

个时隙，信道在被占用期间不能服务其他任务；用

；否则，

等于第k个信道距离服务完第n个数据型任务的剩余时隙数，也就是第k个信道被释放的时间;

S2.构建基于分层策略的异构任务调度的离线学习模型；

S3.进行离线训练得到成熟的模型；

S4.对训练得到的模型进行在线应用，实现异构任务调度；

步骤S1中所述确定调度的目标问题包括：

，其中

其中，

为第k个信道的带宽，

为基站端的信噪比，

其中

（1.1）

（1.2）

（1.3）

（1.4）

其中，公式（1.1）为

的更新方法，包括以下两种情况：

，那么时新型任务数据送达基站的概率为

，此时

；其中

为单个信道在一个时隙内成功服务第m个时新型任务的概率；

，此时

；

二、如果没有信道在第t个时隙服务了第m个时新型任务，即

，则

；

公式（1.2）为

的更新方法，包括三种情况：

一、如果当前第k个信道正在服务第n个数据型任务，即

，则在下个时隙，第k个信道的释放时间减少一个时隙；

二、如果当前第k个信道准备开始服务第n个数据型任务，即

，则在下个时隙，第k个信道的释放时间为

；

的值为0；

公式（1.3）为

的更新方法，考虑

具有平稳性和各态历经性，所以（1.3）成立，其中

是一个常数；考虑

，其中

包含

所有的取值，是一个有限实数集合；

公式（1.4）给出了

的取值约束，如果当前第k个信道正在服务数据型任务，即

成立，则该信道不能再去服务其他任务，即

；

，包含三个变量

，定义为

，

，

，行动空间为

；其中，

表示

第n行第k列的元素，

表示

第n行第k列的元素；

。

2.根据权利要求1所述的一种基于分层策略的异构任务调度方法，其特征在于：所述步骤S2包括以下子步骤：

S201.搭建第一层策略模块，包含K个完全相同的深度强化学习模块，即DRL模块, 其中第k个模块称为

；每一个DRL模块包含一个评估行动网络，一个评估价值网络，一个目标行动网络，一个目标价值网络和一个经历缓存模块；第一层策略模块的搭建包括以下子步骤：

S2011.搭建

模块的行动网络：

评估行动网络的输入是

，输出是一个整数，记为

；其中

，

，表示

中第k列元素构成的向量，

，表示

中第k列元素的和；评估行动网络

包含一个全连接神经网络，其中

送入参数为

的全连接神经网络

的值；同时

成立，令

；目标行动网络

和评估行动网络的结构完全一致，其参数用

来表征；

S2012.搭建

模块的价值网络：

评估价值网络的输入是

和

，其中

，输出是

的价值，记为

；评估价值网络包含一个全连接神经网络，其参数用

来表征，输出为

；

S2013.搭建

模块的经历缓存模块，每条经历包含

，其中

（1.5）

经历缓存模块用于缓存

条经历；

S2014.将集合

S202.构建第二层策略模块，该模块的输入为

，输出为

，该模块的搭建包含以下两个步骤；

S2021.构建一个M行

列的惠特尔指数表格，第m行第x列的元素

通过求解以下方程得到

其中

通过求解以下方程组得到

其中，

为第m个时新型任务在

时的惠特尔指数；

为中间变量；

S2022.基于惠特尔指数表格得到

：

通过下面的公式得到

的值

其中，

为第t个时隙时，M个时新型任务中惠特尔指数排在第

大的那个设备的编号，

的等于

中值等于N+1的元素的个数。

3.根据权利要求2所述的一种基于分层策略的异构任务调度方法，其特征在于：所述步骤S3包括以下子步骤：

S301.初始化

，

，并随机初始化

；

其中，

即

时的

；由于

第n行第k列的元素

；而

，其中

包含

所有的取值，是一个有限实数集合；故

的每一个元素均随机取

中的一个取值，即得到了随机初始化后的

；

S302.得到

；

S304.令

；

S305.调用步骤S2011中搭建的评估行动网络

，将

作为

的输入，得到第一层策略的输出

；

S306.基于步骤S2022中

的计算方法，得到第二层策略的输出

；

S307.基于公式(1.1)，(1.2)，(1.3)得到

，基于(1.5)得到

；

S309.如果

，令

并回到步骤S305，否则执行步骤S310；

S310.对于每一个DRL模块，从经历缓存模块中取出

条经历

；

S311.基于

条经历计算

S312.基于

的值后向传播更新

；

S313.基于

的值后向传播更新

；

S314.更新：

，即：更新前的

乘以0.9，然后再加上

乘以0.1，得到的结果作为更新后的

；

S315.更新：

，即：更新前的

乘以0.9，然后再加上

乘以0.1，得到的结果作为更新后的

；

S316.如果

，令

并回到步骤S305，否则结束循环，并将此时

的值赋给

，并构建出相应的评估行动网络

，其中

是一个给定的常数，表征最大学习轮数。

4.根据权利要求3所述的一种基于分层策略的异构任务调度方法，其特征在于：所述步骤S4包括以下子步骤：

S401.初始化

，

，并观测得到

的值:

在

进行实时观测，并将其作为

中第n行第k列的元素，

时；最终得到观测的

；

S402.得到

；

S404.令

；

S405.调用步骤S316中构建的评估行动网络

，将

作为

的输入，得到第一层策略的输出

；

S406.基于步骤S2022中

的计算方法，得到第二层策略的输出

；

S407.执行

，即为第t个时隙的联合调度方案；

S408.观测得到

，令

并回到步骤S405。