CN115442910B

CN115442910B - 一种基于最大权重调度策略的时延和时新联合优化方法

Info

Publication number: CN115442910B
Application number: CN202211249575.8A
Authority: CN
Inventors: 黄川�; 崔曙光; 李然; 张晗; 唐心怡
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-04-07
Anticipated expiration: 2042-10-12
Also published as: CN115442910A

Abstract

本发明公开了一种基于最大权重调度策略的时延和时新联合优化方法,S1.构建时延和时新联合的优化模型，并确定联合优化的目标问题；S2.设计联合调度框架，所述联合调度框架包含权重评估模块、排序模块和信道分配模块；S3.确定联合优化的目标优化问题所对应的调度策略，作为时延和时新联合优化结果。本发明适用于存在高维状态空间和行动空间的马尔科夫决策过程，高效实现了延迟和时新的联合优化。

Description

一种基于最大权重调度策略的时延和时新联合优化方法

技术领域

本发明涉及通信领域，特别是涉及一种基于最大权重调度策略的时延和时新联合优化方法。

背景技术

在新一代移动通信系统中，移动终端对时延和时新提出了新要求。比如在路况监测、应急预警、精密医疗操作等通信系统中，移动终端不仅希望基站能快速开启下行传输回应自己的数据请求，也希望下行传输的数据具有时新性。考虑到下行传输和时新性更新都需要占用基站的频谱资源，希望设计一种动态频谱分配方案来联合优化时延和时新。

采用移动终端的平均时延作为系统时延的衡量指标，采用移动终端的平均信息年龄(Age of information,AoI)作为系统时新的衡量指标，两者的联合优化是一个马尔科夫决策过程(Markov decision process,MDP)，并且存在高维状态空间，行动空间以及复杂的状态转移规则。这类问题当前不存在高效的解决方案，是一个科研空区。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于最大权重调度策略的时延和时新联合优化方法，适用于存在高维状态空间和行动空间的马尔科夫决策过程，高效实现了延迟和时新的联合优化。

本发明的目的是通过以下技术方案来实现的：一种基于最大权重调度策略的时延和时新联合优化方法，包括以下步骤：

S1.构建时延和时新联合的优化模型，并确定联合优化的目标问题；

S2.设计联合调度框架，所述联合调度框架包含权重评估模块、排序模块和信道分配模块；

S3.确定联合优化的目标优化问题所对应的调度策略，作为时延和时新联合优化结果。

本发明的有益效果是：本发明适用于存在高维行动和行动空间的马尔科夫决策过程，并且通过设计权重评估模块、排序模块和信道分配模块，并在确定联合优化的目标优化问题所对应的调度策略时，通过模块的调用，实现时延和时新的联合优化，得到联合的调度策略，具有效率高、复杂度低的优势。

附图说明

图1为本发明的原理示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于最大权重调度策略的延迟和时新联合优化方法，包括以下步骤：

设一个移动通信系统中，有一个基站、I个信息节点和J个移动终端。其中，I个信息节点会在每个时隙生成I种最新的状态信息；J个移动终端均匀分布在基站小区里，并随机向基站发送请求以获取信息节点的最新状态信息；基站有L个可用信道，其在接收到移动终端的请求后，一方面会调用信道实现信息节点最新状态信息的上行传输并会将其存储到基站的缓存空间中，另一方面会调用信道将缓存的状态信息下行传输至移动终端。

为了量化移动终端的平均时延，首先基于与基站的信道增益大小，将J个移动终端分为K个终端集合

其中，

内的移动终端在第t个时隙内会向基站发送a_k,i(t)个请求以获取第i个信息节点的最新状态信息。接收到移动终端的请求信息后，基站一方面会调度下行信道服务这些请求，记b_k,i(t)为

内请求第i个状态信息的移动终端中在第t个时隙内被服务到的数量；另一方面，基站使用KI个队列来存储未被及时服务的请求，记第kI+i个队列在第t个时隙开始时存储的请求数量为q_k,i(t)，则有

则移动终端的平均时延可表征为

为了量化移动终端的平均时新，记第t个时隙时基站端所缓存状态信息的信息年龄为

c_i(t)基站端所缓存的第i状态信息的信息年龄，i＝1,2…I，则移动终端的平均时新可表征为

其包含的三项代表了构成移动终端时新的三个部分：第一部分为移动终端发出请求后，其请求在基站端排队的时延，第二部分为基站端缓存的状态信息当前的信息年龄，第三部分为将所请求状态信息下行传输的时间。

S103.构建时延和时新联合优化的目标函数为

联合优化的控制变量为L个信道的调度策略

其中,d₁(t),d₂(t),…,d_KI(t)表示下行服务的策略；d_KI+1(t),d_KI+2(t),…,d_KI+I(t)为上行服务策略；

d_(k-1)I+i(t),k∈{1,2,…,K},i∈{1,2,…,I}表征第t时隙时用于下行服务

中请求第i个状态信息移动终端的信道数量；

d_KI+i(t),i∈{1,2,…,I}表征第t时隙时用于上行更新第i种状态信息分配的信道数量；

因信道数量共有L个，d(t)需满足以下限制条件

最后基于d(t)介绍b_k,i(t)和c(t)的更新规则。考虑

内的移动终端与基站之间的下行信道增益为g_k，当基站调用信道下行传输

内移动终端的请求时，传输成功的概率为p(g_k)，则有

Pr(b_k,i(t)＝l)表示b_k,i(t)＝l的概率；

即采用d_(k-1)I+i(t)个信道服务

内请求第i个状态信息的移动终端时，成功服务l个移动终端的概率等于d_(k-1)I+i(t)中取l的组合总数

乘上成功概率p(g_k)的l次方，再乘上失败概率(1-p(g_k))的d_I+kI+i(t)-l次方；考虑第i个信息节点与基站之间的上行信道增益满足分布g_I+i，当基站调用信道上行传输第i个信息节点的状态信息时，传输成功的概率为p(g_I+i)，则有

综上所述，延迟和时新的联合优化可总结为

s.t.(1.1),(1.2),(1.3),(1.4),(1.5)

其中，

该问题为马尔科夫决策过程，定义K行I列矩阵Q(t)来存储所有的队列信息，使得

则马尔科夫决策过程的状态为

行动为d(t)，状态转移规则为(1.1)，(1.4)和(1.5)，奖励为r(t)。该问题状态空间和行动空间维度较高，状态转移规则复杂，当前不存在高效的解决方案。而本申请适用于存在高维行动和行动空间的马尔科夫决策过程，并且通过设计权重评估模块、排序模块和信道分配模块，并在确定联合优化的目标优化问题所对应的调度策略时，通过模块的调用，实现时延和时新的联合优化，得到联合的调度策略，具有效率高、复杂度低的优势，具体地：

S2.设计联合调度框架，所述联合调度框架包含权重评估模块、排序模块、信道分配模块和；

S201：构建权重评估模块，其将状态信息s(t)作为输入，输出权重向量并将其记为

S2011：初始化权重向量为

S2012：基于s(t)中Q(t)的值更新

即令

其中的k和i满足k∈{0,1,…,K-1},i∈{1,2,…,I}；

S2013：基于s(t)中c(t)的值更新

即令

S202：构建排序模块，其将

作为输入，输出

中值最大的元素位置并记为x＝k_xI+i_x,k_x∈{0,1,…,K},i_x∈{1,2,…,I}，即有

同时，令

并输出更新后的

S203：构建信道分配模块，其将状态信息s(t)，排序模块的输出位置x＝k_xI+i_x的值和一特定中间变量y作为输入，输出调度策略

的值和更新后的y值：

S2031：如果x＝k_xI+i_x的值满足k_x＜K，则令

同时，更新y为

S2032：如果x＝k_xI+i_x的值满足k_x＝K，则令

同时，更新y为y＝y-1；

所述步骤S3中，需要确定联合联合优化问题的

对应的调度策略

包括以下子步骤：

S301：初始化t＝1；基站端所缓存的I个状态信息的信息年龄为c(1)＝1^I×1；令临时变量y＝L；并基于公式(1.1)得到状态信息的被存储的请求数量矩阵Q(1)；

S302：初始化调度策略的值为d(t)＝0^(KI+I)×1；联合Q(t)和c(t)的值得到t时隙时的状态信息s(t)＝{Q(t),c(t)}；

S303：将状态信息s(t)的值送入S201中设计的权重评估模块，该模块会调用步骤S2012分别评估KI路下行传输对时延时新联合优化的影响，调用步骤S2013分别评估I路上行传输对时延时新联合优化的影响；

最后基于KI+I路各自对联合优化的影响大小赋予各路相应权重并存储在权重向量

中，即执行S2012中的

和S2013中的

S304：联合S202中的排序模块和S203中的信道分配模块得到调度策略d(t)：

A1、将权重向量

作为输入送给S202中设计的排序模块，得到

中最大权重所在位置并将此位置赋给x＝k_xI+i_x，并基于S202更新

将s(t)，x＝k_xI+i_x和y的值送入S203中设计的信道分配模块，可以得到调度策略d(t)中元素

的值，同时基于S203更新临时变量y的值；

A2、如果y＝0，代表调度策略d(t)中所有的元素都已被赋值，则跳转至步骤S305；否则跳转回步骤A1；

可以看出步骤A1～A2是基于

中元素对应的权重由大到小，依次给调度策略d(t)中的元素赋值，因此本发明的调度策略为基于最大权重的调度策略。

S305：执行d(t)对应的调度决策；

S306：令t＝t+1；如果t＝T，则结束调度；

S307：基于公式(1.1)得到状态信息的被存储的请求数量矩阵Q(t)；基于公式(1.4)和公式(1.5)得到基站端所缓存的I个状态信息的信息年龄c(t)；

S308：跳转回步骤S302。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。