CN110996398A

CN110996398A - 一种无线网络资源调度方法及装置

Info

Publication number: CN110996398A
Application number: CN201911295433.3A
Authority: CN
Inventors: 张学彦
Original assignee: Ruijie Networks Co Ltd
Current assignee: Ruijie Networks Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-10

Abstract

本发明公开了一种无线网络资源调度方法及装置，用以解决现有的无线网络资源调度的准确性低的问题。所述无线网络资源调度方法，包括：接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息；从调度信息表中查找所述系统状态对应的调度策略，所述调度信息表中存储有各系统状态和各调度策略、以及在各系统状态下执行各调度策略获得的奖励期望之间的对应关系；从所述调度策略中选择对应的奖励期望最大的第一调度策略；根据所述第一调度策略执行无线网络资源调度。

Description

一种无线网络资源调度方法及装置

技术领域

本发明涉及无线通信技术领域，尤其涉及一种无线网络资源调度方法及装置。

背景技术

目前，如5G(5th generation mobile networks或5th generation wirelesssystems、5th-Generation，第五代移动通信技术)等以数据业务为主的网络系统中，定义了三大应用场景：eMBB(Enhanced Mobile Broadband，增强移动宽带)，主要针对大流量移动业务；uRLLC(Ultra Reliable Low Latency Communications，超高可靠超低时延通信)，主要针对无人驾驶等业务；mMTC(Massive Machine Type of Communication，大连接物联网)，主要针对大规模物联网业务。同时在上述三大应用场景下还存在各种细化不同需求的场景，然而，这些不同需求对于接入网而言并无法同时满足。为支持以上应用场景的方式之一是为不同应用场景提供异构的网络服务，以无线网络资源调度而言，eMBB业务要求优先满足高速率要求，uRLLC业务要求优先保障低延迟和高可靠，mMTC业务则需要维持大密度的用户连接。

目前，无线网络资源调度方法主要分为以下三类：1、当基站不感知信道，也不考虑用户QoS(Quality of Service，服务质量)时，通常采用轮询调度(Round Robin，RR)，轮询调度是令所有用户依次使用时频域资源，绝对公平且实现简单，但通常效果不佳。当轮询调度基于任务请求的时间顺序时，又可成为先入先出调度(First Out，FIFO)。除了轮询调度外，还可采用绝对公平吞吐(Blind Equal Throughput，BET)、加权公平排队(WeightedFair Queuing，WFQ)等调度策略。2、当基站感知信道，不考虑用户QoS时，常用的调度策略有：吞吐最大化(Maximum Throughput，MT)，其特点在于最大化小区的总吞吐，任何时候都优先为信道质量好的用户调度无线网络资源，这种方式可能导致信道质量差的用户得不到资源分配，因此，在性能上通常MT最优，但是公平性最差。比例公平(Proportional Fair，PF)与MT比较类似，但是PF在公平性方面做了进一步的考虑，通常执行PF策略时会对用户的历史吞吐进行统计，并将统计值引入用户的优先级的计算，由此使信道质量较差的用户不会始终得不到资源分配。另外，还有很多基于PF的改进策略，例如广义比例公平(Generalized Proportional Fair，GPF)、时频域比例公平(Time-Frequency DomainProportional Fair，TFD-PF)等。3、当基站既感知信道，又感知用户Qos时，常用的调度策略有：最大权重时延优先(Maximum-Largest Weighted Delay First，M-LWDF)，主要针对延迟敏感业务，与PF不同，M-LWDF在定义调度优先级时不仅考虑当前用户的信道质量，还考虑了用户的业务数据包的传输时延。指数比例公平(Exponential/Proportional Fair，EXP/PF)与M-LWDF类似，也根据用户信道质量和分组数据缓冲队列的时延对用户进行优先级排序，主要的区别在于实时业务度量的大小与缓冲队列时延成指数增长关系。除此之外，还有众多各有侧重适用于不同需求的调度策略，例如BF-PF(Barrier Function-ProportionalFair，障碍函数-比例公平)、OPLF-PF(Opportunistic Packet Loss Fair-ProportionalFair，丢包机会-比例公平)等等。

目前，对于多用户无线网络资源调度而言，往往不存在最优调度策略，仅仅有对于某一类应用场景最适合的调度策略，并且，目前的无线网络资源调度方法智能化程度不高，难以适应多变的场景，需要依赖网优调试，从而导致无线网络资源调度的效果较差。

发明内容

为了解决目前无线网络资源调度的效果较差的问题，本发明实施例提供了一种无线网络资源调度方法及装置。

第一方面，本发明实施例提供了一种无线网络资源调度方法，包括：

接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息；

从调度信息表中查找所述系统状态对应的调度策略，所述调度信息表中存储有各系统状态和各调度策略、以及在各系统状态下执行各调度策略获得的奖励期望之间的对应关系；

从所述调度策略中选择对应的奖励期望最大的第一调度策略；

根据所述第一调度策略执行无线网络资源调度。

本发明实施例提供的无线网络资源调度方法中，当基站接收到携带有系统状态信息的无线网络资源调度请求时，从调度信息表中查找所述系统状态对应的调度策略，所述调度信息表中存储有各系统状态和各调度策略、以及在各系统状态下执行各调度策略获得的奖励期望之间的对应关系，从所述调度策略中选择对应的奖励期望最大的第一调度策略，根据所述第一调度策略执行无线网络资源调度，根据本发明实施例提供的上述无线网络资源调度方法，每当需要执行无线网络资源调度时，均可以获得当前系统状态对应的最优的调度策略，从而，提高了无线网络资源调度的准确性。

较佳地，所述调度信息表为在最近一次设定训练时间周期内根据Q学习训练获得的Q表，所述Q表中的各Q值为在各预设系统状态下执行各预设调度策略获得的奖励期望；

从调度信息表中查找所述系统状态对应的调度策略，具体包括：

从所述Q表中查找所述系统状态对应的调度策略；

根据预设规则从所述调度策略中选择一个调度策略，具体包括：

从所述调度策略中选择Q值最大的调度策略。

上述较佳的实施方式表征，基站预先按照设定训练时间周期根据Q学习对不同应用场景下的系统状态对应的调度策略进行学习训练，以获得在不同系统状态下的最优调度策略，即训练获得的Q表中不同系统状态对应的调度策略中Q值最大的调度策略，能够自适应地获得不同系统状态下的最优调度策略。如果基站接收到无线网络资源调度请求，则查找在最近一次设定训练时间周期内根据Q学习训练获得Q表中当前系统状态对应的调度策略中Q值最大的调度策略，执行无线网络资源调度，平衡了实时调度需求与Q学习开销的矛盾，满足实时性需求。

较佳地，在设定训练时间周期内，通过以下步骤进行训练获得所述Q表：

初始化第一Q表中的Q值，所述第一Q表的每行由各预设系统状态组成，所述第一Q表的每列由各预设调度策略组成，所述第一Q表为在所述设定训练时间周期的上一设定训练时间周期内根据Q学习训练获得的；

针对所述设定训练时间周期内每一传输时间间隔TTI，获取所述TTI内的系统状态；

查找所述第一Q表，根据预设策略选择所述系统状态对应的一个调度策略；

执行所述选择的调度策略，获得执行所述调度策略的回报；

更新在所述系统状态下执行所述调度策略对应的Q值；

当确定达到预设训练次数时停止更新，获得所述Q表。

较佳地，根据预设策略选择所述系统状态对应的一个调度策略，具体包括：

按照第一预设概率选择所述系统状态对应的Q值最大的调度策略，或者按照第二预设概率随机选择所述系统状态对应的一个调度策略。

较佳地，获得执行所述调度策略的回报，具体包括：

通过以下公式获得执行所述调度策略的回报：

其中，r表示在所述TTI内的系统状态下，执行所述调度策略的回报；

o_j表示在所述系统状态下参与评估的第j个评价指标，j＝1,2,...,n，n表示在所述系统状态下参与评估的评价指标的个数；

表示对第j个评价指标o_j的评估加权；

表示第i个用户对于第j个评价指标o_j的评估值，

表示第i个用户对于第j个评价指标o_j的实际值，

表示第i个用户对于第j个评价指标o_j的预设期望值，i＝1,2,...,N，N表示在所述系统状态下的激活用户数。

较佳地，更新所述系统状态执行所述调度策略对应的Q值，具体包括：

通过以下公式更新在所述系统状态下执行所述调度策略对应的Q值：

Q_new(s,a)＝Q(s,a)+α*[r+λ*max(Q'(s,a)-Q(s,a)]

其中，Q_new(s,a)表示在系统状态s下执行调度策略a后对应的Q值；

Q(s,a)表示更新前系统状态s对应调度策略a的Q值；

Q'(s,a)表示训练过程中截至到所述TTI时，在系统状态s下执行调度策略a获得的全部Q值；

α表示学习效率；

λ表示衰减因子；

r表示在所述TTI内的系统状态s下，执行所述调度策略a的回报。

第二方面，本发明实施例提供了一种无线网络资源调度装置，包括：

接收单元，用于接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息；

查找单元，用于从调度信息表中查找所述系统状态对应的调度策略，所述调度信息表中存储有各系统状态和各调度策略、以及在各系统状态下执行各调度策略获得的奖励期望之间的对应关系；

选择单元，用于从所述调度策略中选择对应的奖励期望最大的第一调度策略；

调度单元，用于根据所述第一调度策略执行无线网络资源调度。

所述查找单元，具体用于从所述Q表中查找所述系统状态对应的调度策略；以及从所述调度策略中选择对应的Q值最大的第一调度策略。

较佳地，所述查找单元，具体用于在设定训练时间周期内，通过以下步骤进行训练获得所述Q表：初始化第一Q表中的Q值，所述第一Q表的每行由各预设系统状态组成，所述第一Q表的每列由各预设调度策略组成，所述第一Q表为在所述设定训练时间周期的上一设定训练时间周期内根据Q学习训练获得的；针对所述设定训练时间周期内每一传输时间间隔TTI，获取所述TTI内的系统状态；查找所述第一Q表，根据预设策略选择所述系统状态对应的一个调度策略；执行所述选择的调度策略，获得执行所述调度策略的回报；更新在所述系统状态下执行所述调度策略对应的Q值；当确定达到预设训练次数时停止更新，获得所述Q表。

较佳地，所述查找单元，具体用于按照第一预设概率选择所述系统状态对应的Q值最大的调度策略，或者按照第二预设概率随机选择所述系统状态对应的一个调度策略。

较佳地，所述查找单元，具体用于通过以下公式获得执行所述调度策略的回报：

表示对第j个评价指标o_j的评估加权；

表示第i个用户对于第j个评价指标o_j的评估值，

表示第i个用户对于第j个评价指标o_j的实际值，

较佳地，所述查找单元，具体用于通过以下公式更新在所述系统状态下执行所述调度策略对应的Q值：

Q_new(s,a)＝Q(s,a)+α*[r+λ*max(Q'(s,a)-Q(s,a)]

Q(s,a)表示更新前系统状态s对应调度策略a的Q值；

α表示学习效率；

λ表示衰减因子；

本发明提供的无线网络资源调度装置的技术效果可以参见上述第一方面或第一方面的各个实现方式的技术效果，此处不再赘述。

第三方面，本发明实施例提供了一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明所述的无线网络资源调度方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明所述的无线网络资源调度方法中的步骤。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中，调度策略训练架构示意图；

图2为本发明实施例提供的无线网络资源调度方法的实施流程示意图；

图3为本发明实施例中，在设定训练时间周期内获得Q表的实施流程示意图；

图4为本发明实施例提供的无线网络资源调度装置的结构示意图；

图5为本发明实施例提供的通信设备的结构示意图。

具体实施方式

为了解决现有的无线网络资源调度的准确性低的问题，本发明提出了一种无线网络资源调度方法及装置。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明实施例中，基站按照设定训练时间周期预先根据Q学习(Q-learning)算法进行调度策略训练，获得系统状态和调度策略对应的Q表，当接收到无线网络资源调度请求时，其中，无线网络资源调度请求中携带有当前系统状态信息，查找在最近一次设定训练时间周期内根据Q学习训练获得的Q表中所述系统状态对应的Q值最大的调度策略，根据该调度策略执行无线网络资源调度。如图1所示，其为调度策略训练架构示意图，Q学习算法包括两个输入：状态s和动作a。本发明实施例中，初始时，构造一个m行n列的Q表，每行表示不同的预设系统状态，每列表示不同的预设调度策略，即包括m个系统状态，n个调度策略，系统状态对应状态s，调度策略对应动作a，Q表中每个单元格的值(即每个Q值)代表在给定状态下执行相应动作的奖励期望。其中，预设系统状态可以包括但不限于Qos需求、用户公平性、CQI(Channel Quality Indication，信道质量指示)、系统容量、重传指标等，预设调度策略可以包括但不限于RR、FIFO、BET、WFQ、MT、PF、GPF、TFD-PF、M-LWDF、BF-PF、OPLF-PF等任意可行的无线网络资源调度策略。每个设定训练周期包括t个TTI(Transmission TimeInterval，传输时间间隔)，每个TTI执行一次调度策略，每执行一次调度策略，从当前系统状态进入下一系统状态，返回执行调度策略的回报r，并更新Q值，直至达到预设训练次数时训练停止，获得训练后的Q表。

如图2所示，其为本发明实施例提供的无线网络资源调度方法的实施流程示意图，可以包括以下步骤：

S11、接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息。

具体实施时，基站接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息，所述系统状态信息为当前系统状态。

S12、从调度信息表中查找所述系统状态对应的调度策略。

具体实施时，基站从调度信息表中查找所述系统状态对应的调度策略，所述调度信息表中存储有各系统状态和各调度策略、以及在各系统状态下执行各调度策略获得的奖励期望之间的对应关系，其中，所述调度信息表为在最近一次设定训练时间周期内根据Q学习训练获得的Q表，所述Q表中的各Q值为在各预设系统状态下执行各预设调度策略获得的奖励期望。

具体地，基站从所述Q表中查找所述系统状态对应的调度策略。

具体实施时，在设定训练时间周期内，所述Q表按照如图3所示的步骤训练获得，可以包括以下步骤：

S21、初始化第一Q表中的Q值。

具体实施时，基站初始化第一Q表中的Q值，本发明实施例中，可以将第一Q表中的各个Q值初始化为0。所述第一Q表的每行由不同的预设系统状态组成，所述第一Q表的每列由不同的预设调度策略组成，所述第一Q表为在所述设定训练时间周期的上一设定训练时间周期内根据Q学习训练获得的。初始时，在第一个设定训练时间周期内的Q表中的Q值为设定值。设定训练时间周期可以根据实际需要自行设定，例如，可以设置为每隔两个小时设定一个训练时间段，本发明对此不作限定。预设系统状态可以包括但不限于Qos需求、用户公平性、CQI、系统容量、重传指示等。例如，Qos需求可以由以下4种系统状态参数排列组合组成：吞吐量的期望、GBR(Guaranteed Bit Rate，保证比特率)用户数、时延的期望、缓存数据量，则Qos需求对应的系统状态参数组合成的系统状态有4^4＝256种，用户公平性、CQI、系统容量和重传指示各自的对应的系统状态和Qos需求对应的系统状态类似，此处不再赘述。预设调度策略可以包括但不限于RR、FIFO、BET、WFQ、MT、PF、GPF、TFD-PF、M-LWDF、BF-PF、OPLF-PF等任意可行的无线网络资源调度策略。

S22、针对所述设定训练时间周期内每一TTI，获取所述TTI内的系统状态。

具体实施时，在所述设定训练时间周期内，每到一个TTI，获取所述TTI内的当前系统状态。

S23、查找所述第一Q表，根据预设策略选择所述系统状态对应的一个调度策略。

具体实施时，预设策略可以为贪婪策略(ε-Greedy)，本发明实施例对此不作限定。

具体地，在每一个TTI内，查找所述第一Q表，可以根据贪婪策略选择所述TTI内的系统状态对应的一个调度策略。

具体地，可以按照第一预设概率选择所述系统状态对应的Q值最大的调度策略，或者按照第二预设概率随机选择所述系统状态对应的一个调度策略。其中，第一预设概率为1-ε，第二预设概率为ε，其中，ε可以取值为0.1。当ε取值0.1时，则90％的概率选择所述系统状态对应的Q值最大的调度策略，10％的概率随机选择所述系统状态对应的一个调度策略。

S24、执行所述选择的调度策略，获得执行所述调度策略的回报。

具体实施时，在每一个TTI内，执行选择的在所述TTI内的系统状态对应的调度策略，获得执行所述调度策略的回报，所述回报表示在所述TTI内的系统状态下执行所述调度策略的评估。

具体地，可以通过以下公式获得执行所述调度策略的回报：

表示对第j个评价指标o_j的评估加权；

表示第i个用户对于第j个评价指标o_j的评估值，

表示第i个用户对于第j个评价指标o_j的实际值，

以所述TTI内的系统状态为Qos相关系统参数组成的系统状态为例，回报r则表示对当前系统Qos支持优劣的评估，已知Qos系统的评价指标主要有GBR、时延和丢包率三类，分别用o₁、o₂和o₃表示。针对评估指标o₁，

表示第i个用户的目标比特率(即预设期望比特率)，

表示第i个用户的当前比特率(即实际比特率)。针对评估指标o₂，

表示第i个用户的目标时延(预设期望时延)，

表示第i个用户的当前比特率(即实际时延)。针对评估指标o₃，

表示第i个用户的目标丢包率(预设期望丢包率)，

表示第i个用户的当前丢包率(即实际丢包率)。则

表示第i个用户对于评价指标o₁的评估值，

表示第i个用户对于评价指标o₂的评估值，

表示第i个用户对于评价指标o₃的评估值，

则回报

N表示在当前系统状态下的激活用户数。

S25、更新在所述系统状态下执行所述调度策略对应的Q值。

具体实施时，执行完所述调度策略后，更新在所述系统状态下执行所述调度策略对应的Q值，进入下一TTI。

具体实施时，可以通过以下公式更新在所述系统状态下执行所述调度策略对应的Q值：

Q_new(s,a)＝Q(s,a)+α*[r+λ*max(Q'(s,a)-Q(s,a)]

Q(s,a)表示更新前系统状态s对应调度策略a的Q值；

α表示学习效率；

λ表示衰减因子；

具体实施时，α的值越大，学习效率越高，Q表更新的步幅也越大，本发明实施例中α的值可以根据需要自行设定，本发明实施例对此不作限定。λ∈[0,1]。

S26、当确定达到预设训练次数时停止更新，获得所述Q表。

具体实施时，当确定达到预设训练次数时停止更新，获得所述Q表。本发明实施例中，预设训练次数可以设置为与预设训练时间周期的TTI的个数相同。

S13、从所述调度策略中选择对应的奖励期望最大的第一调度策略。

具体实施时，基站从Q表中所述系统状态对应的调度策略中选择对应的Q值最大的调度策略，记为第一调度策略。

S14、根据所述第一调度策略执行无线网络资源调度。

具体实施时，基站执行所述第一调度策略，进行无线网络资源调度。

本发明实施例提供的上述无线网络资源调度方法，预先按照设定训练时间周期根据Q学习对不同应用场景下的系统状态对应的调度策略进行学习训练，以获得在不同系统状态下的最优调度策略，即训练获得的Q表中不同系统状态对应的调度策略中Q值最大的调度策略，能够自适应地获得不同系统状态下的最优调度策略。如果基站接收到无线网络资源调度请求，则查找在最近一次设定训练时间周期内根据Q学习训练获得Q表中当前系统状态对应的调度策略中Q值最大的调度策略，执行无线网络资源调度，平衡了实时调度需求与Q学习开销的矛盾，满足实时性需求。

基于同一发明构思，本发明实施例还提供了一种无线网络资源调度装置，由于上述无线网络资源调度装置解决问题的原理与无线网络资源调度方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，其为本发明实施例提供的无线网络资源调度装置的结构示意图，可以包括：

接收单元31，用于接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息；

查找单元32，用于从调度信息表中查找所述系统状态对应的调度策略，所述调度信息表中存储有各系统状态和各调度策略、以及在各系统状态下执行各调度策略获得的奖励期望之间的对应关系；

选择单元33，用于从所述调度策略中选择对应的奖励期望最大的第一调度策略；

调度单元34，用于根据所述第一调度策略执行无线网络资源调度。

所述查找单元32，具体用于从所述Q表中查找所述系统状态对应的调度策略；以及从所述调度策略中选择对应的Q值最大的第一调度策略。

较佳地，所述查找单元32，具体用于在设定训练时间周期内，通过以下步骤进行训练获得所述Q表：初始化第一Q表中的Q值，所述第一Q表的每行由各预设系统状态组成，所述第一Q表的每列由各预设调度策略组成，所述第一Q表为在所述设定训练时间周期的上一设定训练时间周期内根据Q学习训练获得的；针对所述设定训练时间周期内每一传输时间间隔TTI，获取所述TTI内的系统状态；查找所述第一Q表，根据预设策略选择所述系统状态对应的一个调度策略；执行所述选择的调度策略，获得执行所述调度策略的回报；更新在所述系统状态下执行所述调度策略对应的Q值；当确定达到预设训练次数时停止更新，获得所述Q表。

较佳地，所述查找单元32，具体用于按照第一预设概率选择所述系统状态对应的Q值最大的调度策略，或者按照第二预设概率随机选择所述系统状态对应的一个调度策略。

表示对第j个评价指标o_j的评估加权；

表示第i个用户对于第j个评价指标o_j的评估值，

表示第i个用户对于第j个评价指标o_j的实际值，

较佳地，所述查找单元32，具体用于通过以下公式更新在所述系统状态下执行所述调度策略对应的Q值：

Q_new(s,a)＝Q(s,a)+α*[r+λ*max(Q'(s,a)-Q(s,a)]

Q(s,a)表示更新前系统状态s对应调度策略a的Q值；

α表示学习效率；

λ表示衰减因子；

基于同一技术构思，本发明实施例还提供了一种通信设备400，参照图5所示，通信设备400用于实施上述方法实施例记载的无线网络资源调度方法，该实施例的通信设备400可以包括：存储器401、处理器402以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如无线网络资源调度程序。所述处理器执行所述计算机程序时实现上述各个无线网络资源调度方法实施例中的步骤，例如图2所示的步骤S11。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如31。

本发明实施例中不限定上述存储器401、处理器402之间的具体连接介质。本申请实施例在图5中以存储器401、处理器402之间通过总线403连接，总线403在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线403可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器401可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器401也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器401可以是上述存储器的组合。

处理器402，用于实现如图2所示的一种无线网络资源调度方法，包括：

所述处理器402，用于调用所述存储器401中存储的计算机程序执行如图2中所示的步骤S11、接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息，步骤S12、从调度信息表中查找所述系统状态对应的调度策略，步骤S13、从所述调度策略中选择对应的奖励期望最大的第一调度策略，和步骤S14、根据所述第一调度策略执行无线网络资源调度。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本发明提供的无线网络资源调度方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在通信设备上运行时，所述程序代码用于使所述通信设备执行本说明书上述描述的根据本发明各种示例性实施方式的无线网络资源调度方法中的步骤，例如，所述通信设备可以执行如图2中所示的步骤S11、接收无线网络资源调度请求，所述无线网络资源调度请求中携带有系统状态信息，步骤S12、从调度信息表中查找所述系统状态对应的调度策略，步骤S13、从所述调度策略中选择对应的奖励期望最大的第一调度策略，和步骤S14、根据所述第一调度策略执行无线网络资源调度。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于无线网络资源调度的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种无线网络资源调度方法，其特征在于，包括：

根据所述第一调度策略执行无线网络资源调度。

2.如权利要求1所述的方法，其特征在于，所述调度信息表为在最近一次设定训练时间周期内根据Q学习训练获得的Q表，所述Q表中的各Q值为在各预设系统状态下执行各预设调度策略获得的奖励期望；

从所述Q表中查找所述系统状态对应的调度策略；

从所述调度策略中选择对应的奖励期望最大的第一调度策略，具体包括：

从所述调度策略中选择对应的Q值最大的第一调度策略。

3.如权利要求2所述的方法，其特征在于，在设定训练时间周期内，通过以下步骤进行训练获得所述Q表：

执行所述选择的调度策略，获得执行所述调度策略的回报；

更新在所述系统状态下执行所述调度策略对应的Q值；

当确定达到预设训练次数时停止更新，获得所述Q表。

4.如权利要求3所述的方法，其特征在于，根据预设策略选择所述系统状态对应的一个调度策略，具体包括：

5.如权利要求3所述的方法，其特征在于，获得执行所述调度策略的回报，具体包括：

通过以下公式获得执行所述调度策略的回报：

表示对第j个评价指标o_j的评估加权；

表示第i个用户对于第j个评价指标o_j的评估值，

表示第i个用户对于第j个评价指标o_j的实际值，

6.如权利要求3或5所述的方法，其特征在于，更新所述系统状态执行所述调度策略对应的Q值，具体包括：

Q_new(s,a)＝Q(s,a)+α*[r+λ*max(Q'(s,a)-Q(s,a)]

Q(s,a)表示更新前系统状态s对应调度策略a的Q值；

α表示学习效率；

λ表示衰减因子；

7.一种无线网络资源调度装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述调度信息表为在最近一次设定训练时间周期内根据Q学习训练获得的Q表，所述Q表中的各Q值为在各预设系统状态下执行各预设调度策略获得的奖励期望；

9.如权利要求8所述的装置，其特征在于，

所述查找单元，具体用于在设定训练时间周期内，通过以下步骤进行训练获得所述Q表：初始化第一Q表中的Q值，所述第一Q表的每行由各预设系统状态组成，所述第一Q表的每列由各预设调度策略组成，所述第一Q表为在所述设定训练时间周期的上一设定训练时间周期内根据Q学习训练获得的；针对所述设定训练时间周期内每一传输时间间隔TTI，获取所述TTI内的系统状态；查找所述第一Q表，根据预设策略选择所述系统状态对应的一个调度策略；执行所述选择的调度策略，获得执行所述调度策略的回报；更新在所述系统状态下执行所述调度策略对应的Q值；当确定达到预设训练次数时停止更新，获得所述Q表。

10.如权利要求9所述的装置，其特征在于，

所述查找单元，具体用于按照第一预设概率选择所述系统状态对应的Q值最大的调度策略，或者按照第二预设概率随机选择所述系统状态对应的一个调度策略。

11.如权利要求9所述的装置，其特征在于，

所述查找单元，具体用于通过以下公式获得执行所述调度策略的回报：