CN112584361B

CN112584361B - M2m通信中基于深度强化学习的资源调度方法及装置

Info

Publication number: CN112584361B
Application number: CN202011462754.0A
Authority: CN
Inventors: 林霏; 车逸辰; 靳显智; 刘洁梅; 王叶
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-09-07
Anticipated expiration: 2040-12-09
Also published as: CN112584361A

Abstract

本申请公开了M2M通信中基于深度强化学习的资源调度方法及装置，用以解决M2M中系统资源分配不合理，容易产生网络拥塞的问题。该方法建立TD‑LTE系统模型，并确定所述系统当前的资源映射状态；接收待处理的业务作业；根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；根据分配结果，对所述当前的资源映射状态进行调整。本方法通过深度学习和强化学习的结合，在资源分配时，确定最合理的资源分配方式，提高资源调度效率，能够解决由MTCD通信引起的网络拥塞的问题。

Description

M2M通信中基于深度强化学习的资源调度方法及装置

技术领域

本申请涉及深度强化学习技术领域，尤其涉及一种基于深度强化学习的资源调度方法及装置。

背景技术

蜂窝网络的主要业务是机器类型通信(Machine Type Communication，MTC)。在MTC的机器对机器(M2M)通信中，当大量机器类型通信设备(Machine Type CommunicationDevice，MTCD)请求访问网络时，可能会存在过载的问题。因此，资源管理问题是蜂窝网络通信中的基本问题。

随着LTE的发展，用户对数据传输速率和系统容量不断增长的需求。M2M是网络的核心技术之一，无线接入网的主要问题是过载和资源分配不合理，导致网络拥塞。M2M设备已深入生活和工业生产中，提高了社会生产水平、工业生产效率同时降低了生产成本。M2M通信作为物联网的关键技术，满足各类物联网业务需求的M2M通信系统的设计具有重要意义。移动蜂窝网络具有高速率传输、大范围覆盖、高可靠性、易于部署等特点，是物联网业务的理想载体，但是蜂窝网与物联网的融合也面临一定的挑战。

M2M通信中的大量业务具有功耗敏感、小数据包随机性传输、要求广覆盖的特点。例如，居民小区内的智能电表、智能水表，会周期性上报用户的耗电量、耗水量；停车场内的车辆检测系统，在车辆抵达和离开停车位时会上报车位的使用信息；等等。这类业务要求终端设备耗电量小，电池寿命长，能够随机性的频繁上报少量数据，体现了蜂窝网与物联网的融合。

但是，由于无线接入网过载和资源分配不合理的问题，使得这类业务更容易引起控制信道信令堵塞的问题，产生网络拥塞。

发明内容

本申请实施例提供一种M2M通信中基于深度强化学习的资源调度方法及装置，用以解决M2M中系统资源分配不合理，容易产生网络拥塞的问题。

本申请实施例提供的一种M2M通信中基于深度强化学习的资源调度方法，包括：

建立TD-LTE系统模型，确定所述系统当前的资源映射状态，并将所述当前的资源映射状态转化为图像；

接收待处理的业务作业；

根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；

根据分配结果，对所述当前的资源映射状态进行调整。

在一个示例中，所述深度强化学习神经网络通过以下方式获得：以卷积神经网络作为强化学习中的值函数；将资源映射状态图与资源分配动作输入卷积神经网络中，提取所述资源映射状态图的特征，确定所述资源映射状态图、资源分配动作与对应的Q值之间的相关性。

在一个示例中，根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源，具体包括：将所述当前的资源映射状态，以及所述待处理的业务作业输入深度强化学习神经网络中，从所有可执行的资源分配动作中，确定对应Q值最高的可执行的资源分配动作；根据所述Q值最高的可执行的资源分配动作，向所述待处理的业务作业分配资源；记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息，并计算对应的累积奖励。

在一个示例中，所述累积奖励通过以下方式计算得到：

其中，l∈集群中的所有机器，il∈所有计划的作业机器l，j∈队列中的所有业务作业，k∈队列中的所有作业积压，α_l、β、γ为预设参数。

在一个示例中，所述值函数为：Q(s，a)＝E[r+μmax(s′，a′)|s，a]，其中，s表示状态，a表示动作，r表示奖励，μ表示折扣因子。所述方法还包括：从存储中随机抽取经验样本ek＝(sk，ak，rk，sk+1)，用于卷积神经网络的训练，其中，sk表示资源占用状态，ak表示资源分配动作，rk表示立即奖励，sk+1表示状态转换。

在一个示例中，接收待处理的业务作业，具体包括：接收待处理的业务作业；确定不同业务分别对应的作业队列；将接收到的待处理的业务作业放入相应业务的作业队列中。

在一个示例中，确定不同业务分别对应的作业队列，具体包括：针对不同业务，确定该业务对应的不同类型的作业方法、各作业方法对应的作业队列，以及各作业队列对应的权重；向所述待处理的业务作业分配资源，具体包括：根据若干待处理的业务作业各自所在的业务队列的权重，确定向相应业务作业分配资源的优先级。

在一个示例中，所述方法还包括：若对应的作业队列已满，则将待处理的业务作业放入预设的动作空间中等待。

本申请实施例提供的一种M2M通信中基于深度强化学习的资源调度装置，包括：

建立模块，建立TD-LTE系统模型，确定所述系统当前的资源映射状态，并将所述当前的资源映射状态转化为图像；

接收模块，接收待处理的业务作业；

分配模块，根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；

调整模块，根据分配结果，对所述当前的资源映射状态进行调整。

本申请实施例提供M2M通信中基于深度强化学习的资源调度方法及装置，至少包括以下有益效果：将深度学习和强化学习相结合，将资源占用状态表示为图像，将深度学习用于处理图像，提取所需要的数据，然后将强化学习用于代理决策管理资源，将资源分配给不同的工作。这样能够在准确预测的基础上确定最合理的资源分配方式，解决多资源分配的问题，并且提高资源调度效率，解决由MTCD通信引起的网络拥塞的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的M2M通信中基于深度强化学习的资源调度方法流程图；

图2为本申请实施例提供的TD-LTE时域图；

图3为本申请实施例提供的有无使用深度强化学习的平均减速学习曲线对比图；

图4为本申请实施例提供的优化后的学习曲线图；

图5为本申请实施例提供的M2M通信中基于深度强化学习的资源调度装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的M2M通信中基于深度强化学习的资源调度方法流程图，具体包括以下步骤：

步骤101：建立TD-LTE系统模型，确定所述系统当前的资源映射状态，并将所述当前的资源映射状态转化为图像。

长期演进(long Term Evolution，LTE)根据双工方式不同，分为LTE-TDD(即TD-LTE)和LTE-FDD两种制式。

如图2所示，在TD-LTE系统中，无线电帧的时域为一个10ms的无线电帧Radioframe，该无线电帧由两个5ms的半帧Half-frame组成，每个半帧由5个1ms的子帧组成。其中，子帧还包括常规子帧SubFrame和特殊子帧Special subframe，常规子帧由两个0.5ms时隙Time slot组成，特殊子帧由DwPTS(下行)、GP(空功率)和UpPTS(上行)组成。需要说明的是，无线帧的帧头为子帧0，施工现场为下行，而2为固定上行。子帧1是特殊子帧，并且根据需要配置其他子帧。

TD-LTE系统的时频资源在一个时隙中，在频域中宽度为180kHz的连续物理资源是资源块(Resource Block，RB)。链路中的物理资源块由7*12个资源单元(ResourceElement，RE)组成，对应于1个时隙。在180kHz的频域中，每个资源单元组(ResourceElement Group，REG)包含4个RE，而控制信道元(Control Channel Element，CCE)由36个RE和9个REG组成。

其中，资源映射原理可基于3GPP协议36.211。资源映射状态可表示系统当前的资源占用状态，可将其转化为图片、表格等形式表示。

步骤102：接收待处理的业务作业。

系统可基于网络请求，接收若干待处理的业务作业。考虑到所有MTCD均匀地分布在单个LTE小区中，可根据TD-LTE系统模型提供的服务(即业务)，为不同业务分别设置一个作业队列。于是，系统可确定不同业务分别对应的作业队列，并将接收到的待处理的业务作业放入相应业务的作业队列中，按照队列中的顺序进行处理。

其中，一个业务可能对应不同的作业处理方法，系统可按照不同作业处理方法对应的工作模式，对不同工作模式进行标记，并将不同工作模式对应的各业务作业均放入一个队列中。比如，工作模式可包括CPU、内存、I/O。

作业以离散的时间步长在线方式到达多个工作模式组成的集群。调度程序在每个时间步选择一个或多个等待的作业进行调度。在一定时间内，到达每个作业队列中的每个服务的工作模式不同，表示为多资源需求问题。

进一步地，针对复杂业务，系统可根据不同的作业方法，为一个业务设置多个队列，并且为多个队列确定不同的权重。于是，系统后续可根据不同队列对应的权重的不同，确定处理的优先级。其中，权重大小与优先级成正相关关系。例如，优先向所在的业务队列的权重大的业务作业分配资源。

模型中使用了多个作业队列，主要目的是减少平均值工作周转时间。其中，周转时间＝完成时间-提交时间(业务作业到达时间)＝等待时间+运行时间。对于进入系统的n个作业，平均周转时间为：

在一个实施例中，每个时间步都是离散的，到达的业务作业在固定长度的队列中等待。若对应的作业队列已满，则将待处理的业务作业放入预设的行动空间中等待。

实际上，基站eNB无法获得每个资源块中请求分组传输的MTCD的确切数目。在固定数量的MTCD和队列长度的情况下，可以将动作空间设计得足够小。因此，eNB只能基于此受限信息来估计即将到来的流量。

通过允许代理在每个时间步执行多个动作，使动作空间保持较小，可避免因大型的动作空间的需要，而使学习变得非常困难。

步骤103：利用深度学习对资源映射状态图进行处理，提取特征，通过强化学习进行决策，以及，通过训练好的神经网络向所述待处理的业务作业分配资源。

具体的，根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源。

传统的强化学习局限于动作空间和样本空间很小且通常是离散的情况。然而比较复杂的、更加接近实际情况的任务往往有着很大的状态空间和连续的动作空间。输入数据为图像、声音时，往往具有很高维度，而传统的强化学习很难对其处理，因此，深度强化学习把能够处理高维输入的深度学习与强化学习结合起来，形成深度强化学习神经网络(DeepQ Network，DQN)。

在深度强化学习神经网络中，用一个深度网络代表值函数，依据强化学习中的Q-Learning，为深度网络提供目标值，对网络不断更新直至收敛。在本申请的最后的训练阶段，从随机选择的动作中获取观察数据，并训练卷积神经网络(Convolutional NeuralNetworks，CNN)使其适应资源映射状态图、资源分配动作与代表预期累积奖励的相应值函数Q(s，a)之间的相关性。

将资源占用状态表示为图片(即资源映射状态图)的形式，使CNN能够通过提取图片特征，获取资源占用的相关数据，并学习与对应Q值之间的相关性。

在实际应用过程中，为待处理的业务作业分配资源时，可将当前的资源映射状态，以及待处理的业务作业输入深度强化学习神经网络中，从所有可执行的资源分配动作中，确定对应Q值最高的可执行的资源分配动作，确定该资源分配动作为最合理的动作。于是，可按照该Q值最高的可执行的资源分配动作，向待处理的业务作业分配资源。

具体的，可从经验中学习并根据其估计的未来奖励来选择最佳动作。强化学习调参DRL包含两个阶段：离线CNN训练阶段和在线强化学习阶段。离线训练阶段从随机选择的动作中获取观测数据，并训练CNN以适应状态动作对(s，a)与相应的值函数Q(s，a)之间的相关性，它们表示预期的累积奖励，折扣为保持状态s并采取行动a。

其中，奖励是保持状态并采取行动的折扣。值函数Q(s，a)为：

Q(s，a)＝E[r+μmax(s′，a′)|s，a]

其中，r为奖励，μ为折扣因子。

CNN的最终训练阶段需要在每个阶段积累足够的经验样本：ek＝(sk，ak，rk，sk+1)，其中，sk表示状态，ak表示操作，rk表示立即奖励，sk+1表示状态转换，它们是从存储中随机抽取的经验。在这种微妙的过程中使用经验记忆可以使学习变得顺畅并避免参数波动或差异。通过执行每个有效操作，将在机器的第一个可能的时间步安排作业，并且系统状态将改变。无效的操作，将花费时间让新作业进入队列并在计算机上处理作业。

其中，有效操作是可以在集群中的第一个可能的时间步(即可以完全满足任务的资源要求直到完成的第一个时间步)中计划一个作业。然后，代理会观察到状态转换：已调度的作业将移动到群集映像中的适当位置。

无效操作是指代理程序不希望在当前时间步长安排更多作业。在每个时间步长，时间都会冻结，直到调度程序选择无效动作或无效动作。例如，尝试调度不“适合”的作业。

在深度强化学习神经网络中，神经网络用于表示Q函数，系统将资源映像作为状态占用，加上所有可执行动作作为输入，然后输出相应的Q值。通过卷积神经网络优化Q函数，以估计每种状态的最可能解决方案，输出所有可能动作的概率分布。

系统可记录每个情节中所有时间步的资源映射状态、可执行的资源分配行为和对应的奖励信息，并使用这些值来计算每个情节中每个时间步的累积奖励。其中，奖励需要代表算法的目标，即在延迟约束下完成任务调度程序的最大计算机数量的概率。

累积奖励通过以下方式计算得到：

其中，l∈集群中的所有机器，i_l∈所有计划的作业机器l，j∈队列中的所有业务作业，k∈队列中的所有作业积压，α_l、β、γ为预设参数。通常，将折现系数设为1并将α_l，β，γ设为1，则随着时间的推移，累积奖励与工作放慢的总和(负)一致，因此单位内的工作将受到更大的惩罚。并且，还可通过设置不同的α_l来代表从作业队列到不同机器的不同传输速度。

这样能够使系统学会将平均速度降低到最小。

其中，j∈队列中的所有业务作业表示：作业在到达队列中，在还没处理的情况下，是一种堵塞的情况，也就是说操作系统面临多种资源的选择。

k∈队列中的所有作业积压表示：当采用深度学习处理图像提取特征时，强化学习会对多种资源进行决策，保证不会堵塞以及影响系统操作的流畅性，那同一时间只有一种资源会被处理，剩下的就是积压的作业，会等待处理。

在一个实施例中，通过修改机器学习中的神经网络参数，对深度强化学习神经网络进行调整优化，能够使学习曲线得到了显著改善，以更少的步数更快地减少平均调度时间，提高调度效率。

如图3所示，图中横坐标表示情节，纵坐标表示减速。在三条学习曲线中，最上方的学习曲线为未使用DQN算法的，中间的学习曲线为使用DQN算法的，最下方的学习曲线为强化学习调参DeepRL的。可见，通过深度强化学习算法进行学习，有利于改善学习曲线，使平均速度降低到最小。

如图4所示，图中横坐标表示情节，纵坐标表示减速。在图4的两条学习曲线中，一条表示经过Adadelta优化的，另一条表示经过Nadam优化的，由于两者效果相近，因此学习曲线存在部分重叠。

步骤104：根据分配结果，对所述当前的资源映射状态进行调整。

在本申请实施例中，将深度学习和强化学习相结合，将资源占用状态表示为图像，将深度学习用于处理图像，提取所需要的数据，然后将强化学习用于代理决策管理资源，将资源分配给不同的工作。这样能够在准确预测的基础上确定最合理的资源分配方式，解决多资源分配的问题，并且提高资源调度效率，解决由MTCD通信引起的网络拥塞的问题。

以上为本申请实施例提供的基于深度强化学习的资源调度方法，基于同样的发明思路，本申请实施例还提供了相应的基于深度强化学习的资源调度装置，如图5所示。

图5为本申请实施例提供的M2M通信中基于深度强化学习的资源调度装置结构示意图，具体包括：

建立模块501，建立TD-LTE系统模型，确定所述系统当前的资源映射状态，并将所述当前的资源映射状态转化为图像；

接收模块502，接收待处理的业务作业；

分配模块503，根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；

调整模块504，根据分配结果，对所述当前的资源映射状态进行调整。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种M2M通信中基于深度强化学习的资源调度方法，其特征在于，包括：

接收待处理的业务作业；

根据分配结果，对所述当前的资源映射状态进行调整；

根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源，具体包括：

将所述当前的资源映射状态，以及所述待处理的业务作业输入深度强化学习神经网络中，从所有可执行的资源分配动作中，确定对应Q值最高的可执行的资源分配动作；

根据所述Q值最高的可执行的资源分配动作，向所述待处理的业务作业分配资源；

记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息，并计算对应的累积奖励；

所述累积奖励通过以下方式计算得到：

其中，l∈集群中的所有机器，i₁∈所有计划的作业机器l，j∈队列中的所有业务作业，k∈队列中的所有作业积压，α_l、β、γ为预设参数；

接收待处理的业务作业，具体包括：

接收待处理的业务作业；

确定不同业务分别对应的作业队列；

将接收到的待处理的业务作业放入相应业务的作业队列中。

2.根据权利要求1所述的方法，其特征在于，所述深度强化学习神经网络通过以下方式获得：

以卷积神经网络作为强化学习中的值函数；

将资源映射状态图与资源分配动作输入卷积神经网络中，提取所述资源映射状态图的特征，确定所述资源映射状态图、资源分配动作与对应的Q值之间的相关性。

3.根据权利要求2所述的方法，其特征在于，所述值函数为：

Q(s,a)＝E[r+μmax(s′,a′)∣s,a]

其中，s表示状态，a表示动作，r表示奖励，μ表示折扣因子。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

从存储中随机抽取经验样本ek＝(sk，ak，rk，sk+1)，用于卷积神经网络的训练，其中，sk表示资源占用状态，ak表示资源分配动作，rk表示立即奖励，sk+1表示状态转换。

5.根据权利要求1所述的方法，其特征在于，确定不同业务分别对应的作业队列，具体包括：

针对不同业务，确定该业务对应的不同类型的作业方法、各作业方法对应的作业队列，以及各作业队列对应的权重；

向所述待处理的业务作业分配资源，具体包括：

根据若干待处理的业务作业各自所在的业务队列的权重，确定向相应业务作业分配资源的优先级。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若对应的作业队列已满，则将待处理的业务作业放入预设的动作空间中等待。

7.一种M2M通信中基于深度强化学习的资源调度装置，其特征在于，包括：

接收模块，接收待处理的业务作业；确定不同业务分别对应的作业队列；将接收到的待处理的业务作业放入相应业务的作业队列中

分配模块，根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；将所述当前的资源映射状态，以及所述待处理的业务作业输入深度强化学习神经网络中，从所有可执行的资源分配动作中，确定对应Q值最高的可执行的资源分配动作；根据所述Q值最高的可执行的资源分配动作，向所述待处理的业务作业分配资源；记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息，并计算对应的累积奖励；

调整模块，根据分配结果，对所述当前的资源映射状态进行调整；

所述累积奖励通过以下方式计算得到：

其中，l∈集群中的所有机器，i_l∈所有计划的作业机器l，j∈队列中的所有业务作业，k∈队列中的所有作业积压，α_l、β、γ为预设参数。