CN115633402A

CN115633402A - 一种面向混合业务吞吐量优化的资源调度方法

Info

Publication number: CN115633402A
Application number: CN202211302266.2A
Authority: CN
Inventors: 张鸿; 王慧; 杨鹏; 王汝言; 吴大鹏; 侯靖
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-20

Abstract

本发明涉及一种面向混合业务吞吐量优化的资源调度方法，属于通信技术领域。该方法包括：S1：根据URLLC业务与mMTC业务的数据特点，构建混合业务传输系统的信道模型；S2：构建雾小区中面向混合业务的吞吐量优化模型；S3：利用多智能体求解混合业务吞吐量优化模型，即利用多智能体强化学习模型迭代寻找混合业务下吞吐量最优的资源调度策略。本发明可有效地提高网络吞吐量性能，具有广阔的运用前景。

Description

一种面向混合业务吞吐量优化的资源调度方法

技术领域

本发明属于通信技术领域，涉及一种面向混合业务吞吐量优化的资源调度方法。

背景技术

随着第五代(5th Generation,5G)移动通信技术的持续发展，使得智能化的生活生产方式已经成为一种趋势，多样化设备产生的数据在网络中被传输到所需要的地方，其中，IoT设备产生的数据占据了重要部分，并以智慧建筑、工业自动化等应用场景为主要增长点。此类场景中的IoT业务具有单个数据包较小，但整体业务量较大的特点，对当前网络形成了新的挑战。为了满足日益增多的IoT业务通信需求，当前无线网络需要持续演进。

传统无线接入网中的数据信息主要由部署的基站(Base Station,BS)独自进行处理，因此，需要部署大量的BS设备来满足通信需求。不仅造成建设成本增加，还使得频谱利用率较低。故为了提高频谱效率，实现更高的网络性能，中国移动在无线接入网络中引入云计算技术，提出了云无线接入网(Cloud Radio Access Networks,C-RAN)架构。在C-RAN架构中，多个基带单元(Base band Unit,BBU)在云端处聚集形成BBU池，并通过特定的虚拟化技术实现将集中资源灵活分配。与此同时，通过在靠近用户侧部署射频拉远头(RemoteRadio Head,RRH)来满足区域信号覆盖，并且可以根据RRH负载大小动态调整工作状态，从而提高网络性能。

为了进一步提高无线网络的本地化服务质量，思科基于雾计算思想提出了雾网络概念，然后经过学者将雾网络与无线网络相结合，形成了F-RAN(fog radio accessnetworks)架构。在F-RAN架构中，网络边缘可以通过部署雾接入节点(F-AP)形成大量可以提供通信、计算和存储能力的服务节点，从而将网络中信息处理压力分散到网络边缘。因为F-RAN中的F-AP能缓存部分数据内容，因此，在缓解前传链路负载，提高网络性能方面具有显著优势。此外，由于F-AP具有雾计算能力，可以实现无线电信号处理和资源管理，因此，在提升本地业务的服务效率，以及提高资源利用率方面，相比C-RAN与H-CRAN架构，具有天然优势。

在5G时代，国际电信联盟(International Telecommunication Union,ITU)将应用场景划分为三类：大规模机器类通信(Massive Machine Type Communications,mMTC)、超可靠超低时延通信(Ultra Reliable Low Latency Communications,URLLC)和增强型移动带宽(Enhanced Mobile Broadband,eMBB)。其中，mMTC是面向IoT业务的主要应用场景，涵盖智慧建筑、智慧城市等领域。此场景中的IoT应用需要满足海量IoT设备的连接需求，传输更多的IoT业务，并通过收集IoT设备感知的数据信息来协助决策的制定，以提高决策的有效性。然而，随着接入网设备的增多，不同设备所需的通信资源不同，给网络资源调度带来极大的困难。因此，面向不同业务特点进行资源调度是提高网络性能关键。

发明内容

有鉴于此，本发明的目的在于提供一种面向混合业务吞吐量优化的资源调度方法，针对雾小区中URLLC与mMTC混合业务场景，由于QoS需求不同带来的资源难以合理调度，进而导致网络传输数据量下降的问题。根据URLLC业务产生小数据包的特性，对混合业务场景中的吞吐量进行了加权建模分析。然后，设计一个联合子信道分配和功率控制的方法来提高URLLC小数据包业务与mMTC业务传输的数据量。与此同时，将吞吐量加权模型与子信道分配和功率控制方法构建成一个多智能体强化学习问题，利用深度强化学习来处理混合业务场景中，在不同信道条件下的资源调度问题，寻找最优资源分配决策。

为达到上述目的，本发明提供如下技术方案：

一种面向混合业务吞吐量优化的资源调度方法，针对F-RAN中面向物联网混合业务的通信需求，联合不同业务的数据特点、QoS需求和信道条件等进行综合考虑，优化网络吞吐量性能；首先，分析URLLC与mMTC业务的数据特点，以及两种业务混合传输时系统信道情况；其次，为了优化网络吞吐量性能，构建面向混合业务的吞吐量加权模型；最后，为了寻找在未知环境中最佳功率分配方式和信道选择，根据吞吐量加权模型，将面向混合业务的吞吐量优化问题，转化成多智能体强化学习中面向未知环境的最优策略求解问题求解，利用深度强化学习的迭代搜索方式，寻找不同环境中面向不同业务的最佳资源调度策略。

该方法具体包括以下步骤：

S1：根据URLLC业务与mMTC业务的数据特点，构建混合业务传输系统的信道模型；

S2：构建雾小区中面向混合业务的吞吐量优化模型；

S3：利用多智能体求解混合业务吞吐量优化模型，即利用多智能体强化学习模型迭代寻找混合业务下吞吐量最优的资源调度策略。

进一步，步骤S1具体包括以下步骤：

S11：在雾小区中，所有IoT设备产生的IoT任务由调度器收集，F-AP将上一周期内收集到的信道信息传输到调度器，调度器结合此信道信息进行当前IoT任务传输队列的分配，以及制定每个IoT任务的资源分配决策；

S12：定义在雾小区中，雾接入节点F-AP传输H个URLLC业务，并且在F-AP覆盖范围内存在J个mMTC业务，即IoT设备与IoT设备之间的通信；其中，URLLC业务通过与F-AP连接来获取较高的传输速率服务，而mMTC业务主要为一些IoT设备之间的信息互传；由于IoT设备主要为单天线，因此，场景中假设所有设备使用单天线，则场景中URLLC业务集合可以表示为H＝{0,…,h}，mMTC业务集合表示为J＝{0,…,j}；

S13：雾小区中主要考虑下行传输，因此以OFDM技术为背景，并假设信道的衰落在一个子带宽内大致相同，不同子带宽之间相互独立，则在一个时隙间隔内，若URLLC业务与mMTC业务共享传输子信道，则URLLC业务会遭受来自mMTC业务的干扰，即IoT设备发射器对URLLC业务的干扰，同理，mMTC业务也会受到来自URLLC业务的干扰。

传统基于香农定理计算的信道容量是基于无限码长且误码率ε趋于零的理想容量。而实际环境中，误码率ε为非零值，同时，信道传输的码长也是有限的。有文献通过理论与实验分析得出，较长的码长可以有效地提高传输速率。与此同时，因为增加校验码等检验信息，可以保障信息的可靠传输，实现较低的误码率。然而，对于IoT业务，具有大量小数据包需要传输。若每个IoT业务都需要添加许多冗余信息来保障高可靠性传输，则会造成网络中传输大量无用信息，从而导致信息效用的降低。因此，基于时延与信息有效性考虑，URLLC业务以小数据包特性进行分析，mMTC业务以香农容量进行分析。

URLLC业务在网络中的吞吐量C_URLLC表示为：

其中，

为URLLC业务所占码长，B₀为获得的频谱大小，T为传输持续时间，C为无限码长中的单位信道容量，即香农极限，V为信道色散，Q^-1(·)为函数

的逆函数，ε为误码率；

mMTC业务在网络中的吞吐量C_mMTC表示为：

其中，

为mMTC业务所占码长。

进一步，步骤S2具体包括以下步骤：

S21：在满足URLLC通信链路低时延，高可靠传输的同时，能提高系统总容量，意味着能传输更多的mMTC业务信息。然而，根据S1中，混合业务协同传输时，相互会造成干扰，所以需要构建mMTC业务准入控制模型；

其中，C_j,t为时隙t内第j个mMTC业务的通信链路容量；C_mMTC,t时隙t内mMTC业务需要传输的业务量，n为子宽带序号，N为子宽带总数，ρ_j,h为第h个URLLC业务与第j个mMTC业务在同一子带宽时，mMTC业务带宽分配系数。

S22：结合不同业务的数据特点，以及联合考虑不同业务的传输功率控制，构建雾小区中面向混合业务的吞吐量优化模型：

其中，n_max为一个时隙内最多可使用符号数量，P_h,max为总带宽内所有URLLC业务最大传输功率，P_j,max为总带宽内所有mMTC业务最大传输功率；P_h,n为在第n个子带宽内，传输第h个URLLC业务所需的功率；P_j,n为在第n个子带宽内，传输第j个mMTC业务所需的功率；ρ_j,n为子带宽分配控制系数，ρ_j,n∈{0,1}，当ρ_j,n＝1时，表示第j个mMTC业务可使用第n个子带宽进行传输，ρ_j,n＝0则表示不能使用第n个子带宽进行传输；ρ_j',n为剩余mMTC业务的子带宽分配控制系数，j'∈J,且j'≠j；若ρ_j',n＝1，则表示可将更多的mMTC业务加入到当前子带宽之中进行传输。

进一步，步骤S3具体包括：在混合业务共存系统中，mMTC业务与URLLC业务可以在同子带宽内共同传输。因为不同业务传输所需的传输功率，传输时延等要求不同。因此，将不同业务的资源调度问题建模为多智能体强化学习问题；并利用强化学习可以通过迭代方式寻找不同环境下吞吐量最优的资源调度策略，尽可能满足更多业务的传输需求，从而提高网络中的业务容量；其中，每条URLLC业务与mMTC业务的通信链路被看作一个智能体，通过收集不同环境中不同决策得到的经验，在当前环境状态中选择合适的调度策略进行执行；当有多个业务需要同时传输时，多条通信链路构成多智能体集群，共同探索在当前环境中的子带宽调度策略与功率控制策略；

进一步，步骤S3具体包括以下步骤：

S31：构建多智能体强化学习模型：

智能体：网络中每条通信链路；

状态：场景中主要考虑的网络性能参数包含子信道工作状态、通信链路剩余容量、业务容忍时延和子带宽内信道条件；因此，网络状态可以被定义为s＝{s_state,s_capacity,s_time,s_SNR}∈S，其中，s_state为子带宽占用状态，s_capacity为带宽剩余容量，s_time为业务容忍时延，c为信道信噪比，S为状态空间集合；

动作：对于混合业务共存系统中的资源调度问题，每个智能体可以决策采用任意子带宽进行传输，以及在子带宽中的传输功率；考虑到F-AP的下行传输功率，定义mMTC业务的传输功率控制为P_mMTC＝{50,100,150,200}mW；因此，动作空间的维度为4*H，每个动作对应一个子带宽与传输功率选择；虽然，单条通信链路的动作空间不是很大，但是当通信链路数量较多时，整体的动作空间将会变得较大。因此，并没有将传输功率设置为连续变量。

S32：求解多智能强化学习体模型中的最优策略，通过设计一个合适的奖励函数与误差函数来实现混合业务下吞吐量最优的资源调度策略；

奖励函数：为了得到网络中资源调度的优化策略，需要设置奖励函数。每个智能体可以从每次决策得到的奖励值来调整自己的调度策略，从而逐步逼近最优决策；主要目标是在时间间隔T内，提高混合业务场景中网络吞吐量性能和mMTC业务的传输成功率，对于mMTC业务通信链路的奖励函数设置如下：

其中，C_max为香农容量，C_re-mMTC为剩余mMTC业务量；μ₁为URLLC通信链路智能体因子，表示当前子带宽内是否有URLLC业务需要传输；μ₂为mMTC通信链路智能体因子，表示当前子带宽内是否有mMTC业务需要传输；λ为超参，用来调整网络接入mMTC业务的意愿；

整个模型的奖励函数设置如下：

其中，ω_URLLC为用于调整URLLC业务的传输业务量的权重系数；ω_mMTC为用于调整mMTC业务的传输业务量的权重系数；

误差函数定义如下：

其中，γ为折损因子，s_t为t时刻状态，a_t为t时刻动作，A为动作集合，θ_t为随机梯度下降方法中更新前的参数，θ'_t为随机梯度下降方法中更新后的参数，Q_t为t时刻经验值。

本发明的有益效果在于：本发明针对雾小区中面向混合业务协同传输时资源调度效率低下问题，提供一种面向混合业务吞吐量优化的资源调度策略，通过分析URLLC业务与mMTC业务的数据特点，以及混合协同传输时信道模型，构建了面向混合业务的吞吐量加权模型；其次，利用多智能体强化学习模型来求解混合业务协同传输时最佳资源调度策略。本发明提供的方法可有效地提高网络吞吐量性能，具有广阔的运用前景。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的多层协作资源调度框架图；

图2为本发明设计的多智能体资源调度架构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，图1所示为一种面向混合业务吞吐量优化的资源调度方法，具体包含以下步骤：

步骤1：URLLC业务与mMTC业务数据特点分析和系统信道模型构建：由于雾小区中存在URLLC业务与mMTC业务混合传输情况，且URLLC存在传输安全信息的小数据包业务，与此同时，还需要满足超低时延与超高可靠的传输要求，因此，需要在有限码长下对不同业务进行性能分析。优选的具体包含以下步骤：

步骤1.1：在雾小区中，所有IoT设备产生的IoT任务由调度器收集，F-AP将上一周期内收集到的信道信息传输到调度器，调度器结合此信道信息进行当前IoT任务传输队列的分配，以及制定每个IoT任务的资源分配决策。

步骤1.2：定义在雾小区中，F-AP传输H个URLLC业务，并且在F-AP覆盖范围内存在J个mMTC业务，即IoT设备与IoT设备之间的通信。其中，URLLC业务通过与F-AP连接来获取较高的传输速率服务，而mMTC业务主要为一些IoT设备之间的信息互传。由于IoT设备主要为单天线，因此，场景中假设所有设备使用单天线，则场景中URLLC业务集合可以表示为H＝{0,…,h}，mMTC业务集合表示为J＝{0,…,j}。

步骤1.3：雾小区中主要考虑下行传输，因此以OFDM技术为背景，并假设信道的衰落在一个子带宽内大致相同，不同子带宽之间相互独立，则在一个时隙间隔内，若URLLC业务与mMTC业务共享传输子信道，则URLLC业务会遭受来自mMTC业务的干扰SINR，即IoT设备发射器对URLLC业务的干扰，同理，mMTC业务也会受到来自URLLC业务的干扰。

其中，P_h,n为在第n个子带宽内，传输第h个URLLC业务所需的功率；P_j,n为在第n个子带宽内，传输第j个mMTC业务所需的功率；g_h为信道系数；g_j,n为第n个子带宽内，传输第j个mMTC业务对信道造成的干扰系数；ρ_j,n为子带宽分配控制系数，ρ_j,n∈{0,1}，当ρ_j,n＝1时，表示第j个mMTC业务可以使用第n个子带宽进行传输，ρ_j,n＝0则表示不能使用第n个子带宽进行传输；σ²为噪声功率谱密度。

其中，ρ_j',n为剩余mMTC业务的子带宽分配控制系数；若ρ_j',n＝1，则表示可以将更多的mMTC业务加入到当前子带宽之中进行传输。

URLLC业务属于小数据包业务，因此，在有限码长下的信道传输速率进行理论分析，并得到在有限码长中的信道速率(bits/s/Hz)：

其中，n为码长；C为无限码长中的单位信道容量，即香农极限；V为信道色散V＝1-(1+γ)^-2，其中γ为信噪比；Q^-1(·)为函数

的逆函数。

则对于URLLC业务在网络中的吞吐量可以表示为：

其中B₀为获得的频谱大小；T为传输持续时间；

对于mMTC业务在网络中的吞吐量可以表示为：

步骤2：混合业务吞吐量加权模型构建：根据步骤1中对混合业务场景中不同业务的传输性能与信道条件进行分析，为了提高网络吞吐量性能，满足更多业务的接入需求，设计了一个混合业务吞吐量加权模型。优选的具体包括以下步骤：

步骤2.1：在满足URLLC通信链路低时延，高可靠传输的同时，能提高系统总容量，意味着能传输更多的mMTC业务信息。然而，根据步骤1中，混合业务协同传输时，相互会造成干扰，所以需要构建一个mMTC业务准入控制模型：

其中，C_j,t为时隙t内第j个mMTC业务的通信链路容量；C_mMTC,t为时隙t内mMTC业务需要传输的业务量；

步骤2.2：结合步骤1中不同业务的数据特点，以及联合考虑不同业务的传输功率控制，构建雾小区中面向混合业务的吞吐量优化模型：

其中，n_max为一个时隙内最多可使用符号数量；P_h,max为总带宽内所有URLLC业务最大传输功率，P_j,max为总带宽内所有mMTC业务最大传输功率。

步骤3：基于多智能体的混合业务吞吐量优化策略：在混合业务共存系统中，mMTC业务与URLLC业务可以在同子带宽内共同传输。因为不同业务传输所需的传输功率，传输时延等要求不同。因此，针对不同业务的资源调度问题，可以被建模为多智能体强化学习问题。利用强化学习可以通过迭代方式寻找不同环境下较好的资源调度策略，尽可能满足更多业务的传输需求，从而提高网络中的业务容量。其中，每条URLLC业务与mMTC业务的通信链路被看作一个智能体，通过收集不同环境中不同决策得到的经验，在当前环境状态中选择合适的调度策略进行执行。当有多个业务需要同时传输时，多条通信链路构成多智能体集群，共同探索在当前环境中的子带宽调度策略与功率控制策略，优选的具体包括以下步骤：

步骤3.1：在多智能体强化学习模型中，如图2所示，每个智能体的决策过程可以定义为集合(S,A,P,r,d)，其中S为状态空间集合；A为动作空间集合；P为状态转移概率，指在当前状态s_t下，若采取动作a_t时，得到新的状态s_t+1的概率；r为奖励值，因为需要在尽力完成URLLC业务传输的同时，尽可能接入较多的mMTC业务，因此，所有智能体具有相同的奖励；d为损失因子。在模型学习过程中，每一个智能体在采取动作后，可以通过获得对应的奖励值，然后更新强化学习模型，并逐步寻找更好的决策。当模型训练完成，每个智能体在获取当前环境的状态信息后，根据从训练后的模型中获取得到的历史经验，选择一个能带来较大收益的动作；

步骤3.3：根据步骤3.1分析，结合步骤2，构建多智能体模型：

智能体：网络中每条通信链路。

状态：场景中主要考虑的网络性能参数包含子信道工作状态、通信链路剩余容量、业务容忍时延和子带宽内信道条件。因此，网络状态可以被定义为s＝{s_state,s_capacity,s_time,s_SNR}∈S，s_state为子带宽占用状态；s_capacity为带宽剩余容量；s_time为业务容忍时延；c为信道信噪比。

动作：对于混合业务共存系统中的资源调度问题，每个智能体可以决策采用任意子带宽进行传输，以及在子带宽中的传输功率。考虑到F-AP的下行传输功率，定义mMTC业务的传输功率控制为P_mMTC＝{50,100,150,200}mW。因此，动作空间的维度为4*H，每个动作对应一个子带宽与传输功率选择。虽然，单条通信链路的动作空间不是很大，但是当通信链路数量较多时，整体的动作空间将会变得较大。因此，并没有将传输功率设置为连续变量。

奖励函数：为了得到网络中资源调度的优化策略，需要设置奖励函数。每个智能体可以从每次决策得到的奖励值来调整自己的调度策略，从而逐步逼近最优决策。主要目标是在时间间隔T内，提高混合业务场景中网络吞吐量性能和mMTC业务的传输成功率，对于mMTC业务通信链路的奖励函数设置如下：

其中，C_max为香农容量；μ₁为URLLC通信链路智能体因子，表示当前子带宽内是否有URLLC业务需要传输；μ₂为mMTC通信链路智能体因子，表示当前子带宽内是否有mMTC业务需要传输；λ为超参，用来调整网络接入mMTC业务的意愿；

整个模型的奖励函数设置如下：

其中，ω_URLLC为权重系数，用于调整URLLC业务的传输业务量；ω_mMTC为权重系数，用于调整mMTC业务的传输业务量。

步骤3.3：在强化学习中，每个智能体会选择一个策略π来最大化累计奖励。其中，策略π是指智能体在当前状态s时，映射到动作a的概率分布。累积折扣函数通常被用来表示在策略π时的期望回报，定义如下：

其中，ξ_t为折损率；

在学习过程中的目标为寻找优化策略

定义如下：

当寻找到

时，意味着可以得到当前状态s_t下的优化策略，如下所示：

为了寻找到优化策略

可以利用迭代算法进行寻找。但是，在实际环境中因为缺乏先验知识，故很难获得状态转移概率P(s_t+1|s_t,a_t)。因此，利用强化学习中的深度Q网络(Deep Q-Network,DQN)模型来处理在未知环境中的经验缺乏问题。

每个智能体拥有一个DQN，并将状态空间S作为输入，输出所有动作A对应的值函数。通过多次迭代来训练DQN模型，在每次迭代步骤中，所有智能体采用一些软策略，以概率1-ε选择状态-动作空间中最大估值的动作，而以概率ε选择随机动作。当信道状态改变和因为智能体采取动作导致环境改变后，每个智能体将收集和存储当前状态-动作空间，奖励值和下个步骤的状态空间在经验池L中。在每次迭代中，将会从经验池中提取部分信息，用于更新随机梯度下降方法中的参数θ，并通过多次迭代得到固定的参数集合，以降低误差值。当折损因子为γ时，误差函数定义如下：

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向混合业务吞吐量优化的资源调度方法，其特征在于，该方法具体包括以下步骤：

S2：构建雾小区中面向混合业务的吞吐量优化模型；

2.根据权利要求1所述的资源调度方法，其特征在于，步骤S1具体包括以下步骤：

S12：定义在雾小区中，雾接入节点F-AP传输H个URLLC业务，并且在F-AP覆盖范围内存在J个mMTC业务，即IoT设备与IoT设备之间的通信；其中，URLLC业务通过与F-AP连接来获取高的传输速率服务，而mMTC业务为IoT设备之间的信息互传；场景中假设所有设备使用单天线，则场景中URLLC业务集合表示为H＝{0,…,h}，mMTC业务集合表示为J＝{0,…,j}；

S13：假设信道的衰落在一个子带宽内相同，不同子带宽之间相互独立，则在一个时隙间隔内；URLLC业务在网络中的吞吐量C_URLLC表示为：

其中，

的逆函数，ε为误码率；

mMTC业务在网络中的吞吐量C_mMTC表示为：

其中，

为mMTC业务所占码长。

3.根据权利要求2所述的资源调度方法，其特征在于，步骤S2具体包括以下步骤：

S21：在满足URLLC通信链路低时延，高可靠传输的同时，构建mMTC业务准入控制模型；

其中，C_j,t为时隙t内第j个mMTC业务的通信链路容量；C_mMTC,t时隙t内mMTC业务需要传输的业务量，n为子宽带序号，N为子宽带总数，ρ_j,h为第h个URLLC业务与第j个mMTC业务在同一子带宽时，mMTC业务带宽分配系数；

C_sum＝C_URLLC+C_mMTC

s.t.ρ_j,h,ρ_j,n,ρ_j',n∈{0,1},

4.根据权利要求3所述的资源调度方法，其特征在于，步骤S3具体包括：将不同业务的资源调度问题建模为多智能体强化学习问题；并利用强化学习通过迭代方式寻找不同环境下吞吐量最优的资源调度策略；其中，每条URLLC业务与mMTC业务的通信链路被看作一个智能体，通过收集不同环境中不同决策得到的经验，在当前环境状态中选择合适的调度策略进行执行；当有多个业务需要同时传输时，多条通信链路构成多智能体集群，共同探索在当前环境中的子带宽调度策略与功率控制策略。

5.根据权利要求4所述的资源调度方法，其特征在于，步骤S3具体包括以下步骤：

S31：构建多智能体强化学习模型：

智能体：网络中每条通信链路；

状态：网络状态被定义为s＝{s_state,s_capacity,s_time,s_SNR}∈S，其中，s_state为子带宽占用状态，s_capacity为带宽剩余容量，s_time为业务容忍时延，c为信道信噪比，S为状态空间集合；

动作：对于混合业务共存系统中的资源调度问题，每个智能体决策采用任意子带宽进行传输，以及在子带宽中的传输功率；考虑到F-AP的下行传输功率，定义mMTC业务的传输功率控制为P_mMTC＝{50,100,150,200}mW；因此，动作空间的维度为4*H，每个动作对应一个子带宽与传输功率选择；

奖励函数：每个智能体从每次决策得到的奖励值来调整自己的调度策略，从而逐步逼近最优决策；目标是在时间间隔T内，提高混合业务场景中网络吞吐量性能和mMTC业务的传输成功率，对于mMTC业务通信链路的奖励函数设置如下：

整个模型的奖励函数设置如下：

误差函数定义如下：

其中，γ为折损因子，s_t为t时刻状态，a_t为t时刻动作，A为动作集合，θ_t为随机梯度下降方法中更新前的参数，θ′_t为随机梯度下降方法中更新后的参数，Q_t为t时刻经验值。