CN114079953B

CN114079953B - 无线网络系统的资源调度方法、装置、终端及存储介质

Info

Publication number: CN114079953B
Application number: CN202111262980.9A
Authority: CN
Inventors: 庄燊; 贺颖; 王宇航; 潘微科; 明仲
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2023-05-23
Anticipated expiration: 2041-10-28
Also published as: CN114079953A

Abstract

本申请适用于资源调度技术领域，尤其涉及一种无线网络系统的资源调度方法、装置、终端及可读存储介质。其中，所述无线网络系统的资源调度方法包括：获取基于无线网络系统的状态信息生成的状态空间向量；将状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值；将取值最大的成本奖励加权值对应的调度方式作为无线网络系统的目标调度方式，实现了资源调度决策过程中对主目标和约束目标的综合考虑。

Description

无线网络系统的资源调度方法、装置、终端及存储介质

技术领域

本申请属于资源调度技术领域，尤其涉及一种无线网络系统的资源调度方法、装置、终端及存储介质。

背景技术

如今，无线通信使人们之间的联系沟通变得愈发的简单快捷，并出现了越来越多依赖于无线通信的终端设备。面对有限的无线网络资源，为了更好的满足对无线网络资源的需求，需要对无线网络资源进行合理的调度。

例如，许多研究工作关注了强化学习在无线网络资源调度的应用。强化学习是一种通过与环境互动来学习的机器学习方法，在无线网络资源调度中，可以在与环境交互的过程中学习无线网络资源调度方案，使资源合理分配，提升无线网络的整体效率。

然而，强化学习只关注目标最大化，例如，在无线网络资源分配中，强化学习只专注于最小化网络资源的消耗量，因而在基于最小化网络资源消耗量的调度过程中容易出现因资源分配过少而导致的任务超时的问题，偏离了对无线网络资源进行调度的本意。

发明内容

本申请实施例提供了一种无线网络系统的资源调度方法、装置、终端及存储介质，可以解决传统方法中基于最小化网络资源消耗量的调度过程中因资源分配过少而导致的任务超时的问题。

第一方面，本申请实施例提供了一种无线网络系统的资源调度方法，包括：

获取基于无线网络系统的状态信息生成的状态空间向量；所述无线网络系统的状态信息包括待处理任务的任务属性和无线网络系统的可调度资源；

将所述状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由所述预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及所述预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；所述多种调度方式中每一种调度方式均包括分配给所述待处理任务的处理资源；

基于预设成本权重，对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值；

将取值最大的成本奖励加权值对应的调度方式作为所述无线网络系统的目标调度方式。

第二方面，本申请实施例提供了一种无线网络系统的资源调度装置，包括：

获取单元，用于获取基于无线网络系统的状态空间向量；所述状态信息包括待处理任务的任务属性和无线网络系统的可调度资源；

输入单元，用于将所述状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由所述预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及所述预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；所述调度方式包括分配给所述待处理任务的处理资源；

计算单元，用于基于预设成本权重，对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值

确定单元，用于将取值最大的成本奖励加权值对应的调度方式作为所述无线网络系统的目标调度方式。

第三方面，本申请实施例提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述第一方面的方法的步骤。

本申请实施例中，通过获取基于无线网络系统的状态空间向量，并将状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络中，得到预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值和预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值，然后基于预设成本权重，对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值，并将取值最大的成本奖励加权值对应的调度方式作为无线网络系统的目标调度方式，使得目标调度方式为综合考虑估算奖励值和估算成本值确定得到的调度方式，即，实现了在资源调度过程中不仅关注到主要目标(基于估算奖励值的计算实现)，还实现了对约束目标(基于估算成本值的计算实现)的考虑，实现了更加合理、高效的无线网络资源的调度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种无线网络系统的资源调度方法的流程示意图；

图2是本申请一实施例提供的无线网络系统的示意图；

图3是本申请一实施例提供的强化学习奖励网络的目标函数的确定示意图；

图4是本申请一实施例提供的强化学习成本网络的目标函数的确定示意图；

图5是本申请一实施例提供的网络模型的整体训练过程示意图；

图6是本申请实施例提供的无线网络系统的资源调度装置的结构示意图；

图7是本申请实施例提供的终端的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

如今，无线通信使人们之间的联系沟通变得愈发的简单快捷，越来越多依赖于无线通信的终端设备出现，面对有限的无线网络资源，为了更好的满足对无线网络资源的需求，需要对无线网络资源进行合理的调度。

基于上述问题，本申请实施例中提供一种无线网络系统的资源调度方法、装置、终端及计算机可读存储介质，可以实现同时关注到网络资源的消耗量和任务完成时长，实现了更加合理、高效的无线网络资源的调度。

为了说明本申请上述的技术方案，下面结合附图，并通过具体实施例来进行说明。

示例性的，如图1示出了本申请实施例提供的一种无线网络系统的资源调度方法实现流程示意图。该无线网络系统的资源调度方法应用于无线网络系统，可以由无线网络系统中的控制中心执行，例如，基站，具体包括下述步骤101至步骤104。

步骤101：获取基于无线网络系统的状态信息生成的状态空间向量；所述无线网络系统的状态信息包括待处理任务的任务属性和无线网络系统的可调度资源；

其中，上述无线网络系统可以包括基站、无人机、本地终端。

其中，上述无线网络系统的状态信息可以由无线网络系统中的设备进行主动发送，例如，由无线网络中的基站、无人机和本地终端将自己的实时状态信息发送到网络运营商处。上述实时的状态信息组成了状态空间。

实际应用时，将状态空间表征为状态空间向量。

可选的，本申请的一些实施方式中，上述无线网络系统还可以包括用于增强基站与本地终端之间的信号传输的智能反射面。

本申请的一些实施例中，在无线网络系统中，上述无线网络系统的状态信息可以包括本地终端待处理任务的任务属性和本地终端、基站、无人机的可调度资源信息。其中，本地终端待处理任务的任务属性包括任务数据量、任务所需计算量以及预设时长阈值；本地终端、基站、无人机的可调度资源信息包括本地终端的可用计算资源、基站的可用带宽资源以及无人机可用带宽资源、以及本地终端之间的无线传播信道增益和无人机与本地终端之间的无线传播信道增益。

其中，上述本地终端可以是需要进行无线通信并具有计算资源的物联网设备，可以是移动终端、也可以是非移动终端。

具体的，上述本地终端待处理任务的任务属性中的任务数据量与传输过程中所需的带宽资源相关，任务所需计算量与所需的计算资源相关，预设时长阈值则为对任务完成的延时要求。

具体的，无线通信系统中的可用带宽资源包括基站的可用带宽资源和无人机的可用带宽资源，基站是固定设立的，无人机则是可移动的基站，可以灵活的为特定的资源需求而设置。

无线通信系统中基站是固定设立的，而当本地终端与基站之间存在障碍物时，本地终端与基站通信由于存在障碍物而使得信号减弱，频带利用率降低。因此，本申请实施例中，本地终端、基站、无人机的可调度资源信息还可以包括本地终端之间的无线传播信道增益和无人机与本地终端之间的无线传播信道增益。

例如，如图2所示的无线通信系统，该无线通信系统包括本地终端21、基站22、无人机23、以及为了提高无线通信资源的频谱利用率而设置智能反射面24。智能反射面对本地终端和基站之间的通信信号进行智能中继。因此，无线传播信道增益包括上述无人机与本地终端之间的无线传播信道增益g_u,i和上述本地终端与基站之间的无线传播信道增益g_bs,i,irs，其中，本地终端与基站之间的无线传播信道增益可以包括基站与本地终端之间直接传输的无线传播信道增益g_bs,i、智能反射面和本地终端之间的无线传播信道增益g_r,i、以及基站和智能反射面之间的无线传播信道增益g_bs,r。

基于此，上述状态空间向量s_i(t)可以具体包括：本地终端待处理任务的任务属性F_i、本地终端可用计算资源C_i、基站的可以带宽资源B_bs、无人机的可用带宽资源B_u、基站与智能反射面之间的无线传播信道增益g_bs,r、智能反射面与物联网设备i之间的无线传播信道增益g_r,i、基站与物联网设备i之间的无线传播信道增益g_bs,i、无人机与物联网设备之间信道增益g_u,i。

即，s_i(t)＝[F_i,C_i,B_bs,B_u,g_bs,r,g_r,i,g_bs,i,g_u,i]

步骤102：将状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；调度方式包括分配给待处理任务的处理资源；

其中，上述预设强化学习奖励网络和预设强化学习成本网络分别用于估算多种调度方式的奖励和成本，上述奖励可以为对主要目标的实现情况的反馈，相应的，上述成本可以为对约束目标的实现情况的反馈。

具体的，上述强化学习奖励网络和强化学习成本网络可以是基于强化学习的深度Q网络(DQN)系列网络模型，例如DQN、nature DQN、深度双Q网络(DDQN)以及基于竞争架构的深度Q网络(Dueling DQN)，本申请对此不做限制。

可选的，上述强化学习奖励网络和强化学习成本网络的网络结构相同，例如，都是由3层的全连接层构成。

其中，上述多种调度方式组成了动作空间，本申请实施例中，动作空间可以包含为待处理任务选择的处理方式，以及相应处理方式下为待处理任务分配的资源数量。

例如，动作空间可以为

a_i(t)＝{z_lc_i,z_bs(b_bs,v),z_ub_u}

其中，z_l,z_bs,z_u分别表示任务的处理方式是否是本地计算、卸载到基站或卸载到无人机，z₁,z_bs,z_u∈{0,1}，0表示不选择这种处理方式，而1表示选择这种处理方式。因为每个任务请求只能选择一种执行方式，因此z₁+z_bs+z_u＝1。c_i表示由物联网设备i分配给该任务请求的本地计算资源；b_bs表示基站分配给该任务请求的频谱带宽资源，b_u表示无人机分配给该任务请求的频谱带宽资源；v表示智能反射面上所有反射元件角度的组合，v^k(k∈{1,2,…,N})表示智能反射面上第k个反射元件的角度。

步骤103：基于预设成本权重，对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值。

其中，上述预设成本权重加权可以基于控制算法根据设定的目标进行确定，例如，比例控制算法、积分控制算法、微分控制算法、以及三者的结合比例积分微分控制算法(PID控制算法)等，还可以是基于统计概率确定的权重，本申请对此不做限制。

例如，若预设强化学习奖励网络的网络输出为

Qvalue＝[0.2,0.3,0.4]

预设强化学习成本网络的网络输出为

Q_Cvalue＝[0,0.5,0.5]

表明输出的3中可调度方式中，第一种调度方式对应的估算奖励值为0.2，对应的估算成本值为0，第二种调度方式对应的估算奖励值为0.3，对应的估算成本值为0.5，而第三种调度方式对应的估算奖励值为0.4，估算成本值为0.5。

若预设成本权重为λ＝0.3，则成本奖励加权值为，

Q*＝Q value-0.3Q_Cvalue，

得到

Q*＝[0.2,0.15,0.25]

步骤104：将取值最大的成本奖励加权值对应的调度方式作为无线网络系统的目标调度方式。

例如，成本奖励加权值为Q*＝[0.2,0.15,0.25]，则将成本奖励加权值为0.25对应的调度方式作为无线网络系统的目标调度方式。

本申请的一些实施例中，上述预设成本权重、预设强化学习奖励网络和预设强化学习成本网络具体可以基于以下训练方式得到，即下述步骤201至步骤207。

步骤201：获取待训练的强化学习奖励网络和待训练的强化学习成本网络；

其中，上述待训练的强化学习奖励网络和待训练的强化学习成本网络可以是已经对网络参数进行初始化的神经网络。

例如，随机初始化待训练的强化学习奖励网络Q的参数θ，随机初始化待训练的强化学习成本网络Q_c的参数θ_c。

步骤202：获取成本权重初始值和初始状态空间向量；

其中，上述成本权重初始值可以随机确定，例如，将成本权重初始值设为0。

其中，上述初始状态空间向量包含任务的任务属性和无线网络系统的可调度资源。

需要说明的是，上述训练过程可以是基于计算机上的模拟无线网络系统进行训练，相应的，上述初始状态空间向量可以为模拟无线网络系统的初始状态空间向量。

步骤203：确定与初始状态空间向量对应的初始目标调度方式，以及初始目标调度方式对应的初始奖励值、初始成本值和下一状态空间向量，并得到初始状态空间向量对应的包含初始状态空间向量、初始目标调度方式、初始奖励值、初始成本值和下一状态空间向量的样本向量。

具体的，上述样本向量包括：初始状态空间向量、初始目标调度方式、初始奖励值、初始成本值、下一状态空间向量。

其中，上述初始目标调度方式为对应于初始状态空间向量对应的目标调度方式，上述初始奖励值和初始成本值为对初始目标调度方式的评估，上述下一状态空间向量为由于执行的初始目标调度方式系统进入的下一个状态。

其中，上述确定与初始状态空间向量对应的初始目标调度方式，可以是指，上述初始状态空间向量分别输入待训练的强化学习奖励网络和待训练的强化学习成本网络中，得到待训练的强化学习奖励网络输出的多种调度方式中每种调度方式的估算奖励值和待训练的强化学习成本网络输出的多种调度方式中每种调度方式的估算成本值，并将对应于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值，将取值最大的成本奖励加权值对应的调度方式作为初始目标调度方式。

为了增加模型对环境的探索率，增加最优解获得的可能性，可选的，上述确定与初始状态空间向量对应的初始目标调度方式，可以是指，以探索率∈的概率进行随机选择初始的目标调度方式，而以1-∈概率将上述初始状态空间向量分别输入待训练的强化学习奖励网络和待训练的强化学习成本网络中，将上述取值最大的成本奖励加权值对应的调度方式作为初始目标调度方式

可选的，实际应用中，为了算法较好的收敛，上述探索率∈随着迭代的进行而变小。

在网络模型对多种调度方式进行奖励和成本的预估后，需要采用奖励值和成本值对网络的预估结果进行反馈，引导网络学习，使得输出的预估奖励和成本逐渐符合需要。

因此，上述初始目标调度方式对应的初始奖励值可以基于预先设定的奖励算法进行计算确定。其中，预先设定的奖励算法与网络的决策目标有关，例如，如果希望强化学习奖励网络输出的调度方式对应的预估奖励值中数值最大对应的调度方式是能够最小化网络资源的消耗量，则应根据基于该调度方式完成待处理任务时实际的网络资源的消耗情况对该网络输出的预估奖励值进行奖励值的反馈，如，资源消耗量越少，反馈的奖励值越大。

本申请的一些实施例中，得到的各样本向量中的状态空间向量包括样本任务的任务属性和样本无线网络系统的可调度资源，样本任务的任务属性包括样本任务的预设时长阈值，各样本向量中的奖励值基于以下方式确定，即下述步骤301至步骤303。：

步骤301：基于样本向量中的目标调度方式和样本向量中的目标调度方式对应的状态空间向量确定完成样本任务的预估时长；

其中，上述目标调度方式对应的状态空间向量为样本向量中，确定目标调度方式之前的状态空间向量。

需要说明的是，状态空间向量中包括任务的任务属性和无线网络系统的可调度资源，相应的，在样本向量中的状态空间向量，又称为包括样本任务的任务属性和样本无线通信系统的可调度资源。

具体的，样本任务的任务属性包含样本任务的任务数据量、任务所需计算量和样本任务的预设时长阈值。在确定完成样本任务的预估时长的过程中，可以基于样本任务的目标调度方式和样本任务的任务数据量、样本任务的任务所需计算量进行确定。

将上述完成样本任务的预估时长与样本任务的预设时长阈值进行对比，若预估时长小于或等于样本任务的预设时长阈值，则执行步骤302：

步骤302：当样本向量中的目标调度方式为本地计算时，确定奖励值为完成样本任务所需的理论计算资源和实际计算资源的比值与预设值d的乘积；

当样本向量中的目标调度方式为基站处理时，则奖励值为完成样本任务所需的理论带宽资源和实际基站带宽资源的比值与预设值d的乘积；

当样本向量中的目标调度方式为卸载到无人机时，则奖励值为完成样本任务所需的理论带宽资源和实际无人机带宽资源的比值与预设值d的乘积；

其中，上述完成样本任务所需的理论资源，包括计算资源、基站和无人机带宽资源可以为基于理论公式计算的理论值；上述实际资源，包括实际计算资源、实际基站带宽资源和实际无人机带宽资源为基于目标调度方式处理待处理任务时实际需要的资源。

其中，上述预设值d为预设的奖励基值，实际的奖励值需要根据实际所需的资源和理论需要的资源以及预设的奖励基值进行确定。

具体的，步骤302中的奖励值计算函数如下：

对于物联网设备i的待处理任务：

/>

其中，C_re和b_re为完成任务请求所需的合理的计算资源和频谱带宽资源，c_i为任务请求实际分配的计算资源，b_bs为任务请求实际分配的基站带宽资源，b_u为任务请求实际分配的无人机带宽资源。

若预估时长大于样本任务的预设时长阈值，则执行下述步骤303。

步骤303：奖励值为预设值d的负值。

同样的，上述初始目标调度方式对应的初始成本值可以基于预先设定的成本算法进行计算确定。预先设定的成本算法也与网络的决策目标有关，即强化学习成本网络的成本反馈可以是我们关注的网络的另一个决策目标。例如，如果希望强化学习成本网络输出的调度方式对应的预估成本值中数值最大的预估成本值对应的调度方式完成待处理任务的时长最长或超过预设时长阈值，则可根据处理时实际的时长来反馈成本值。

本申请的一些实施方式中，各样本向量中的状态空间向量包括样本任务的任务属性，样本任务的任务属性包括样本任务的预设时长阈值，各样本向量中的成本值可以通过样本任务的预估时长和样本任务的预设时长阈值进行直接确定，即下述步骤401至步骤402。

步骤401：基于样本向量中的目标调度方式和样本向量中的目标调度方式对应的状态空间向量确定完成样本任务的预估时长；

其中，上述步骤401和上述步骤301相同，这里不再赘述。

步骤402：若预估时长小于或等于样本任务的预设时长阈值，则确定成本值为第一成本值；若预估时长大于样本任务的预设时长阈值，则确定成本值为第二成本值。

其中，上述第一成本值和第二成本值通过预先设定。例如，将第一成本值设置为0，第二成本值设置为预设值d’，可选的，预设值d’可以和预设的奖励基值d相同。

例如，当预估时长小于或等于样本任务的预设时长阈值时，表明预估样本任务能够在目标调度方式下满足时延要求完成，此时成本为0，而当预估时长大于样本任务的预设时长阈值时，表明预估样本任务不能够在目标调度方式下满足时延要求完成，此时成本值为预设的奖励基值d。

步骤204：确定与下一状态空间向量对应的下一目标调度方式，以及下一目标调度方式对应的下一奖励值、下一成本值和再下一状态空间向量，得到下一状态空间向量对应的包含下一状态空间向量、下一目标调度方式、下一奖励值、下一成本值和再下一状态空间向量的样本向量；依此类推，得到N个样本向量；

在这过程中，待训练的强化学习奖励网络和待训练的强化学习成本网络与无线网络系统进行上述交互，得到N个样本向量。其中，每个样本向量中都包含前一状态空间向量、前一目标调度方式、前一奖励值、前一成本值以及后一状态空间向量。

需要说明的是，上述每个样本向量中的后一和前一的描述仅在一个样本向量中具有时间前后的区分意义，而样本向量之间不进行区分。

步骤205：获取样本目标超时率c₀；

其中，上述样本目标超时率为c₀为对于所有样本向量中，样本向量对应的前一状态空间向量所采用的前一目标调度方式处理样本任务时预估完成时长大于样本任务的预设时长阈值的样本向量个数的目标比率。例如，样本目标超时率为0.02时，表明得到的N个样本向量中，目标是有0.02N个样本向量对应的样本任务的完成的时长大于样本任务的预设时长阈值。其中，上述样本向量对应的样本任务为样本向量中的前一状态空间向量中的样本任务。

步骤206：基于N个样本向量以及样本目标超时率c₀对成本权重初始值进行更新，得到更新后的成本权重，并基于N个样本向量对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新；

其中，在上述基于N个样本向量以及样本目标超时率c₀对成本权重初始值进行更新，得到更新后的成本权重过程中，可以基于样本目标超时率c₀和样本的实际超时情况进行确定，例如，利用比例控制算法、积分控制算法、微分控制算法等，还可以通过统计的方式，确定成本权重，本申请对此不做限制。

本申请的一些实施方式中，为了更加科学的确定出成本权重，采用的是比例积分微分控制算法(PID控制算法)确定和更新成本权重，具体如下述步骤501至步骤507。

步骤501：获取比例项参数K_P、积分项参数K_I、微分项参数K_D；

步骤502：在得到的所有样本向量中，确定样本超时率J_C，其中，样本超时率J_C为在得到的所有样本向量中，样本任务的完成时长大于预设时长阈值的样本向量的比率；

其中，上述样本任务为样本向量中的前一状态空间向量中的样本任务。

其中，上述样本任务的完成时长大于预设时长阈值的样本向量的比率为样本任务的完成时长大于预设时长阈值的样本向量个数占以得到的所有样本向量中的比率。

步骤503：确定样本超时率J_C和预设样本目标超时率C₀的差值Δ；

其中，上述差值Δ为本次权重更新时，得到的样本向量中样本的超时率和预设样本目标超时率的差距。

步骤504：将每次成本权重更新对应的的差值Δ进行累加后得到累加差值∑Δ，并将累加差值∑Δ与0比较，确定较大值I；

其中，累加差值∑Δ为将每次成本权重更新时对应的差值Δ进行累加。若得到的样本向量数为N，则是第一次进行成本权重更新，因此∑Δ＝Δ；若得到的样本向量数为K*N(K为大于1的正整数)，则当前是第K次对成本权重进行更新，则

其中Δ_n为第n次进行成本权重更新时对应的样本的超时率和预设样本目标超时率的差距。

步骤505：获取上次成本权重更新对应的样本超时率J_C-1；

其中，上述上次成本权重更新对应的样本超时率J_C-1为在上次进行成本权重进行更新时，得到的所有样本向量中的样本任务完成时长大于预设时长阈值的样本向量的个数占得到的所有样本向量个数。例如，若本次成本权重更新时得到的样本向量个数为N,则表明本次第一次进行成本权重更新，可以上次默认样本超时率J_C-1＝0，若本次成本权重更新时得到的样本向量个数为K*N(K为大于1的整数),则上次成本权重更新对应的样本超时率J_C-1为当得到的样本向量个数为(K-1)*N时进行成本权重更新时的样本超时率J_C-1。

步骤506：将样本超时率J_C和上次成本权重更新对应的样本超时率J_C-1相减后得到的差值J_C-J_C-1与0比较，确定较大值

步骤507：根据公式

进行计算，将计算结果值与0中的较大值更新为成本权重。/>

若

则成本权重更新为/>

若

则成本权重更新为λ＝0。

其中，需要说明的是，上述比例项参数K_P、积分项参数K_I、微分项参数K_D可以经过手动调整后最后确定。例如，可以通过设置多组参数，然后通过试验确定各个参数的取值是大一点还是小一点取得的效果比较好，进而对参数进行微调。

其中，本申请的一些实施方式中，在步骤206的基于N个样本向量对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新过程中，可以通过以下步骤601至步骤603执行。

步骤601:对于N个样本向量中的每个样本向量i,执行下述步骤6011至步骤6014。

例如，对于每个样本向量，样本向量中包括前一状态空间向量s_t，前一目标调度方式a_t，前一奖励值r_t，前一成本值c_t，以及后一状态空间向量s′_t。

步骤6011：将样本向量i中的前一状态空间向量分别输入待训练的强化学习奖励网络和待训练的强化学习成本网络，得到待训练的强化学习奖励网络和待训练的强化学习成本网络输出的样本向量i中前一目标调度方式的估算奖励值和估算成本值；

例如，待训练的强化学习奖励网络为Q，待训练的强化学习成本网络为Q_C，则上述待训练的强化学习奖励网络Q输出的样本向量i中前一目标调度方式a_t的估算奖励值为Q(s_t,a_t；θ)，上述待训练的强化学习成本网络输出的样本向量i中前一目标调度方式的估算成本值Q_c(s_t,a_t；θ_c)，其中，θ为待训练的强化学习奖励网络的网络参数，θ_c为待训练的强化学习成本网络的网络参数，s_t为前一状态空间向量。

步骤6012：将样本向量i中的后一状态空间向量分别输入目标强化学习奖励网络和目标强化学习成本网络，在目标强化学习奖励网络输出的多种调度方式中每一种调度方式的目标网络估算奖励值中确定数值最大的为目标估算奖励值，相应的，在目标强化成本奖励网络输出的多种调度方式中每一种调度方式的目标网络估算成本值中确定数值最大的为目标估算奖励值；其中，目标强化学习奖励网络的网络结构与待训练的强化学习奖励网络的网络结构相同，目标强化学习成本网络的网络结构与所述待训练的强化学习成本网络的网络结构相同；

具体的，上述目标强化学习奖励网络用于计算目标估算奖励值，上述目标强化学习成本网络用于计算目标估算成本值，即通过另外设置目标强化学习奖励网络和目标强化学习成本网络，与用于选择调度方式的强化学习奖励网络和强化学习成本网络分离，可以降低调度方式的选择与目标估算奖励值与目标估算成本值的计算相关性，从而提高算法的稳定性。

具体的，目标强化学习奖励网络为Q′，目标强化学习成本网络为Q_C′，将后一状态空间向量s′_t分别输入上述目标强化学习奖励网络为Q′,目标强化学习成本网络为Q_C′，得到目标强化学习奖励网络输出的多种调度方式中每一种调度方式的目标网络估算奖励值Q′(s′_t,a′；θ^-)和目标强化学习成本网络输出的多种调度方式中每一种调度方式的目标网络估算成本值Q_C′(s′_t,a′；θ_c ^-)，其中,θ^-和θ_c ^-分别为目标强化学习奖励网络和目标强化学习成本网络的网络参数。在上述目标强化学习奖励网络的输出Q′(s′_t,a′；θ^-)中确定最大值max_a′Q′(s′_t,a′；θ^-)为目标估算奖励值，在上述目标强化学习成本网络的输出Q_C′(s′_t,a′；θ_c ^-)中确定最大值max_a′Q_c′(s′_t,a′；θ_c ^-)为目标估算成本值。

步骤6013：将目标估算奖励值和预设折扣系数γ相乘后得到的折扣目标估算奖励值与样本向量i中的前一奖励值相加得到目标奖励值、将目标估算成本值与预设折扣系数γ相乘后得到的折扣目标估算成本值与样本向量i中的前一成本值相加得到目标成本值；

由于目标估算奖励值和目标估算成本值为对应于后一状态空间向量的调度方式的奖励和成本的估算，而不是前一状态空间向量的调度方式的奖励和成本的估算，因此，将目标估算奖励值max_a′Q′(s′_t,a′；θ^-)与预设折扣系数γ相乘进行折扣后，得到的折扣目标成本奖励值γmax_a′Q′(s′_t,a′；θ^-)与样本向量中的前一奖励值r_t相加，得到目标奖励值y_t＝r_t+γmax_a′Q′(s′_t,a′；θ^-)；将目标估算成本值max_a′Q_C′(s′_t,a′；θ_c ^-)与预设折扣系数γ相乘进行折扣后，得到的折扣目标成本奖励值γmax_a′Q_C′(s′_t,a′；θ_c ^-)与样本向量中的前一成本值c_t相加，得到目标成本值z_t＝c_t+γmax_a′Q_C′(s′_t,a′；θ_c ^-)。

将上述目标奖励值y_t作为强化学习奖励网络的目标、将上述目标成本值z_t作为强化学习成本网络的目标，对强化学习奖励网络和强化学习成本网络进行训练，从而优化强化学习奖励网络和强化学习成本网络。

步骤6014：确定目标奖励值与估算奖励值的差的平方，以及确定目标成本值与估算成本值的差的平方；

其中，上述目标奖励值y_t与估算奖励值Q(s_t,a_t；θ)的差的平方用于表征强化学习奖励网络和目标奖励值之间的差距，即待训练强化学习奖励网络的损失函数(目标函数)：

L(θ)＝(y_t-Q(s_t,a_t；θ))²

其中，目标奖励值y_t＝r_t+γmax_a′Q′(s′_t,a′；θ^-)。

同理，上述目标成本值z_t与估算成本值Q_c(s_t,a_t；θ_c)的差的平方用于表征强化学习成本网络和目标成本值之间的差距，即待训练的强化学习成本网络的损失函数(目标函数)

L(θ_c)＝(z_t-Q_c(s_t,a_t；θ_c))²

其中，目标成本值z_t＝c_t+γmax_a′Q_C′(s′_t,a′；θ_c ^-)。

为了更好的描述上述步骤6011至步骤6014的过程，图3中示出了强化学习奖励网络(图中称为奖励网络)的目标函数的确定的过程，图4中示出了强化学习成本网络(图中称为成本网络)的目标函数的确定的过程。

步骤602：将N个样本向量对应的目标奖励值与估算奖励值的差的平方进行平均后，利用梯度下降法对待训练的强化学习奖励网络进行参数更新；将N个样本向量对应的目标成本值与估算成本值的差的平方进行平均后，利用梯度下降法对待训练的强化学习成本网络进行参数更新；

对上述N个样本向量对应的目标奖励值和估算奖励值之间的差距进行求平均后，利用梯度下降法对待训练的强化学习奖励网络进行参数更新；对上述N个样本向量对应的目标成本值和估算成本值之间的差距进行求平均后，利用梯度下降法对待训练的强化学习成本网络进行参数更新。

步骤603：将更新后的待训练的强化学习奖励网络的参数复制给目标强化学习奖励网络，相应的，将更新后的待训练的强化学习成本网络的参数复制给目标强化学习成本网络。

需要说明的是，上述步骤601至步骤603的训练过程，可以用于nature DQN网络模型，也可以用于基于竞争架构的深度Q网络模型(Dueling DQN)。

本申请实施例中，通过独立设置目标强化学习奖励网络和目标强化学习奖励网络来确定目标奖励值和目标成本值，降低了调度方式的选择与目标奖励值与目标成本值的计算相关性，进而将目标奖励值作为待训练的强化学习奖励网络的目标、将目标成本值作为待训练的强化学习成本网络的目标对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新，从而提高算法的稳定性。

本申请的一些实施方式中，例如，在深度双Q网络(DDQN)模型中，上述确定目标奖励值的过程中，可以在目标强化学习奖励网络输出的多种调度方式中每一种调度方式的目标网络估算奖励值中基于最大的目标网络估算奖励值确定对应的调度方式为下次目标调度方式，然后将后一状态空间向量输入待训练的强化学习奖励网络，在待训练的强化学习奖励网络输出的对应于后一状态空间向量的多种调度方式中每一种调度方式的估算奖励值中确定对应于上述下次目标调度方式的估算奖励值为目标估算奖励值，并将该目标估算奖励值和折扣系数相乘后与前一奖励值相加后得到目标奖励值。

同理，上述确定目标成本值的过程中，可以在目标强化学习成本网络输出的多种调度方式中每一种调度方式的目标网络估算成本值中基于最大的目标网络估算成本值确定对应的调度方式为下次目标调度方式，然后将后一状态空间向量输入待训练的强化学习成本网络，在待训练的强化学习成本网络输出的对应于后一状态空间向量的多种调度方式中每一种调度方式的估算成本值中确定对应于上述下次目标调度方式的估算成本值为目标估算成本值，并将该目标估算成本值和折扣系数相乘后与前一成本值相加后得到目标成本值。

步骤207：再次获取N个样本向量，得到2N个样本向量，并基于2N个样本向量以及样本目标超时率c₀对更新后的成本权重进行更新，重新得到更新后的成本权重，并基于2N个样本向量中随机抽取的N个样本向量对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新，依此类推，直至所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络的参数的变化率小于预设变化率阈值，或者参数更新的次数达到预设次数时，完成对待训练的强化学习奖励网络和待训练的强化学习成本网络的训练，得到预设成本权重、预设强化学习奖励网络和预设强化学习成本网络。

其中，需要说明的是，上述基于2N个样本向量中随机抽取的N个样本向量对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新与上述步骤601至步骤603相同，即，上述步骤601中，当得到的样本向量个数仅为N个时，基于该N个样本向量对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新，当得到的样本向量个数大于N时，则基于得到的所有样本向量中随机抽取的N个样本向量对待训练的强化学习奖励网络和待训练的强化学习成本网络进行参数更新。

示例性的，图5示出了强化学习奖励网络和强化学习成本网络的整个训练过程。

无线网络系统中的当前状态s输入已初始化的待训练的强化学习奖励网络Q和强化学习成本网络Q_C中，待训练的强化学习奖励网络Q和强化学习成本网络Q_C分别输出多种调度方式中每种调度方式的估算奖励值Qvalue和估算成本值Q_Cvalue，基于初始化为0的成本奖励权重λ进行加权后，决策出目标调度方式a。随着目标调度方式a的执行，无线网络系统进入了下一个状态s′，并获得了对于目标调度方式a的奖励值r和成本值c，将无线网络系统的当上述前状态s，已采取的目标调度方式a、获得的奖励值a、成本值c、以及系统进入的下一个状态s′作为一个样本保存。

将无线网络系统进入的下一个状态s′重复上述操作。

当样本数量达到一定时(例如，N的整数倍)，根据已经获得的样本，基于PID控制算法和目标样本任务失败率(例如，样本目标超时率)，重新确定成本奖励权重λ，并基于保存的样本随机抽取一定数量的样本对待训练的强化学习奖励网络Q和强化学习成本网络Q_C进行参数更新，获得新的待训练的强化学习奖励网络Q参数θ和新的待训练的强化学习成本网络Q_C参数θ_c。

参数更新后的待训练的强化学习奖励网络Q和待训练的强化学习成本网络Q_C继续重复上述步骤，直到符合网络的训练停止条件，从而获得强化学习奖励网络和强化学习成本网络。

还需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，在本申请的一些实施方式中，某些步骤可以采用其它顺序进行。

图6示出了本申请实施例提供的一种无线网络系统的资源调度装置600的结构示意图，包括获取单元601、输入单元602、计算单元603以及确定单元604。

获取单元601，用于获取基于无线网络系统的状态信息生成的状态空间向量；无线网络系统的状态信息包括待处理任务的任务属性和无线网络系统的可调度资源；

输入单元602，用于将状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；多种调度方式中每一种调度方式均包括分配给待处理任务的处理资源；

计算单元603，用于基于预设成本权重，对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值；

确定单元604，用于将取值最大的成本奖励加权值对应的调度方式作为无线网络系统的目标调度方式。

需要说明的是，为描述的方便和简洁，上述描述的无线网络系统的资源调度装置600的具体工作过程，可以参考上述图1至图5中对应的方法描述过程，在此不再赘述。

如图7所示，本申请提供一种用于实现上述无线网络系统的资源调度方法的终端7，该终端可以为智能手机、平板电脑、个人电脑(PC)、学习机等终端，所述终端7包括：处理器70、存储器71、以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如无线网络系统的资源调度程序。所述处理器70执行所述计算机程序72时实现上述无线网络系统的资源调度方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如，图6所示的获取单元601、输入单元602、计算单元603和确定单元604的功能。

所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端7中的执行过程。例如，所述计算机程序72可以被分割成获取单元、输入单元、计算单元和确定单元(虚拟装置中的单元)，具体功能如下：

获取单元，用于获取基于无线网络系统的状态信息生成的状态空间向量；无线网络系统的状态信息包括待处理任务的任务属性和无线网络系统的可调度资源；

输入单元，用于将状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；多种调度方式中每一种调度方式均包括分配给待处理任务的处理资源；

计算单元，用于基于预设成本权重，对于属于同一种调度方式的估算奖励值和估算成本值进行加权，得到成本奖励加权值；

确定单元，用于将取值最大的成本奖励加权值对应的调度方式作为无线网络系统的目标调度方式。

所述无线网络系统的资源调度装置可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端7的示例，并不构成对终端7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述无线网络系统的资源调度装置还可以包括输入输出设备、网络接入设备、总线等。

应当理解，在本申请实施例中，所称处理器71可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端7的内部存储单元，例如无线网络系统的资源调度装置的硬盘或内存。所述存储器71也可以是所述终端7的外部存储设备，例如所述终端7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端7所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种无线网络系统的资源调度方法，其特征在于，所述资源调度方法，包括：

2.如权利要求1所述的资源调度方法，其特征在于，所述无线网络系统包括本地终端、基站、无人机，所述无线网络系统的状态信息，包括：

本地终端待处理任务的任务属性，以及本地终端、基站、无人机的可调度资源信息；

其中，所述本地终端待处理任务的任务属性包括任务数据量、任务所需计算量和预设时长阈值；

所述本地终端、基站、无人机的可调度资源信息包括本地终端的可用计算资源、基站的可用带宽资源、无人机的可用带宽资源，以及基站与本地终端之间的无线传播信道增益和无人机与本地终端之间的无线传播信道增益。

3.如权利要求1所述的资源调度方法，其特征在于，所述预设成本权重、所述预设强化学习奖励网络和所述预设强化学习成本网络基于以下训练方式得到：

获取待训练的强化学习奖励网络和待训练的强化学习成本网络；

获取成本权重初始值和初始状态空间向量；

确定与所述初始状态空间向量对应的初始目标调度方式，以及所述初始目标调度方式对应的初始奖励值、初始成本值和下一状态空间向量，并得到所述初始状态空间向量对应的包含所述初始状态空间向量、所述初始目标调度方式、所述初始奖励值、所述初始成本值和所述下一状态空间向量的样本向量；

确定与所述下一状态空间向量对应的下一目标调度方式，以及所述下一目标调度方式对应的下一奖励值、下一成本值和再下一状态空间向量，得到所述下一状态空间向量对应的包含所述下一状态空间向量、所述下一目标调度方式、所述下一奖励值、所述下一成本值和所述再下一状态空间向量的样本向量；

依此类推，得到N个样本向量；

获取样本目标超时率c₀；

基于所述N个样本向量以及所述样本目标超时率c₀对所述成本权重初始值进行更新，得到更新后的成本权重，并基于所述N个样本向量对所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络进行参数更新；

再次获取N个样本向量，得到2N个样本向量，并基于所述2N个样本向量以及所述样本目标超时率c₀对所述更新后的成本权重进行更新，重新得到更新后的成本权重，并基于所述2N个样本向量中随机抽取的N个样本向量对所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络进行参数更新，依此类推，直至所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络的参数的变化率小于预设变化率阈值，或者所述参数更新的次数达到预设次数时，完成对所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络的训练，得到所述预设成本权重、所述预设强化学习奖励网络和所述预设强化学习成本网络。

4.如权利要求3所述资源调度方法，其特征在于，在训练得到所述预设强化学习奖励网络和预设强化学习成本网络的过程中，各样本向量中的状态空间向量包括样本任务的任务属性和样本无线网络系统的可调度资源，所述样本任务的任务属性包括样本任务的预设时长阈值，各样本向量中的奖励值基于以下方式确定；

基于样本向量中的目标调度方式和所述样本向量中的目标调度方式对应的状态空间向量确定完成所述样本任务的预估时长；

若所述预估时长小于或等于所述样本任务的预设时长阈值，则：

当样本向量中的目标调度方式为本地计算时，确定奖励值为完成所述样本任务所需的理论计算资源和实际计算资源的比值与预设值d的乘积；

当样本向量中的目标调度方式为基站处理时，则奖励值为完成所述样本任务所需的理论的带宽资源和实际基站带宽资源的比值与预设值d的乘积；

当样本向量中的目标调度方式为卸载到无人机时，则奖励值为完成所述样本任务所需的理论带宽资源和实际无人机带宽资源的比值与预设值d的乘积；

若所述预估时长大于所述样本任务的预设时长阈值，则奖励值为预设值d的负值。

5.如权利要求3所述的资源调度方法，其特征在于，在训练得到所述预设强化学习奖励网络和预设强化学习成本网络的过程中，各样本向量中的状态空间向量包括样本任务的任务属性，所述样本任务的任务属性包括样本任务的预设时长阈值，各样本向量中的成本值基于以下方式确定：

若所述预估时长小于或等于所述样本任务的预设时长阈值，则确定成本值为第一成本值；

若所述预估时长大于所述样本任务的预设时长阈值，则确定成本值为第二成本值。

6.如权利要求3所述的资源调度方法，其特征在于，在训练得到所述预设强化学习奖励网络和预设强化学习成本网络的过程中，各样本向量中的状态空间向量包括样本任务的任务属性，成本权重可以基于以下方式进行确定和更新：

获取比例项参数K_P、积分项参数K_I、微分项参数K_D；

在得到的所有样本向量中，确定样本超时率J_C，其中，所述样本超时率J_C为在得到的所有样本向量中，样本任务的完成时长大于预设时长阈值的样本向量的比率；

确定所述样本超时率J_C和预设样本目标超时率C₀的差值Δ；

将每次成本权重更新对应的的差值Δ进行累加后得到累加差值∑Δ，并将所述累加差值∑Δ与0比较，确定较大值I；

获取上次成本权重更新对应的样本超时率J_C-1；

将所述样本超时率J_C和所述上次成本权重更新对应的样本超时率J_C-1相减后得到的差值J_C-J_C-1与0比较，确定较大值

根据公式

进行计算，将计算结果值与0中的较大值更新为成本权重。

7.如权利要求3所述的资源调度方法，其特征在于，在训练得到所述预设强化学习奖励网络和预设强化学习成本网络的过程中，基于N个样本向量对所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络进行参数更新，具体为：

对于所述N个样本向量中的每一个样本向量i：

将所述样本向量i中的前一状态空间向量分别输入所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络，得到所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络输出的样本向量i中前一目标调度方式的估算奖励值和估算成本值；

将所述样本向量i中的后一状态空间向量分别输入目标强化学习奖励网络和目标强化学习成本网络，在所述目标强化学习奖励网络输出的多种调度方式中每一种调度方式的目标网络估算奖励值中确定数值最大的为目标估算奖励值，相应的，在所述目标强化成本网络输出的多种调度方式中每一种调度方式的目标网络估算成本值中确定数值最大的为目标估算奖励值；其中，所述目标强化学习奖励网络的网络结构与所述待训练的强化学习奖励网络的网络结构相同，所述目标强化学习成本网络的网络结构与所述待训练的强化学习成本网络的网络结构相同；

将目标估算奖励值和预设折扣系数γ相乘后得到的折扣目标估算奖励值与所述样本向量i中的前一奖励值相加得到目标奖励值、将目标估算成本值与预设折扣系数γ相乘后得到的折扣目标估算成本值与所述样本向量i中的前一成本值相加得到目标成本值；

确定所述目标奖励值与所述估算奖励值的差的平方，以及确定所述目标成本值与所述估算成本值的差的平方；

将所述N个样本向量对应的目标奖励值与估算奖励值的差的平方进行平均后，利用梯度下降法对所述待训练的强化学习奖励网络进行参数更新；

将所述N个样本向量对应的目标成本值与估算成本值的差的平方进行平均后，利用梯度下降法对所述待训练的强化学习成本网络进行参数更新；

将更新后的所述待训练的强化学习奖励网络的参数复制给所述目标强化学习奖励网络，相应的，将更新后的所述待训练的强化学习成本网络的参数复制给所述目标强化学习成本网络。

8.一种无线网络系统的资源调度装置，其特征在于，包括：

获取单元，用于获取基于无线网络系统的状态信息生成的状态空间向量；所述无线网络系统的状态信息包括待处理任务的任务属性和无线网络系统的可调度资源；

输入单元，用于将所述状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络，得到由所述预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值，以及所述预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值；所述多种调度方式中每一种调度方式均包括分配给所述待处理任务的处理资源；

9.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。