CN113286374B

CN113286374B - 调度方法、调度算法的训练方法及相关系统、存储介质

Info

Publication number: CN113286374B
Application number: CN202010106750.2A
Authority: CN
Inventors: 王坚; 徐晨; 皇甫幼睿; 李榕; 王俊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2023-05-09
Anticipated expiration: 2040-02-19
Also published as: WO2021164507A1; EP4080974A1; US20220394727A1; EP4080974A4; CN113286374A

Abstract

本申请实施例提供一种调度方法、调度算法的训练方法及相关系统、存储介质，所述调度方法应用于调度控制系统，所述调度控制系统包括K个网络设备，K为大于1的整数，所述方法包括：第一网络设备获取第一区域的目标状态信息，所述目标状态信息包括网络状态信息和用户数据包缓存信息；所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息，其中，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述第一网络设备向所述第一区域内的终端下发所述第一调度信息。本方案提升了调度控制系统的性能。且，通过分布式的部署策略网络，提高了调度控制方案的可行性。

Description

调度方法、调度算法的训练方法及相关系统、存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种调度方法、调度算法的训练方法、调度控制系统、调度算法训练系统以及存储介质。

背景技术

在蜂窝网络中，媒体访问控制(Medium Access Control，MAC)层调度主要解决时频资源的分配、调制与编码策略(Modulation and Coding Scheme，MCS)选择、用户配对、预编码等问题。通过调度来实现系统吞吐和公平性的折中。

马尔可夫决策过程(MDP)是一种分析决策问题的数学模型。如图1所示，其假设环境具有马尔可夫性质(环境的未来状态的条件概率分布仅依赖于当前状态)，决策者通过周期性地观察环境的状态，根据当前环境的状态做出决策，与环境交互后得到新的状态及奖励。

强化学习是机器学习中的一个领域，可以用于上述求解马尔科夫决策过程。如图2所示，强化学习强调智能体Agent通过和环境的交互过程，获得最大化的预期利益，学习得到最优的行为方式。智能体通过对环境的观察，得到当前状态s，并按照一定的规则π决策一个动作a反馈给环境，环境将该动作实行后所得到的奖励r或惩罚反馈给智能体。通过多次的迭代训练，使智能体学会根据环境状态作出最优决策。

其中，将强化学习和深度学习相结合，就得到了深度强化学习(deepreinforcement learning，DRL)，如图3所示。对比图2和图3可以发现，深度强化学习仍然符合强化学习中智能体和环境交互的框架。不同的是，智能体中使用深度神经网络进行决策。

为了实现在动态变化的无线传输环境中进行调度，现有技术采用深度强化学习DRL算法。该算法利用DRL中的智能体与无线传输环境的交互，不断更新其自身参数，以获得较优的决策策略。其中，智能体首先获取通信系统的当前状态，并根据此状态做出决策；执行决策后，通信系统进入下一状态，同时反馈收益。智能体根据收益情况对自身决策参数进行调整。智能体通过迭代式地与环境进行交互，不断调整自身参数以获得更大收益，最终收敛后即可得到较优的调度策略。由于现有技术采用一种中心式的调度方案，唯一的智能体负责全网所有小区/网络的决策。在多小区网络或多等级异构网络场景中，采用现有技术会导致动作空间过大，智能体所用神经网络的训练过程过慢，难以收敛。因此，在实际的系统中，部署这种中心式的调度方案可行性极低。

发明内容

本申请公开了一种调度方法、调度算法的训练方法及相关系统、存储介质，可以实现基于多智能体的分布式的调度，提高了系统的性能。

第一方面，本申请实施例提供一种调度方法，所述方法应用于调度控制系统，所述调度控制系统包括K个网络设备，K为大于1的整数，所述方法包括：

第一网络设备获取第一区域的目标状态信息，其中，所述第一网络设备为所述K个网络设备中的任意一个，所述第一区域为所述第一网络设备所覆盖的区域，所述目标状态信息包括网络状态信息和用户数据包缓存信息；

所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息，其中，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个目标子策略网络与所述K个网络设备一一对应；

所述第一网络设备向所述第一区域内的终端下发所述第一调度信息，所述第一调度信息被所述第一区域内的终端用于数据传输。

本申请实施例基于K个网络设备中的第一网络设备通过获取第一区域的目标状态信息，然后基于目标状态信息和与该第一网络设备对应的第一目标子策略网络得到调度信息，进而向第一区域内的终端下发该调度信息，以便第一区域内的各终端根据该调度信息进行数据传输。采用该手段，其中，各个网络设备分别对应各自的策略网络进行调度控制，实现多智能体进行调度控制，提升了调度控制系统的性能。且，通过分布式的部署策略网络，提高了调度控制方案的可行性。

其中，所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述方法还包括：

所述第一网络设备对第一初始子策略网络进行迭代训练，以得到所述第一目标子策略网络；

其中，所述第一网络设备对第一初始子策略网络进行迭代训练，以得到所述第一目标子策略网络，包括：

所述第一网络设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，所述第一网络设备将第一子策略网络W_i确定为所述第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成的，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

该实施例以性能参数的值不低于预设值时停止训练。当然，本申请实施例并不限定上述条件。本申请实施例还可以以性能参数的值不高于预设值时停止训练。例如通过对上述预设值取反构成新的预设值等。

本申请还可以以迭代训练的次数达到预设次数时停止训练。或者，以更新参数的次数达到预设次数时停止训练等。

可替代的，本申请实施例还可以以策略网络对应的损失函数的值低于预设阈值时停止训练等。

其中，当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次所述训练的价值网络得到的。

所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

作为另一种可选的实现方式，当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

其中，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

作为又一种可选的实现方式，所述调度控制系统还包括集中式网元设备，所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述方法还包括：

所述第一网络设备接收所述集中式网元设备发送的第一目标子策略网络的参数，其中，所述K个目标子策略网络的参数均相同，其中，所述集中式网元设备为核心网设备或基站集中式单元CU设备。

第二方面，本申请实施例还提供一种调度算法的训练方法，所述方法应用于调度算法训练系统，所述调度算法训练系统包括K个网络设备，K为大于1的整数；所述方法包括：

第一网络设备获取训练数据，其中，所述第一网络设备为所述K个网络设备中的任意一个；

所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络；其中，所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络；所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络；所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。

其中，所述训练数据包括第一区域的目标状态信息S_i+1，其中，所述第一区域为所述第一网络设备所覆盖的区域，所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

所述第一网络设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，所述第一网络设备将第一子策略网络W_i确定为所述第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次训练的价值网络得到的。

其中，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

本申请实施例基于中心式的价值网络和分布式的策略网络构成的多智能体MARL架构进行训练，得到一个目标价值网络和多个分布式的目标策略网络。该分布式的目标策略网络可用于网络设备进行调度，避免了单智能体DRL完全中心式的调度，提高了方案可行性。

本申请实施例基于分布式的价值网络和分布式的策略网络构成的多智能体MARL架构进行训练，得到多个目标价值网络和多个分布式的目标策略网络。该分布式的目标策略网络可用于网络设备进行调度，避免了单智能体DRL完全中心式的调度，提高了方案可行性。

作为又一种可选的实现方式，所述方法还包括：

所述第一网络设备将第一子价值网络q_i确定为第一目标子价值网络，其中，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

其中，当所述性能参数的值低于所述预设值时，所述第一网络设备将所述第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的；所述第一网络设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络。

作为再一种可选的实现方式，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述方法还包括：

所述集中式网元设备将价值网络Q_i确定为目标价值网络，其中，所述价值网络Q_i是基于上一次所述训练的价值网络得到的。

其中，当所述性能参数的值低于所述预设值时，所述集中式网元设备将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理以得到K个评价价值，其中，所述K个评价价值与所述K个子策略网络一一对应；

所述集中式网元设备将所述K个评价价值分别发送至所述K个网络设备；

所述集中式网元设备调整所述价值网络Q_i中的参数，以得到用于下一次所述训练的价值网络。

作为又一种可选的实现方式，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述方法还包括：

所述集中式网元设备将第一子价值网络q_i确定为第一目标子价值网络，其中，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

当所述性能参数的值低于所述预设值时，所述集中式网元设备将所述第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值；其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的；

所述集中式网元设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络。

第三方面，本申请实施例还提供一种调度控制系统，所述调度控制系统包括K个网络设备，K为大于1的整数，其中，第一网络设备为所述K个网络设备中的任意一个，所述第一网络设备用于：

获取第一区域的目标状态信息，其中，所述第一区域为所述第一网络设备所覆盖的区域，所述目标状态信息包括网络状态信息和用户数据包缓存信息；

基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息，其中，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个目标子策略网络与所述K个网络设备一一对应；

向所述第一区域内的终端下发所述第一调度信息，所述第一调度信息被所述第一区域内的终端用于数据传输。

其中，在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述第一网络设备还用于：

对第一初始子策略网络进行迭代训练，以得到所述第一目标子策略网络；

其中，对第一初始子策略网络进行迭代训练，以得到所述第一目标子策略网络，具体包括：

根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，将第一子策略网络W_i确定为所述第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成的，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次所述训练的价值网络得到的。

其中，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

作为另一种可选的实现方式，当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

作为再一种可选的实现方式，所述调度控制系统还包括集中式网元设备，在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述第一网络设备还用于：

接收所述集中式网元设备发送的第一目标子策略网络的参数，其中，所述K个目标子策略网络的参数均相同，其中，所述集中式网元设备为核心网设备或基站集中式单元CU设备。

第四方面，本申请实施例还提供一种调度算法训练系统，所述调度算法训练系统包括K个网络设备，K为大于1的整数，第一网络设备为所述K个网络设备中的任意一个，所述第一网络设备用于：

获取训练数据；

根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络；其中，所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络；所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络；所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。

其中，所述训练数据包括第一区域的目标状态信息S_i+1，其中，所述第一区域为所述第一网络设备所覆盖的区域，所述第一网络设备具体用于：

根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，将第一子策略网络W_i确定为所述第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次训练的价值网络得到的。

作为又一种可选的实现方式，所述第一网络设备还用于：

将第一子价值网络q_i确定为第一目标子价值网络，其中，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

其中，当所述性能参数的值低于所述预设值时，所述第一网络设备还用于：

将所述第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的；所述第一网络设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络。

作为再一种可选的实现方式，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述集中式网元设备用于：

将价值网络Q_i确定为目标价值网络，其中，所述价值网络Q_i是基于上一次所述训练的价值网络得到的。

当所述性能参数的值低于所述预设值时，所述集中式网元设备用于：

将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理以得到K个评价价值，其中，所述K个评价价值与所述K个子策略网络一一对应；

将所述K个评价价值分别发送至所述K个网络设备；

调整所述价值网络Q_i中的参数，以得到用于下一次所述训练的价值网络。

其中，当所述性能参数的值低于所述预设值时，所述集中式网元设备用于：

将所述第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值；其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的；

调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络。

第五方面，本申请提供了一种计算机存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。

第六方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。

可以理解地，上述提供的第三方面所述的装置、第四方面所述的装置、第五方面所述的计算机存储介质或者第六方面所述的计算机程序产品均用于执行第一方面中任一所提供的方法以及第二方面中任一所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

下面对本申请实施例用到的附图进行介绍。

图1是现有技术中马尔可夫决策过程的示意图；

图2是现有技术中强化学习用于求解马尔科夫决策过程的示意图；

图3是现有技术中深度强化学习用于求解马尔科夫决策过程的示意图；

图4是本申请实施例提供的一种调度方法的流程示意图；

图5是本申请实施例提供的一种调度方法的应用场景示意图；

图6是本申请实施例提供的一种中心式价值网络+分布式策略网络的调度算法的训练方法的示意图；

图7是本申请实施例提供的一种中心式价值网络+分布式策略网络部署在多小区蜂窝网络中的场景示意图；

图8是本申请实施例提供的一种中心式价值网络+分布式策略网络部署在异构网络中的场景示意图；

图9A是本申请实施例提供的一种分布式价值网络+分布式策略网络的调度算法的训练方法的示意图；

图9B是本申请实施例提供的另一种分布式价值网络+分布式策略网络的调度算法的训练方法的示意图；

图10是本申请实施例提供的一种分布式价值网络+分布式策略网络部署在多小区蜂窝网络中的场景示意图；

图11是本申请实施例提供的一种分布式价值网络+分布式策略网络部署在异构网络中的场景示意图；

图12是本申请实施例提供的一种中心式价值网络+中心式策略网络的调度算法的训练方法的示意图；

图13是本申请实施例提供的一种中心式价值网络+中心式策略网络部署在多小区蜂窝网络中的场景示意图；

图14是本申请实施例提供的一种中心式价值网络+中心式策略网络部署在异构网络中的场景示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

参照图4所示，为本申请实施例提供的一种调度方法的流程示意图。其中，所述调度方法应用于调度控制系统，所述调度控制系统包括K个网络设备，K为大于1的整数，如图4所示，其包括步骤401-403，具体如下：

401、第一网络设备获取第一区域的目标状态信息，其中，所述第一网络设备为所述K个网络设备中的任意一个，所述第一区域为所述第一网络设备所覆盖的区域，所述目标状态信息包括网络状态信息和用户数据包缓存信息；

其中，上述K个网络设备可以是K个基站。该基站可以是一种部署在无线接入网中为移动台(Mobile Station，MS)提供无线通信功能的装置。其中，上述基站可以为各种形式的宏基站、微基站(也称为小站)、中继站、接入点等。在采用不同的无线接入技术的系统中，具备基站功能的设备的名称可能会有所不同，例如，在LTE系统中，称为演进的节点B(evolved NodeB，eNB或者eNodeB)；在第三代(3rd Generation，3G)系统中，称为节点B(Node B)等。为方便描述，本申请所有实施例中，上述为MS提供无线通信功能的装置统称为基站。上述MS可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备。所述MS也可以称为终端(terminal)。还可以是用户单元(subscriber unit)、蜂窝电话(cellular phone)、智能手机(smart phone)、无线数据卡、个人数字助理(Personal Digital Assistant，PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(Machine Type Communication,MTC)终端等。

第一网络设备可以是上述K个网络设备中的任意一个。如，该第一网络设备可以是基站A，所述第一区域即为基站A所覆盖的区域。

上述目标状态信息可以是第一网络设备所覆盖小区内的各终端用户的状态信息。或者，对于某个基站所覆盖小区中存在一个宏站、多个微微站和家庭基站等时，所述目标状态信息还可以是上述宏站、微微站或者家庭基站中的任一个基站所覆盖范围内的注册用户状态信息。

其中，该目标状态信息包括网络状态信息和用户数据包缓存信息等。该网络状态信息包括信道状态信息、吞吐量信息和混合自动重传(Hybrid Automatic Repeatrequest，HARQ)信息等。上述用户数据包缓存信息包括缓存中数据包的数量、缓存中数据包的大小和缓存中数据包的时延等。

402、所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息，其中，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个目标子策略网络与所述K个网络设备一一对应；

上述第一调度信息如可以是指示上述第一区域内的第一终端发送数据的方式的信息等。该发送数据的方式即发送数据时所使用的无线资源、调制编码策略、预编码策略等具体的配置。

其中，所述第一调度信息为第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成的。

可选的，上述第一网络设备可将上述第一区域的目标状态信息输入至第一目标子策略网络进行处理，并对所述第一目标子策略网络的输出结果进行处理以得到上述第一调度信息。

其中，Actor-Critic(演员-评判家)算法是一种常用的强化学习算法。如图5所示，采用Actor-Critic算法的强化学习架构中，智能体包括Actor和Critic两部分。其中，Actor负责根据环境状态和Critic的输出做出决策，而Critic负责根据环境状态和收益来评估Actor做出的决策的好坏。在深度强化学习中，Actor和Critic都可以采用深度神经网络来实现。此时，由于Actor神经网络负责做出决策，所以也叫策略网络。Critic神经网络输出评价，也叫价值网络。

其中，上述调度控制系统包括K个网络设备。每个网络设备均对应一个目标子策略网络。第一网络设备对应上述第一目标子策略网络。如，每个网络设备上均部署有一个目标子策略网络。其中，第一网络设备上部署有上述第一目标子策略网络。

(1)在步骤402之前，作为第一种实现方式，所述方法还包括：

所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络。

其中，上述第一目标子策略网络可基于目标价值网络进行训练得到。

所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

所述第一网络设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，所述第一网络设备将第一子策略网络W_i确定为第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成的；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

其中，上述以当前进行的训练为第i次训练进行说明。

具体地，所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

S1、所述第一网络设备获取所述第一区域的目标状态信息S_i，其中，i为正整数；

S2、所述第一网络设备将所述目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理以得到第二调度信息；

S3、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息，所述第二调度信息被所述第一区域内的终端用于数据传输；

S4、所述第一网络设备获取所述第一区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

S5、所述第一网络设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值低于预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次所述训练的价值网络Q_i-1得到的；令i＝i+1，并重复执行S1-S5；当所述性能参数的值不低于所述预设值时，将所述第一子策略网络W_i确定为第一目标子策略网络；

其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

上述以当前进行的训练为第i次训练进行说明。其中，上述上一次所述训练即为第i-1次训练。上述下一次所述训练即为第i+1次训练。

其中，该实施例以性能参数的值不低于预设值时停止训练。当然，本申请实施例并不限定上述条件。本申请实施例还可以以性能参数的值不高于预设值时停止训练。例如通过对上述预设值取反构成新的预设值等。

作为第一种实现方式的第二种方案，所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

所述第一网络设备对第一初始子策略网络进行M次迭代训练，以得到第一目标子策略网络，所述M为正整数；

其中，在进行第i次迭代训练时，所述第一网络设备获取所述第一区域的目标状态信息S_i，i为正整数；

所述第一网络设备将所述目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述子策略网络W_i的输出结果进行处理以得到第二调度信息；

所述第一网络设备向所述第一区域内的终端下发所述第二调度信息，所述第二调度信息被所述第一区域内的终端用于数据传输；

所述第一网络设备获取所述第一区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；其中，所述第一子策略网络W_i的评价价值基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次所述训练的价值网络Q_i-1得到的；

其中，当i＝M时，所述第一子策略网络W_i+1为第一目标子策略网络；当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

上述实施例以迭代训练的次数达到预设次数时停止训练。当然，本申请实施例并不限定上述条件。本申请实施例还可以以更新参数的次数达到预设次数时停止训练等。此处不作具体限定。

作为第一种实现方式的第三种方案，其中，所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

A1、所述第一网络设备获取所述第一区域的目标状态信息S_i，其中，i为正整数；

A2、所述第一网络设备将所述目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理以得到第二调度信息；

A3、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息，所述第二调度信息被所述第一区域内的终端用于数据传输；

A4、所述第一网络设备获取所述第一区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

A5、所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；其中，所述第一子策略网络W_i的评价价值基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次所述训练的价值网络Q_i-1得到的；

A6、所述第一网络设备获取所述第一子策略网络W_i+1对应的损失函数，当所述第一子策略网络W_i+1对应的损失函数的值不低于预设阈值时，令i＝i+1，并重复执行A1-A6；当所述第一子策略网络W_i+1对应的损失函数的值低于所述预设阈值时，将所述第一子策略网络W_i+1确定为第一目标子策略网络；

该实施例以策略网络对应的损失函数的值低于预设阈值时停止训练。当然，本申请实施例还可以以策略网络对应的损失函数的值高于预设阈值时停止训练等，此处不作具体限定。

其中，上述作为第一种实现方式的各个方案中，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息(包含目标状态信息S_i、目标状态信息S_i+1)、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

(2)在步骤402之前，作为第二种实现方式，所述方法还包括：

其中，上述第一目标子策略网络可基于第一目标子价值网络进行训练得到。上述K个网络设备对应K个目标子价值网络。上述第一网络设备对应第一目标子价值网络。

其中，上述以当前进行的训练为第i次训练进行说明。

S6、所述第一网络设备获取所述第一区域的目标状态信息S_i，其中，i为正整数；

S7、所述第一网络设备将所述目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理以得到第二调度信息；

S8、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息，所述第二调度信息被所述第一区域内的终端用于数据传输；

S9、所述第一网络设备获取所述第一区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

S10、所述第一网络设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值低于预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应；令i＝i+1，并重复执行S6-S10；当所述性能参数的值不低于所述预设值时，将所述第一子策略网络W_i确定为第一目标子策略网络；

作为第二种实现方式的第二种方案，所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应；

作为第二种实现方式的第三种方案，其中，所述第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

B1、所述第一网络设备获取所述第一区域的目标状态信息S_i，其中，i为正整数；

B2、所述第一网络设备将所述目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理以得到第二调度信息；

B3、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息，所述第二调度信息被所述第一区域内的终端用于数据传输；

B4、所述第一网络设备获取所述第一区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

B5、所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应；

B6、所述第一网络设备获取所述第一子策略网络W_i+1对应的损失函数，当所述第一子策略网络W_i+1对应的损失函数的值不低于预设阈值时，令i＝i+1，并重复执行B1-B6；当所述第一子策略网络W_i+1对应的损失函数的值低于所述预设阈值时，将所述第一子策略网络W_i+1确定为第一目标子策略网络；

其中，上述第二种实现方式中的各个方案中，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

(3)在步骤402之前，作为第三种实现方式，所述方法还包括：

所述第一网络设备接收集中式网元设备发送的第一目标子策略网络的参数，其中，所述K个目标子策略网络的参数均相同。

其中，上述调度控制系统还包括集中式网元设备。第一网络设备可接收集中式网元设备发送的第一目标子策略网络的参数，进而所述第一网络设备将所述第一区域的目标状态信息输入至第一目标子策略网络进行处理，并对所述第一目标子策略网络的输出结果进行处理以得到所述第一调度信息。

上述集中式网元设备为核心网设备或基站集中式单元CU设备。其中，核心网设备如可以是4G通信或5G通信中的核心网设备，也可以是未来通信网络中的核心网设备，本申请并不对实施该技术方案的核心网设备或者基站的通信技术代次或者应用领域进行限制。上述基站集中式单元CU设备如可以是5G通信中的基站集中式单元CU设备。

403、所述第一网络设备向所述第一区域内的终端下发所述第一调度信息，所述第一调度信息被所述第一区域内的终端用于数据传输。

上述调度方法可应用于如下场景。例如，蜂窝网络多小区调度问题，每个小区都需要针对本小区的用户进行调度决策。又如异构网络中，存在宏站Macrocell、微微站Picocell和家庭基站Femtocell等多个不同等级和覆盖范围的基站，这些基站需要针对其覆盖范围内注册在其名下的用户进行调度决策等。

如图5所示，基站4001可从所述基站4001所覆盖的区域中获取包含终端4002在内的各个终端的目标状态信息。其中，该目标状态信息包括网络状态信息和用户数据包缓存信息等。该各个终端可以是基站4001覆盖的小区内的各终端。或者，该各个终端也可以是某个基站覆盖的小区中的某个宏站、微微站或家庭基站所覆盖范围内的注册终端等。基站4001根据其所覆盖的区域中各个终端的目标状态信息得到调度信息，进而基站4001向包含终端4002在内的各个终端下发该调度信息，以便各终端根据该调度信息进行数据传输。

下面具体介绍调度算法的训练方法。参照图6所示，为本申请实施例提供的一种调度算法的训练方法，该方法应用于调度算法训练系统，其中，该调度算法训练系统提供一种由中心式的价值网络(C网络)和分布式的策略网络(A网络)构成的多智能体强化学习MARL架构。通过该架构进行训练可得到一个目标价值网络和K个目标子策略网络。其中，该K个目标子策略网络与K个网络设备一一对应。上述K个网络设备可以基于所得到的对应的目标子策略网络实现上述调度。

其中，上述中心式的价值网络可部署在集中式网元设备上。该集中式网元设备可以是核心网设备或基站的集中单元(Centralized Unit,CU)设备。上述分布式的子策略网络可部署在基站的分布单元(Distributed Unit，DU)设备上。

基于上述中心式的价值网络可部署在集中式网元设备上，本申请实施例提供一种调度算法的训练方法，包括步骤601-602，具体如下：

601、集中式网元设备获取训练数据；

602、所述集中式网元设备根据所述训练数据对初始价值网络进行迭代训练，以得到目标价值网络。

其中，根据上述迭代训练的终止条件的不同，上述方法可包括至少三种实现方式。

作为第一种实现方式，所述训练数据包括K个网络设备所覆盖的K个区域中每个区域的目标状态信息S_i，所述K个区域与所述K个网络设备一一对应，K为大于1的整数，i为正整数，所述集中式网元设备根据所述训练数据对初始价值网络进行迭代训练，以得到目标价值网络，包括：

S11、所述集中式网元设备获取所述K个网络设备所覆盖的K个区域中每个区域的目标状态信息S_i+1，其中，所述K个区域中每个区域的目标状态信息S_i+1为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的，所述K个区域分别对应的第二调度信息为将所述K个区域中每个区域的目标状态信息S_i分别输入至K个子策略网络W_i进行处理，并对所述K个子策略网络W_i的输出结果分别进行处理得到的，所述子策略网络W_i是基于上一次所述训练的子策略网络W_i-1得到的，所述K个子策略网络与所述K个网络设备一一对应；

S12、所述集中式网元设备根据所述K个区域的K个目标状态信息S_i+1，得到性能参数，当所述性能参数的值低于预设值时，所述集中式网元设备将所述K个区域的K个目标状态信息S_i、K个子策略网络W_i的输出结果、K个区域的K个状态信息S_i+1和所述K个区域对应的反馈收益均输入至价值网络Q_i进行处理，以得到K个子策略网络分别对应的评价价值；所述集中式网元设备调整所述价值网络Q_i中的参数，以得到用于下一次训练的价值网络Q_i+1；令i＝i+1，并重复执行S11-S12；当所述性能参数的值不低于所述预设值时，将所述价值网络Q_i确定为目标价值网络；

其中，当i＝1时，所述价值网络Q_i为初始价值网络。

也就是说，本申请实施例中当系统性能参数达到设定的阈值时，则停止迭代训练，进而得到目标价值网络。上述系统性能参数可包括吞吐、公平性、丢包率、时延等。其中，可通过对目标状态信息进行处理，进而可得到性能参数。如基于目标状态信息中的网络状态信息和用户数据包缓存信息计算吞吐、公平性、丢包率、时延等系统性能参数。

作为第二种实现方式，当初始价值网络迭代训练的次数达到预设的N次时，则停止迭代训练，进而得到目标价值网络。

具体地，所述训练数据包括K个网络设备所覆盖的K个区域中每个区域的目标状态信息S_i，所述K个区域与所述K个网络设备一一对应，i为正整数，所述集中式网元设备根据所述训练数据对初始价值网络进行迭代训练，以得到目标价值网络，包括：

所述集中式网元设备对初始价值网络进行N次迭代训练，以得到目标价值网络，所述N为正整数。

其中，在进行第i次迭代训练时，所述集中式网元设备获取所述K个网络设备所覆盖的K个区域中每个区域的状态信息S_i+1，其中，所述K个区域的K个状态信息S_i+1为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的，所述K个区域分别对应的第二调度信息为将所述K个区域的K个目标状态信息S_i分别输入至K个子策略网络W_i进行处理，并对所述K个子策略网络W_i的输出结果分别进行处理得到的，所述子策略网络W_i是基于子策略网络W_i-1得到的，所述K个子策略网络与所述K个网络设备一一对应；

所述集中式网元设备将所述K个网络设备所覆盖的K个区域中每个区域的状态信息S_i、所述K个子策略网络W_i的输出结果、所述K个基站所覆盖的K个区域中每个区域的目标状态信息S_i+1和所述K个区域对应的反馈收益均输入至价值网络Q_i进行处理，以得到所述K个子策略网络W_i的评价价值；其中，所述K个区域对应的反馈收益为所述K个区域的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的；

所述集中式网元设备调整所述价值网络Q_i中的参数，以得到价值网络Q_i+1；

其中，当i＝N时，所述价值网络Q_i+1为目标价值网络；当i＝1时，所述价值网络Q_i为初始价值网络。

作为第三种实现方式，当得到的价值网络的损失函数低于预设阈值时，则停止迭代训练，进而得到目标价值网络。

C1、所述集中式网元设备获取所述K个网络设备所覆盖的K个区域中每个区域的目标状态信息S_i+1，其中，所述K个区域的K个目标状态信息S_i+1为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的，所述K个区域分别对应的第二调度信息为将所述K个区域的K个目标状态信息S_i分别输入至K个子策略网络W_i进行处理，并对所述K个子策略网络W_i的输出结果分别进行处理得到的，所述子策略网络W_i是基于子策略网络W_i-1得到的，所述K个子策略网络与所述K个网络设备一一对应；

C2、所述集中式网元设备将所述K个网络设备所覆盖的K个区域中每个区域的目标状态信息S_i、所述K个子策略网络W_i的输出结果、所述K个基站所覆盖的K个区域中每个区域的目标状态信息S_i+1和所述K个区域对应的反馈收益均输入至价值网络Q_i进行处理，以得到所述K个子策略网络W_i的评价价值；其中，所述K个区域对应的反馈收益为所述K个区域的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的；

C3、所述集中式网元设备调整所述价值网络Q_i中的参数，以得到价值网络Q_i+1；

C4、所述集中式网元设备获取所述价值网络Q_i+1对应的损失函数，当所述价值网络Q_i+1对应的损失函数的值不低于预设阈值时，令i＝i+1，并重复执行C1-C4；当所述价值网络Q_i+1对应的损失函数的值低于所述预设阈值时，将所述价值网络Q_i+1确定为目标价值网络；

其中，当i＝1时，所述价值网络Q_i为初始价值网络。

上述各实施例以中心式的价值网络部署在集中式网元设备上为例进行调度算法的训练方法的说明。对于上述分布式的子策略网络部署在基站的分布单元(DistributedUnit，DU)设备上时，本申请实施例还提供一种调度算法的训练方法，该方法应用于调度算法训练系统，该调度算法训练系统包括K个基站，K为大于1的整数，所述方法包括步骤603-604，具体如下：

603、第一网络设备获取训练数据；其中，所述第一网络设备为所述K个网络设备中的任意一个；

604、所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，其中，所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个初始子策略网络、K个目标子策略网络分别与所述K个网络设备一一对应。

相应地，根据上述迭代训练的终止条件的不同，上述方法可包括至少三种实现方式。

其中，针对第一网络设备对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络的具体实现方式，可参照在步骤402之前，作为第一种实现方式的三种方案的介绍，在此不再赘述。

基于上述各实施例得到的目标子策略网络，基站进而可实现调度。

如图6所示，其中，各A网络可从通信系统对应的环境中获取与该A网络对应的区域的目标状态信息s。各A网络可基于上述目标状态信息s得到决策动作a。环境执行完各决策动作a后反馈收益r给C网络。C网络通过获取环境的总目标状态信息以及下一时刻全局状态，并基于上述反馈收益r，各决策动作a，确定出各A网络分别对应的评价价值v。在上述架构中，如与基站K对应的策略网络A_k从环境获得基站K所覆盖的区域对应的目标状态信息s_k,价值网络C从环境获得当前全局状态，即(s₁、s₂…s_k)。策略网络A_k作出决策a_k。环境执行所有策略网络作出的决策后，反馈收益r给价值网络。价值网络根据当前全局状态s，各策略网络的动作a，反馈收益r以及下一时刻全局状态s’，输出各策略网络的评价价值v，并更新价值网络中的参数。上述下一时刻全局状态s’为环境执行所有策略网络作出的决策后得到的全局状态信息。其中，策略网络A_k根据当前状态s_k，动作a_k，下一时刻状态s_k’和价值网络输出的评价价值v_k，更新自身网络参数。

其中，策略网络和价值网络的参数更新可以同步，也可以是异步的。即可以同时更新，也可以某些调度周期内只更新价值网络或只更新策略网络等。此处不作具体限定。

示例性地，在如图7所示的多小区蜂窝网络场景中可部署上述MARL框架。以三个小区联合调度为例。参与联合调度的小区数可以根据小区间干扰情况进行设置，如将互相干扰较严重的多个小区放在一起联合调度。如图7所示，中心式的价值网络可部署在核心网设备或基站的集中单元(Centralized Unit,CU)上。分布式的策略网络部署在基站的分布单元(Distributed Unit，DU)上。各基站可以基于对应的目标策略网络实现调度控制。

如图8所示，上述MARL框架还可部署在多等级异构网络中。对于一个宏站覆盖范围内的小区，存在一个宏站、多个微微站和家庭基站等。此时，可以将价值网络部署在宏站上，策略网络部署在宏站、微微站和家庭基站上。

上述实施例以中心式的价值网络和分布式的策略网络组成的多智能体强化学习MARL架构进行说明。本申请实施例还提供一种分布式的价值网络和分布式的策略网络组成的多智能体强化学习MARL架构，如图9A、图9B所示。其中，上述分布式的价值网络可部署在集中式网元设备上，该集中式网元设备可以是核心网设备或基站的集中单元(CentralizedUnit,CU)设备上。上述分布式的策略网络可部署在基站的分布单元(Distributed Unit，DU)设备上。通过该架构进行训练可得到K个目标子价值网络和K个目标子策略网络。上述K个目标子价值网络、K个目标子策略网络分别与K个网络设备一一对应。

上述K个网络设备可以基于所得到的对应的目标子策略网络实现上述调度。

基于上述分布式的价值网络可部署在集中式网元设备上，本申请实施例提供一种调度算法的训练方法，包括步骤901-902，具体如下：

901、集中式网元设备获取训练数据；

902、所述集中式网元设备根据所述训练数据对第一初始子价值网络进行迭代训练，以得到第一目标子价值网络。

其中，所述第一初始子价值网络为K个初始子价值网络中、第一网络设备所对应的初始子价值网络，所述第一目标子价值网络为K个目标子价值网络中、所述第一网络设备对应的目标子价值网络，其中，所述第一网络设备为K个网络设备中的任意一个，所述K个初始子价值网络、所述K个目标子价值网络分别与所述K个网络设备一一对应。

进一步地，根据上述迭代训练的终止条件的不同，上述方法可包括至少三种实现方式。

作为第一种实现方式，所述训练数据包括所述第一网络设备所覆盖的第一区域的目标状态信息S_i，i为正整数，所述集中式网元设备根据所述训练数据对第一初始子价值网络进行迭代训练，以得到第一目标子价值网络，包括：

S13、所述集中式网元设备获取所述第一区域的目标状态信息S_i+1，其中，所述第一区域的目标状态信息S_i+1为所述第一区域内的用户根据所述第一区域对应的第二调度信息进行数据传输后得到的，所述第一区域对应的第二调度信息为将所述第一区域的目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理得到的，所述第一子策略网络W_i是基于上一次所述训练的第一子策略网络W_i-1得到的；

S14、所述集中式网元设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值低于预设值时，所述集中式网元设备将所述第一区域的目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1、所述第一区域对应的反馈收益以及除所述第一网络设备对应的第一子价值网络q_i之外的其他K-1个网络设备分别对应的子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值，其中，所述第一区域对应的反馈收益为所述第一区域内的用户根据所述第二调度信息进行数据传输后得到的；所述集中式网元设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络q_i+1；令i＝i+1，并重复执行S13-S14；当所述性能参数的值不低于所述预设值时，将所述第一子价值网络q_i确定为第一目标子价值网络；

其中，当i＝1时，所述第一子价值网络q_i为第一初始子价值网络。

也就是说，本申请实施例中当系统性能参数达到设定的阈值时，则停止迭代训练，进而得到目标子价值网络。

作为第二种实现方式，当第一初始子价值网络迭代训练的次数达到预设的N次时，则停止迭代训练，进而得到第一目标子价值网络。

具体地，所述训练数据包括所述第一网络设备所覆盖的第一区域的状态信息S_i，i为正整数，所述集中式网元设备根据所述训练数据对第一初始子价值网络进行迭代训练，以得到第一目标子价值网络，包括：

所述集中式网元设备对第一初始子价值网络进行N次迭代训练，以得到第一目标子价值网络，所述N为正整数。

其中，在进行第i次迭代训练时，所述集中式网元设备获取所述第一区域的目标状态信息S_i+1，其中，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后得到的，所述第一区域对应的第二调度信息为将所述第一区域的目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理得到的，所述第一子策略网络W_i是基于上一次所述训练的第一子策略网络W_i-1得到的；

所述集中式网元设备将所述第一网络设备所覆盖的第一区域的目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1、所述第一区域对应的反馈收益以及除所述第一网络设备对应的第一子价值网络q_i之外的其他K-1个网络设备分别对应的子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

所述集中式网元设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络q_i+1；

其中，当i＝N时，所述第一子价值网络q_i+1为第一目标子价值网络；当i＝1时，所述第一子价值网络q_i为第一初始子价值网络。

作为第三种可选的实现方式，当得到的第一子价值网络的损失函数低于预设阈值时，则停止迭代训练，进而得到第一目标子价值网络。通过对K个初始子价值网络分别进行迭代训练进而得到K个目标子价值网络。

具体地，所述训练数据包括所述第一网络设备A所覆盖的第一区域的目标状态信息S_i，i为正整数，所述集中式网元设备根据所述训练数据对初始子价值网络进行迭代训练，以得到目标子价值网络，包括：

E1、所述集中式网元设备获取所述第一区域的目标状态信息S_i+1，其中，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后得到的，所述第一区域对应的第二调度信息为将所述第一区域的目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理得到的，所述第一子策略网络W_i是基于上一次所述训练的第一子策略网络W_i-1得到的；

E2、所述集中式网元设备将所述第一区域的目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1、所述第一区域对应的反馈收益以及除所述第一网络设备对应的第一子价值网络q_i之外的其他K-1个网络设备分别对应的子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

E3、所述集中式网元设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络q_i+1；

E4、所述集中式网元设备获取所述第一子价值网络q_i+1对应的损失函数，当所述第一子价值网络q_i+1对应的损失函数的值不低于预设阈值时，令i＝i+1，并重复执行E1-E4；当所述第一子价值网络q_i+1对应的损失函数的值低于所述预设阈值时，将所述第一子价值网络q_i+1确定为第一目标子价值网络；

上述各实施例以分布式的价值网络部署在集中式网元设备上为例进行调度算法的训练方法的说明。对于上述分布式的子策略网络部署在基站的分布单元(DistributedUnit，DU)设备上时，本申请实施例还提供一种调度算法的训练方法，该方法应用于调度算法训练系统，该调度算法训练系统包括K个网络设备，K为大于1的整数，所述方法包括步骤903-904，具体如下：

903、第一网络设备获取训练数据；其中，所述基站A为所述K个基站中的任意一个；

904、所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，其中，所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个初始子策略网络、K个目标子策略网络分别与所述K个网络设备一一对应。

其中，所述训练数据包括第一区域的目标状态信息S_i，i为正整数，其中，所述第一区域为所述第一网络设备所覆盖的区域。

所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络的具体实现方式，可参阅上述在步骤402之前，作为第二种实现方式的各个方案的介绍，在此不再赘述。

上述实施例以分布式的价值网络部署在集中式网元设备上，分布式的策略网络部署在基站的分布单元设备上为例进行说明。可替代的，上述分布式的价值网络和分布式的策略网络还可以均部署在基站的分布单元设备上。本申请实施例还提供一种调度算法的训练方法，所述方法应用于调度算法训练系统，所述调度算法训练系统包括K个网络设备，K为大于1的整数，包括步骤905-906，具体如下：

905、第一网络设备获取训练数据；其中，所述第一网络设备为所述K个网络设备中的任意一个；

906、所述第一网络设备根据所述训练数据对第一初始子价值网络、第一初始子策略网络分别进行迭代训练，以得到第一目标子价值网络、第一目标子策略网络，其中，所述第一初始子价值网络为K个初始子价值网络中与所述第一网络设备对应的初始子价值网络，所述第一目标子价值网络为K个目标子价值网络中与所述第一网络设备对应的目标子价值网络，所述第一初始子策略网络为K个初始子策略网络中与所述第一网络设备对应的初始子策略网络，所述第一目标子策略网络为K个目标子策略网络中与所述第一网络设备对应的目标子策略网络，所述K个初始子价值网络、K个目标子价值网络、K个初始子策略网络、K个目标子策略网络分别与所述K个网络设备一一对应。

其中，所述训练数据包括第一区域的状态信息，其中，所述第一区域为所述第一网络设备所覆盖的区域，所述第一网络设备根据所述训练数据对第一初始子价值网络、第一初始子策略网络分别进行迭代训练，以得到第一目标子价值网络、第一目标子策略网络，包括：

S26、所述第一网络设备将所述第一区域的目标状态信息S_i输入至第一子策略网络W_i进行处理，并对所述第一子策略网络W_i的输出结果进行处理以得到第二调度信息，其中，i为正整数；

S27、所述第一网络设备获取所述第一区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；

S28、所述第一网络设备根据所述目标状态信息S_i+1，得到性能参数，当所述性能参数的值低于预设值时，所述第一网络设备将所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和反馈收益均输入至第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值；所述第一网络设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络q_i+1；其中，所述反馈收益为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的；所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络W_i+1；令i＝i+1，并重复执行S26-S28；当所述性能参数的值不低于所述预设值时，将所述第一子价值网络q_i确定为第一目标子价值网络，将所述第一子策略网络W_i确定为第一目标子策略网络；

其中，当i＝1时，所述第一子价值网络q_i为第一初始子价值网络，所述第一子策略网络W_i为第一初始子策略网络。

上述仅以性能参数作为训练结束的判断条件。其中，以训练次数、网络的损失函数的值等作为训练结束的判断条件的具体处理手段可参阅上述介绍，在此不再赘述。

如图9A所示，该架构中有多个分布式的价值网络，每个价值网络单独为所对应的策略网络提供评价价值。多个价值网络之间通过一条通信总线连接，用于交互信息。在这个架构中，策略网络A_k从环境获得自身对应的状态s_k,价值网络C_k从环境获得自身对应的状态s_k。策略网络A_k作出决策a_k，环境执行所有策略网络作出的决策后，反馈收益r_k给价值网络C_k。价值网络根据当前状态s_k、策略网络的动作a_k、收益r_k、下一时刻状态s_k’，以及经过通信总线得到的其他价值网络的信息，输出策略网络A_k的评价价值v_k，并更新自身网络参数。策略网络A_k根据当前状态s_k、动作a_k、下一时刻状态s_k’和价值网络输出的评价价值v_k，更新自身网络参数。其中，上述下一时刻状态s_k’为相应环境执行策略网络作出的决策后得到的状态。上述多个价值网络经过通信总线交互的信息可以是各价值网络对应的状态s_k，动作a_k，收益r_k，也可以是其他价值网络的输出结果、其他价值网络的参数或者是其他价值网络更新的梯度值等。同样，这个框架下，策略网络和价值网络参数的更新可以是同步的，也可以是异步的。

进一步地，如图9B所示，策略网络之间也可以互传信息。其中，经过通信总线可得到其他策略网络的信息。该其他策略网络的信息可包括其他策略网络的输出结果、其他策略网络的参数或者是其他策略网络更新的梯度值等。如策略网络A_k可根据当前状态s_k、动作a_k、下一时刻状态s_k’、价值网络输出的评价价值v_k以及其他策略网络的信息进而来更新自身网络参数。

如图10所示，在多小区蜂窝网络场景中部署上述MARL框架。参与联合调度的小区数可以根据小区间干扰情况进行设置，如将互相干扰较严重的多个小区放在一起联合调度。以3小区联合调度为例。如图10所示，分布式的价值网络和分布式的策略网络均部署在基站的分布单元(Distributed Unit,DU)上。可替代的，分布式的价值网络也可以部署在核心网设备或基站的CU上。其中，分布式的价值网络部署在核心网设备或基站的CU上，有助于减少价值网络之间的通信开销。

上述布式价值网络和分布式策略网络对应的MARL框架也可以用于异构网络、认知无线网络等存在多等级网络的系统的调度。以异构网络为例，如图11所示，对于一个宏站覆盖范围内的小区，存在一个宏站、多个微微站和多个家庭基站。此时，可以将价值网络和策略网络部署在宏站、微微站和家庭基站上。其中，也可以将多个分布式的价值网络部署在宏站上，以便减小价值网络间通信的开销。

本申请实施例还提供一种中心式的价值网络和中心式的策略网络组成的多智能体强化学习MARL架构。如图12所示，该架构包括中心式的价值网络和中心式的策略网络。通过该架构进行训练可得到目标价值网络和目标策略网络。训练结束后将目标策略网络下发给各个基站，可用于分布式地完成调度。

其中，中心式的价值网络和中心式的策略网络可以均部署在集中式网元设备上，如核心网设备或基站的集中单元(Centralized Unit,CU)上。为此，本申请实施例提供一种调度算法的训练方法，所述方法应用于调度算法训练系统，所述调度算法训练系统包括集中式网元设备，所述方法包括步骤1201-1203，具体如下：

1201、所述集中式网元设备获取训练数据；

1202、所述集中式网元设备根据所述训练数据对初始价值网络、初始策略网络分别进行迭代训练，以得到目标价值网络、目标策略网络；

其中，所述训练数据包括K个网络设备所覆盖的K个区域的目标状态信息S_i，其中，i为正整数，所述集中式网元设备根据所述训练数据对初始价值网络、初始策略网络分别进行迭代训练，以得到目标价值网络、目标策略网络，包括：

S29、所述集中式网元设备将所述K个网络设备所覆盖的K个区域的目标状态信息S_i输入至策略网络w_i进行处理，并对所述策略网络w_i的输出结果进行处理以得到第二调度信息；

S30、所述集中式网元设备获取所述K个区域的目标状态信息S_i+1，其中，所述目标状态信息S_i+1为所述K个区域内的终端根据所述第二调度信息进行数据传输后得到的状态信息；

S31、所述集中式网元设备根据所述K个区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值低于预设值时，所述集中式网元设备将所述K个区域的目标状态信息S_i、所述策略网络w_i的输出结果、所述目标状态信息S_i+1和反馈收益均输入至价值网络Q_i进行处理，以得到所述策略网络w_i的评价价值；所述集中式网元设备调整所述价值网络Q_i中的参数，以得到价值网络Q_i+1；其中，所述反馈收益为所述K个区域内的终端根据所述第二调度信息进行数据传输后得到的；所述集中式网元设备根据所述K个区域的目标状态信息S_i、所述策略网络w_i的输出结果、所述目标状态信息S_i+1和所述评价价值，调整所述策略网络w_i中的参数，以得到策略网络w_i+1；令i＝i+1，并重复执行S29-S31；当所述性能参数的值不低于所述预设值时，将所述价值网络Q_i确定为目标价值网络，将所述策略网络w_i确定为目标策略网络；

其中，当i＝1时，所述价值网络Q_i为初始价值网络，所述策略网络w_i为初始策略网络。

1203、所述集中式网元设备将所述目标策略网络的参数发送至所述K个网络设备。

其中，集中式网元设备可将上述所得的目标策略网络下发给各个网络设备，进而可以实现分布式的调度，避免了单智能体DRL完全中心式的调度，提高了方案可行性。

如图12所示，中心式的A网络和C网络均获取全局的目标状态信息s。然后，中心式的A网络为蜂窝网络中各小区或异构网络中各级基站做出决策动作a_k。当动作a_k被执行后，系统状态更新，并反馈收益r给中心式的C网络。中心式的C网络根据收益r、动作a_k、目标状态信息s、下一时刻全局状态s’，给中心式的A网络计算评价价值v，同时更新自身网络参数。中心式的A网络和C网络更新自身网络参数。若未到达训练终止条件则重复执行上述步骤。当到达训练终止条件，则将中心式的A网络下发至蜂窝网络中的各小区基站或异构网络中的各级基站。其中，上述终止条件包括当神经网络的更新次数达到设定的阈值，或系统性能(吞吐/公平性/丢包率/时延)达到设定的阈值，或神经网络的损失函数低于设定的阈值等。

如图13所示，中心式的价值网络和策略网络可以部署在多小区蜂窝网络的核心网设备或CU上。其中，经过上述训练后，可将中心式的策略网络复制下发给各小区基站，用于进行调度。中心式的价值网络和策略网络还可以部署在多等级异构网络的宏站上。如图14所示，其中，经过上述训练后，可将中心式的策略网络复制下发给各等级基站，用于进行调度。

进一步地，本申请实施例还提供一种调度控制系统，所述调度控制系统包括K个网络设备，K为大于1的整数，其中，第一网络设备为所述K个网络设备中的任意一个，所述第一网络设备用于：

其中，对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，具体包括：

根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，将第一子策略网络W_i确定为第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成的，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络。

进一步地，当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

进一步地，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

进一步地，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

作为另一种可选的实现方式，所述调度控制系统还包括集中式网元设备，在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述第一网络设备还用于：

在一方面，本申请实施例还提供一种调度算法训练系统，所述调度算法训练系统包括K个网络设备，K为大于1的整数，第一网络设备为所述K个网络设备中的任意一个，所述第一网络设备用于：

获取训练数据；

进一步地，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

进一步地，所述第一网络设备还用于：

进一步地，当所述性能参数的值低于所述预设值时，所述第一网络设备还用于：

将所述K个评价价值分别发送至所述K个网络设备；

作为又一种可选的实现方式，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述集中式网元设备用于：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种调度方法，其特征在于，所述方法应用于调度控制系统，所述调度控制系统包括K个网络设备，K为大于1的整数，所述方法包括：

所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息，其中，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个目标子策略网络与所述K个网络设备一一对应；所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述方法还包括：

所述第一网络设备根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，所述第一网络设备将第一子策略网络W_i确定为所述第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成的，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络；

2.根据权利要求1所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次所述训练的价值网络得到的。

3.根据权利要求2所述的方法，其特征在于，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

4.根据权利要求1所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

5.根据权利要求4所述的方法，其特征在于，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

6.根据权利要求1所述的方法，其特征在于，所述调度控制系统还包括集中式网元设备，所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述方法还包括：

7.一种调度算法的训练方法，其特征在于，所述方法应用于调度算法训练系统，所述调度算法训练系统包括K个网络设备，K为大于1的整数；所述方法包括：

所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络；其中，所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络；所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络；所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应；所述训练数据包括第一区域的目标状态信息S_i+1，其中，所述第一区域为所述第一网络设备所覆盖的区域，所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络，包括：

8.根据权利要求7所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于价值网络Q_i进行处理得到的，所述价值网络Q_i是基于上一次训练的价值网络得到的。

9.根据权利要求8所述的方法，其特征在于，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

10.根据权利要求7所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备根据所述目标状态信息S_i、所述第一子策略网络W_i的输出结果、所述目标状态信息S_i+1和所述第一子策略网络W_i的评价价值，调整所述第一子策略网络W_i中的参数，以得到用于下一次所述训练的第一子策略网络；其中，所述第一子策略网络W_i的评价价值是基于第一子价值网络q_i进行处理得到的，所述第一子价值网络q_i是基于上一次所述训练的第一子价值网络得到的，所述第一子价值网络q_i为K个子价值网络中、所述第一网络设备对应的子价值网络，所述K个子价值网络与所述K个网络设备一一对应。

11.根据权利要求10所述的方法，其特征在于，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

12.根据权利要求7所述的方法，其特征在于，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备将所述第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的；所述第一网络设备调整所述第一子价值网络q_i中的参数，以得到用于下一次所述训练的第一子价值网络。

14.根据权利要求7所述的方法，其特征在于，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述方法还包括：

15.根据权利要求14所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述集中式网元设备将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理以得到K个评价价值，其中，所述K个评价价值与所述K个子策略网络一一对应；

16.根据权利要求7所述的方法，其特征在于，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，当所述性能参数的值低于所述预设值时，所述集中式网元设备将所述第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理，以得到所述第一子策略网络W_i的评价价值；其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的；

18.一种调度控制系统，其特征在于，所述调度控制系统包括K个网络设备，K为大于1的整数，其中，第一网络设备为所述K个网络设备中的任意一个，所述第一网络设备用于：

基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息，其中，所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络，所述K个目标子策略网络与所述K个网络设备一一对应；在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述第一网络设备还用于：

根据所述第一区域的目标状态信息S_i+1，得到性能参数，当所述性能参数的值不低于预设值时，将第一子策略网络W_i确定为所述第一目标子策略网络，其中，i为正整数，所述第一区域的目标状态信息S_i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的；所述第二调度信息为基于所述第一区域的目标状态信息S_i和所述第一子策略网络W_i生成的，所述目标状态信息S_i是第i次所述训练的目标状态信息；其中，当i＝1时，所述第一子策略网络W_i为第一初始子策略网络；

19.根据权利要求18所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

20.根据权利要求19所述的系统，其特征在于，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

21.根据权利要求18所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

22.根据权利要求21所述的系统，其特征在于，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

23.根据权利要求18所述的系统，其特征在于，所述调度控制系统还包括集中式网元设备，在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前，所述第一网络设备还用于：

24.一种调度算法训练系统，其特征在于，所述调度算法训练系统包括K个网络设备，K为大于1的整数，第一网络设备为所述K个网络设备中的任意一个，所述第一网络设备用于：

获取训练数据；

根据所述训练数据对第一初始子策略网络进行迭代训练，以得到第一目标子策略网络；其中，所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络；所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络；所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应；所述训练数据包括第一区域的目标状态信息S_i+1，其中，所述第一区域为所述第一网络设备所覆盖的区域，所述第一网络设备具体用于：

25.根据权利要求24所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

26.根据权利要求25所述的系统，其特征在于，所述第一子策略网络W_i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q_i进行处理得到，其中，所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。

27.根据权利要求24所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备用于：

28.根据权利要求27所述的系统，其特征在于，所述第一子策略网络W_i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S_i以及目标状态信息S_i+1、所述第一网络设备对应的第一子策略网络W_i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q_i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q_i进行处理得到，其中，所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。

29.根据权利要求24所述的系统，其特征在于，所述第一网络设备还用于：

30.根据权利要求29所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述第一网络设备还用于：

31.根据权利要求24所述的系统，其特征在于，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述集中式网元设备用于：

32.根据权利要求31所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述集中式网元设备用于：

将所述K个评价价值分别发送至所述K个网络设备；

33.根据权利要求24所述的系统，其特征在于，所述调度算法训练系统还包括集中式网元设备，当所述性能参数的值不低于所述预设值时，所述集中式网元设备用于：

34.根据权利要求33所述的系统，其特征在于，当所述性能参数的值低于所述预设值时，所述集中式网元设备用于：

35.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至6任意一项所述的方法和/或7至17任意一项所述的方法。