CN113392539B

CN113392539B - 基于联邦强化学习的机器人通信控制方法、系统及设备

Info

Publication number: CN113392539B
Application number: CN202110788018.2A
Authority: CN
Inventors: 田辉; 罗如瑜; 倪万里; 陈志广
Original assignee: Lianqiao Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Lianqiao Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2022-06-21
Anticipated expiration: 2041-07-13
Also published as: CN113392539A

Abstract

基于联邦强化学习的机器人通信控制方法、系统及设备，涉及路径规划技术与无线通信资源分配领域。解决现有机器人系统中存在通信和路径规划问题，方法步骤包括：每个聚合周期开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数，聚合周期内，每个机器人用本地网络进行强化学习训练并更新本地网络模型参数，聚合周期结束前每个机器人上传最新网络模型参数给接入点；接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数，并把新的全局模型参数下发给相应的机器人。本发明加快网络的收敛速度，提高系统长期吞吐量，并对机器人数量的变化具有较好的鲁棒性，同时还可以降低机器人的通信能耗并保护机器人的隐私。

Description

基于联邦强化学习的机器人通信控制方法、系统及设备

技术领域

本发明涉及路径规划与无线通信资源分配领域，具体涉及一种基于联邦强化学习的机器人通信控制方法、系统及设备。

背景技术

物联网的爆炸式发展加速了智能机器人在工业控制和家庭自动化领域的大规模应用。为了更好地在机器人系统中提供新的服务，系统常常需要大量的通信、计算和数据资源，而这些资源可能需要本地设备从外部获取。为了减轻对本地硬件的要求，无线系统必须提供广连接、低延迟和高数据速率的服务，而通信问题可能会限制多机器人网络的进一步发展。因此，有必要在机器人系统中兼顾通信和路径规划问题。

非正交多址技术具有高频谱效率、广连接性、公平性等优点，因此很适合被应用于室内机器人系统中。但由于非正交多址技术系统的功率敏感性很高，所以合适的传输功率策略至关重要。此外，考虑到机器人的移动性和室内环境的复杂性，在未知的室内机器人系统中，如何兼顾室内机器人路径规划和接入点处的传输功率分配问题是一项有挑战性的任务。

为了在无室内环境先验知识的前提下，兼顾室内机器人路径规划和接入点处的传输功率分配问题以最大化系统长期吞吐量，并一定程度上降低机器人硬件开销和节省有限的通信资源，提出了一种基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法、装置及控制设备。

发明内容

本发明为解决现有机器人系统中存在通信和路径规划问题，提供一种基于联邦强化学习的机器人通信控制方法、系统及设备。

基于联邦强化学习的机器人通信控制方法，该方法基于强化学习装置实现，所述强化学习装置包括接入点和U个机器人；该方法由以下步骤实现：

步骤S110、每个聚合周期开始时，每个机器人采用接收的新全局网络模型参数替换本地网络模型参数；所述新全局网络模型参数和本地网络模型参数均为强化学习算法中的网络模型参数；

步骤S120、在聚合周期内，每个机器人采用本地网络进行强化学习训练并更新本地网络模型参数；所述机器人的每一步需根据当前状态和本地网络做出相应的动作，并结合每一步环境的回报信息和下一步状态形成经验进行存储和训练，所述状态包括机器人的位置坐标和当前的信道增益；所述动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化；

步骤S130、聚合周期结束前，每个机器人上传最新本地网络模型参数给接入点；接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数，并把所述新全局模型参数下发给相应的机器人；所述新全局模型参数与本地模型参数结构一致，为所有本地模型参数取平均后得到的结果。

基于联邦强化学习的机器人通信控制系统，该系统包括信息获取模块、方案确定模块和资源分配模块；

信息获取模块，用于获取强化学习装置中的每个机器人在每个时刻的地理位置与当前下行信道增益；

方案确定模块，基于联邦深度强化学习方法，确定当前模型的目标资源分配方案；其中，所述目标资源分配方案包括：室内机器人路径规划和接入点的发射功率分配；

资源分配模块，用于控制机器人和接入点按照目标资源分配方案，为自身分配对应资源，以最大化系统吞吐量。

一种控制设备，包括处理器、通信接口、存储器和通信总线，所述处理器，通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法步骤。

本发明的有益效果：

一、本发明所述的方法，在每个聚合周期刚开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数；其中，网络模型参数为强化学习算法中的网络模型参数；所述强化学习系统中包括接入点和U个机器人。聚合周期内，每个机器人用本地网络进行强化学习训练并更新本地网络模型参数；其中，机器人需每步根据当前状态和本地网络做出相应的动作，并结合每步环境的回报和下一步状态形成经验进行存储和训练，状态包括机器人的位置坐标和当前的信道增益，动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化；聚合周期即将结束前每个机器人上传最新网络模型参数给接入点；接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数，并把新的全局模型参数下发给相应的机器人；当所有机器人都到达终点时，所有机器人开始分配新的各自起终点。其中，机器人从出发至到达终点一般包含多个聚合周期，一个聚合周期包括多个时隙。

二、在本发明所述的方法在整个过程在每个机器人端进行本地深度强化学习模型的训练，因此在无先验知识的前提下快速适应动态复杂的室内环境；同时系统周期性地通过联邦学习的方法进行全局模型的聚合和分发，进而可以加快模型的收敛速度并增强了用户隐私并降低了通信成本。

其中，由于在确定上述目标资源分配方案时，综合考虑了系统移动路径上的数据速率之和、所有机器人到达终点的时间，因此，可以在尽可能快速地到达终点的前提下，保证系统所有机器人在移动路径上的通信速率最大化，进而保证系统长期吞吐量最大。

三、本发明方法中，由于接入点通过取平均的方法进行模型的全局聚合，从而，在相同可用传输功率数下，无论机器人数量的大小，新全局模型参数与本地模型参数结构一致，因此对网络规模的变化有一定的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的基于联邦强化学习的机器人通信控制方法的流程图；

图2为一种室内机器人的场景示意图；

图3为本发明所述的基于联邦强化学习的机器人通信控制系统的结构示意图；

图4为本发明所述的一种控制设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了在无室内环境先验知识的前提下，兼顾室内机器人路径规划和接入点处的传输功率分配问题以最大化系统长期吞吐量，并一定程度上降低机器人硬件开销和节省有限的通信资源，提出了一种基于联邦强化学习的机器人通信控制方法、系统及控制设备。

具体实施方式一、结合图1和图2说明本实施方式，基于联邦强化学习的机器人通信控制方法，本实施方式所述的基于联邦强化学习的机器人通信控制方法可以适用于任一需要进行路径规划和接入点的发射功率分配的机器人系统，并且，系统中，强化学习装置中至少包括：至少一个机器人和接入点。

需要说明的是，本实施方式中提供的基于联邦强化学习的机器人通信控制方法的执行主体可以是控制设备，并且该控制设备可以安装在机器人上，也可以是部署在机器人外的一独立设备，可以通过无线信号控制机器人的运行；控制设备可以是微型计算机、处理器、手机等设备。对此，本发明实施例不对控制设备的安装位置和设备类型进行限定。

其中，在每个机器人端进行本地深度强化学习模型的训练，同时系统将周期性地通过联邦学习的方法进行全局模型的聚合和分发。需要说明的是，本地深度强化学习模型可以为：深度Q学习、演员-评议家网络、深度确定性策略梯度等模型，对此，本实施方式中不对机器人本地深度强化学习模型进行限定。

例如，如图2所示，为一种室内机器人的场景示意图。其中，一个单天线的接入点、U个单天线机器人组成，且机器人集合

室内环境中还存在一些障碍物和几个不可到达房间，根据地面平面建立三维笛卡尔坐标系，接入点位于q_A＝(x_A，y_A，h_A)的位置。机器人的起点和终点分别表示为q_u,S＝.x_u，S(t)，y_u，S(t)/和q_u,D＝.x_u，D(t)，y_u，D(t)/。同时，机器人u实时位置表示为q_u(t)＝(x_u(t)，y_u(t))且

且T_u代表机器人u从起点到终点的时间。

本实施方式所述的方法由以下步骤实现：如图1所示，该目标资源分配方法可以包括如下步骤S110～S130。

步骤S110：每个聚合周期刚开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数；

其中，网络模型参数为强化学习算法中的网络模型参数；所述强化学习系统中包括接入点和U个机器人。

本地深度强化学习网络利用DNNs来逼近Q函数

其形式如下：

式中，

为t′时刻的本地回报函数，γ^t′-t为t′-t次的衰减因子，γ∈(0，1]代表未来的影响，

为t时刻本地状态空间，

为t时刻动作空间，T_u代表机器人u从起点到终点的时间；Q函数一般分为实时Q函数和目标Q函数；w_u为时间平均后的实时Q函数模型参数，目标Q函数为实时Q函数周期性迭代得到的；此外，w_u,t代表实时Q函数在时间t的模型参数，且

代表目标Q函数在时间t的模型参数。

采用均方误差方法，损失函数L_u(w_u，t)可表示为：

式中，

为目标。假如

不是终点，则目标

可写作：

否则，目标

通过对损失函数L_u(w_u,t)执行梯度下降方法更新Q函数

从而使损失函数L_u(w_u,t)最小化，Q函数参数更新过程如下：

其中α∈[0，1]表示学习率，代表用新得到的Q函数能多大程度地修改以往的Q函数。

结合强化学习网络参数w_u，t和

在基于模型参数的聚合方式下，假设时间t时机器人已收到当接入点下发的新全局模型参数，即每个聚合周期刚开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数，可表示如下：

步骤S120:聚合周期内，每个机器人用本地网络进行强化学习训练并更新本地网络模型参数；

其中，机器人需每步根据当前状态和本地网络做出相应的动作，并结合每步环境的回报和下一步状态形成经验进行存储和训练，状态包括机器人的位置坐标和当前的信道增益，动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化；

具体地，以系统长期吞吐量最大为原则、且基于机器人的移动约束和接入点的功率约束条件，确定机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配，包括步骤S121～S122：

步骤S121：将最大化系统长期吞吐量问题建模为马尔可夫决策过程，得到马尔可夫决策过程所定义的状态、动作及回报函数；

步骤S122：基于所述状态、动作及回报函数，使用联邦强化学习算法得到最大化系统长期吞吐量时机器人的目标资源分配方案。

等价的，所得到的目标资源分配方案包括从起点到终点的移动轨迹和移动期间接入点的发射功率分配方案。

为了便于行文清晰，后续将会对上述步骤S120～S122进行详细举例说明。

步骤S130：聚合周期马上结束前每个机器人上传最新网络模型参数给接入点；接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数，并把新的全局模型参数下发给相应的机器人。

其中，新全局模型参数与本地模型参数结构一致，为所有本地模型参数取平均后得到的结果。

聚合周期马上结束前，结合强化学习网络利用DNNs来逼近Q函数

在基于模型参数的聚合方式下，假设时间t时接入点已收到当前时刻所有机器人上传的新本地模型参数，接入点将使用取平均的方法更新全局参数w_t，

可表示如下：

本实施方式中，步骤S120以系统长期吞吐量最大为原则、且基于机器人的移动约束和接入点的功率约束条件，确定机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配，长期吞吐量具体包括：

以最大化机器人系统的长期吞吐量为原则，确定每个机器人从起点到终点的运动轨迹，其中，所述系统的长期吞吐量可以分解为：最大化系统移动路径上的数据速率之和、最小化所有机器人到达终点的时间；每个机器人的长期数据速率可表达为移动过程中下行数据速率之和除以对应机器人的到达终点时间，将系统中所有机器人的长期数据速率进行求和，即可得到系统优化方程为：

其中，

和

分别表示系统中机器人的路径、AP的传输功率和机器人u在t时刻的下行数据速率。机器人u的信干噪比为：

其中，n_u(t)表示加性高斯白噪声。此外，符号|.|为信号功率计算。结合香农公式，机器人u的下行数据速率(单位bps/Hz)可表示为：

在求解优化方程时，可以将功率和移动的约束方程作为约束：

其中，所述约束条件包括：机器人每轮任务分配特定的起终点、机器人在移动过程中所处的位置位于要求区域内、机器人需要避开障碍物和不可到达的区域、接入点的最大总发射功率约束、必要的串行干扰消除功率约束。

接入点分配给所有机器人的下行功率和不能超过总功率最大值的功率约束，即移动期间接入点的最大总发射功率约束为：

其中，P_u(t)表示时间t的机器人u发射功率，P_max表示接入点的最大传输总功率。

假设t时刻室内机器人系统的信道增益顺序为β_U(t)≤…≤β₂(t)≤β₁(t)，接入点分配给不同机器人的发射功率之差不能小于最小分辨功率、信道条件越好的机器人应分配越小的接入点的发射功率，因此必要的串行干扰消除功率约束为：

其中参数ρ_min又可以被写作P_tol×N₀×B，且P_tol的物理意义是区分解码信号和剩余的未解码信号的最小功率差。此外，N₀表示噪声功率谱密度，且B为机器人的传输带宽。

机器人移动的约束方程为：

其中||.||_n表示n-范数，且x_min、x_max、y_min和y_max分别代表室内环境的范围。约束条件C1表示代表机器人的最大移动速度不能超过v_max，约束C2代表每轮机器人的起终点位置，室内空间的约束为C3和C4。

上述步骤S121可以按以下步骤A～D实现：

将最大化系统长期吞吐量问题建模为马尔可夫决策过程，得到马尔可夫决策过程所定义的状态、动作及回报函数；

将问题建模为马尔可夫决策过程，采用全局元组

来表示全局的经验转移(包括全局状态、动作和回报函数)，同时机器人u持有局部元组

步骤A：定义状态空间。假设

表示机器人u的状态空间，则其时间t的本地状态

可以定义为：

其中q_u(t)＝(x_u(t)，y_u(t))和g_u(t)分别代表时间t的机器人u的实时位置和基于dB的信道增益。将连续的二维空间划分为具有相同大小的网格，且状态空间中的(x_u(t)，y_u(t))为离散值且在每个网格Δ²的中心。此外，状态

中的坐标还应满足位置约束。

步骤B：定义动作空间。假设机器人u的动作空间为

那么其时间t的本地动作

被定义为

上式(3-2)中，机器人移动ΔD_u(t)∈{r，l，u，d}表示机器人u每步只能选择向右/左/上/下移动一个网格。下行传输功率P_u(t)∈{P_max/2，P_max/4，…，P_max/2^v}且v≥U来严格保证必要的串行干扰消除功率约束。

步骤C：定义回报函数。机器人会根据回报来调整其策略，回报函数应该同时考虑到达终点的时间和移动路径上的数据速率，本地回报函数

可以如下计算得到：

其中回报函数

由四部分组成。R_u(t)为机器人下行数据速率，指引机器人u到达其目的地的引导回报为R_u，D(t)＝d_u，D(t)-d_u,D(t-1)，其中d_u，D(t)是时间t机器人u与对应终点之间的距离。此外，如果机器人u到达了目的地，则机器人u将获得正回报值R_goal(t)>0，否则为默认零值R_goal(t)＝0。同时，时间代价R_time是一个负常数，它可以帮助机器人及时到达目的地，而非不断徘徊。

本实施方式中，步骤S122，可以按以下步骤实现：

本地机器人网络使用经验重放和固定Q目标的深度强化学习技术。其中机器人u观察自身状态

并以概率1-∈根据目标Q函数选择动作

否则随机地选择动作

DQN利用DNNs来逼近Q函数(也被称为Q函数)

其形式如下：

其中，衰减因子γ∈(0，1]代表未来回报的影响，即越接近未来的回报，对时间t的动作选择影响越小，具体的值视具体情况而定。此外，w_u,t代表Q函数在时间t的模型参数，且

代表目标Q函数在时间t的模型参数。

本实施方式中，目标Q函数和实时Q函数使用的是一样的网络结构，但保留了两组不同模型参数：固定的目标参数

和实时参数w_u,t。每隔N_Q时间，实时Q网络参数w_u,t周期性地替换目标Q网络参数

具体实施方式二、结合图3说明本实施方式，基于联邦强化学习的机器人通信控制系统，该系统适用于实施方式一所述的基于联邦强化学习的机器人通信控制方法，该系统包括信息获取模块、方案确定模块和资源分配模块；

信息获取模块310，用于获取强化学习装置中的每个机器人在每个时刻的地理位置与当前下行信道增益；

方案确定模块320，基于联邦深度强化学习方法，确定当前模型的目标资源分配方案；其中，所述目标资源分配方案包括：室内机器人路径规划和接入点的发射功率分配；

资源分配模块330，用于控制机器人和接入点按照目标资源分配方案，为自身分配对应资源，以最大化系统吞吐量。

本实施方式中，所述方案确定模块包括：

机器人方向控制单元，用于使每个机器人根据本地强化学习训练输出的动作进行移动；

接入点功率控制单元，用于根据每个机器人的决策优先级结合串行干扰消除功率约束，为每个机器人分配相应的下行链路发射功率。

具体实施方式三、结合图4说明本实施方式，一种控制设备，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现上述实施方式一所述的基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法的步骤。

本实施方式中，所述控制设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述控制设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

所述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(接入点plication Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

具体实施方式四、一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式一所述的基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法。

具体实施方式五、一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施方式一所述的基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法。

对于装置/控制设备/存储介质/程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本实施方式中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、控制设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于联邦强化学习的机器人通信控制方法，其特征是：该方法基于强化学习装置实现，所述强化学习装置包括接入点和U个机器人；该方法由以下步骤实现：

步骤S130、聚合周期结束前，每个机器人上传最新本地网络模型参数给接入点；接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数，并把所述新全局模型参数下发给相应的机器人；所述新全局模型参数与本地模型参数结构一致，为所有本地模型参数取平均后得到的结果；

步骤S110中，所述每个机器人采用接收的新全局网络模型参数替换本地网络模型参数，具体过程为：

本地深度强化学习网络利用深度神经网络DNNs逼近Q函数

形式如下：

式中，

为t′时刻的本地回报函数，γ^t′-t为t′-t次的衰减因子，γ∈(0,1]代表未来的影响，

为t时刻本地状态空间，

为t时刻动作空间，T_u为机器人u从起点到终点的时间；Q函数分为实时Q函数和目标Q函数；w_u为时间平均后的实时Q函数模型参数，目标Q函数为实时Q函数周期性迭代得到的；w_u,t为实时Q函数在t时刻的模型参数，且

为目标Q函数在t时刻的模型参数；

采用均方误差方法，损失函数L_u(w_u,t)表示为：

式中，

为目标，设定本地状态空间

不是终点，则目标

用下式表示为：

否则，目标

通过对损失函数L_u(w_u,t)执行梯度下降方法更新Q函数

使损失函数L_u(w_u,t)最小化，Q函数参数更新过程如下：

其中α∈[0,1]表示学习率；

根据网络模型参数w_u,t和

在基于模型参数的聚合方式下，设定在t时刻，机器人已收到接入点下发的新全局模型参数w_t和

即每个聚合周期开始时每个机器人采用接收到新全局网络模型参数替换本地网络模型参数，表示如下：

式中，w_t为新全局实时Q网络模型参数,

为新全局目标Q网络模型参数；

步骤S120的具体实现过程为：

步骤S121：将系统长期吞吐量问题建模为马尔可夫决策过程，获得马尔可夫决策过程所定义的状态空间、动作空间及回报函数；

步骤S122：根据所述状态空间、动作空间及回报函数，采用联邦强化学习算法获得最大化系统长期吞吐量时机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配方案；

步骤S120中，以系统长期吞吐量最大为原则，并根据机器人的移动约束和接入点的功率约束条件，确定机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配；

所述系统的长期吞吐量分解为：最大化系统移动路径上的数据速率之和、最小化所有机器人到达终点的时间；每个机器人的长期数据速率表示为移动过程中下行数据速率之和除以对应机器人的到达终点时间，将系统中所有机器人的长期数据速率进行求和，获得系统优化方程为：

式中，

和

分别表示系统中机器人的路径、接入点的传输功率和机器人u在t时刻的下行数据速率，T_u表示机器人u从起点到终点的时间，

机器人集合

步骤S130中，所述接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数；

根据强化学习网络利用深度神经网络DNNs逼近Q函数

在基于模型参数的聚合方式下，设定t时刻接入点已收到当前时刻所有机器人上传的新本地模型参数，接入点采用取平均的方法更新全局参数，公式如下：

2.根据权利要求1所述的基于联邦强化学习的机器人通信控制方法，其特征在于：

所述机器人的移动约束和接入点的功率约束条件包括：

机器人每轮任务分配特定的起终点、机器人在移动过程中所处的位置位于要求区域内、机器人需要避开障碍物和不可到达的区域、接入点的最大总发射功率约束以及必要的串行干扰消除功率约束。

3.根据权利要求2所述的基于联邦强化学习的机器人通信控制方法，其特征在于：

所述必要的串行干扰消除功率约束具体为：

其中，P_u(t)为t时刻的机器人u对应的下行传输功率，P_max为接入点的最大传输总功率；

设定t时刻室内机器人系统的信道增益顺序为β_U(t)≤…≤β₂(t)≤β₁(t)，接入点分配给不同机器人的发射功率之差不能小于最小分辨功率、信道条件越好的机器人应分配越小的接入点的发射功率，则必要的串行干扰消除功率约束为：

式中，参数ρ_min被写作P_tol×N₀×B，且P_tol为区分解码信号和剩余的未解码信号的最小功率差，N₀为噪声功率谱密度，B为机器人的传输带宽。

4.根据权利要求1所述的基于联邦强化学习的机器人通信控制方法，其特征在于：

步骤S121的具体过程由以下步骤实现：

步骤A、定义状态空间；

设定

表示机器人u的状态空间，则t时刻本地状态空间

定义为：

设定q_u(t)＝(x_u(t),y_u(t))和g_u(t)分别表示t时刻的机器人u的实时位置和基于dB的信道增益；将连续的二维空间划分为具有相同大小的网格，且状态空间中的(x_u(t),y_u(t))为离散值且在每个网格的中心；所述本地状态空间

中的坐标满足位置约束；

步骤B：定义动作空间：

设定

为机器人u的动作空间，则t时刻的本地动作空间

定义为：

式中，机器人位移ΔD_u(t)∈{r,l,u,d}为机器人u每一步只能选择向右/左/上/下移动一个网格；下行传输功率P_u(t)∈{P_max/2,P_max/4,…,P_max/2^v}且v≥U保证必要的串行干扰消除功率约束；

步骤C、定义回报函数：

机器人根据回报值调整策略，回报函数同时考虑到达终点的时间和移动路径上的数据速率，本地回报函数

如下式：

式中，所述本地回报函数

由四部分组成：R_time为时间代价，R_goal(t)为回报值；R_u(t)为机器人下行数据速率，指引机器人u到达其目的地的引导回报为R_u,D(t)＝d_u,D(t)-d_u,D(t-1)，其中d_u,D(t)是t时刻机器人u与对应终点之间的距离；

当机器人u到达了目的地，则机器人u将获得回报值为正值，R_goal(t)＞0，否则默认为回报值为零值，R_goal(t)＝0。

5.基于联邦强化学习的机器人通信控制系统，其特征是，该系统包括信息获取模块、方案确定模块和资源分配模块；

方案确定模块，基于权利要求1-4任意一项所述的机器人通信控制方法确定当前模型的目标资源分配方案；其中，所述目标资源分配方案包括：室内机器人路径规划和接入点的发射功率分配；

6.一种控制设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。