CN113392539B - 基于联邦强化学习的机器人通信控制方法、系统及设备 - Google Patents

基于联邦强化学习的机器人通信控制方法、系统及设备 Download PDF

Info

Publication number
CN113392539B
CN113392539B CN202110788018.2A CN202110788018A CN113392539B CN 113392539 B CN113392539 B CN 113392539B CN 202110788018 A CN202110788018 A CN 202110788018A CN 113392539 B CN113392539 B CN 113392539B
Authority
CN
China
Prior art keywords
robot
time
access point
model parameters
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110788018.2A
Other languages
English (en)
Other versions
CN113392539A (zh
Inventor
田辉
罗如瑜
倪万里
陈志广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianqiao Technology Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Lianqiao Technology Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianqiao Technology Co ltd, Beijing University of Posts and Telecommunications filed Critical Lianqiao Technology Co ltd
Priority to CN202110788018.2A priority Critical patent/CN113392539B/zh
Publication of CN113392539A publication Critical patent/CN113392539A/zh
Application granted granted Critical
Publication of CN113392539B publication Critical patent/CN113392539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation

Abstract

基于联邦强化学习的机器人通信控制方法、系统及设备,涉及路径规划技术与无线通信资源分配领域。解决现有机器人系统中存在通信和路径规划问题,方法步骤包括:每个聚合周期开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数,聚合周期内,每个机器人用本地网络进行强化学习训练并更新本地网络模型参数,聚合周期结束前每个机器人上传最新网络模型参数给接入点;接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数,并把新的全局模型参数下发给相应的机器人。本发明加快网络的收敛速度,提高系统长期吞吐量,并对机器人数量的变化具有较好的鲁棒性,同时还可以降低机器人的通信能耗并保护机器人的隐私。

Description

基于联邦强化学习的机器人通信控制方法、系统及设备
技术领域
本发明涉及路径规划与无线通信资源分配领域,具体涉及一种基于联邦强化学习的机器人通信控制方法、系统及设备。
背景技术
物联网的爆炸式发展加速了智能机器人在工业控制和家庭自动化领域的大规模应用。为了更好地在机器人系统中提供新的服务,系统常常需要大量的通信、计算和数据资源,而这些资源可能需要本地设备从外部获取。为了减轻对本地硬件的要求,无线系统必须提供广连接、低延迟和高数据速率的服务,而通信问题可能会限制多机器人网络的进一步发展。因此,有必要在机器人系统中兼顾通信和路径规划问题。
非正交多址技术具有高频谱效率、广连接性、公平性等优点,因此很适合被应用于室内机器人系统中。但由于非正交多址技术系统的功率敏感性很高,所以合适的传输功率策略至关重要。此外,考虑到机器人的移动性和室内环境的复杂性,在未知的室内机器人系统中,如何兼顾室内机器人路径规划和接入点处的传输功率分配问题是一项有挑战性的任务。
为了在无室内环境先验知识的前提下,兼顾室内机器人路径规划和接入点处的传输功率分配问题以最大化系统长期吞吐量,并一定程度上降低机器人硬件开销和节省有限的通信资源,提出了一种基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法、装置及控制设备。
发明内容
本发明为解决现有机器人系统中存在通信和路径规划问题,提供一种基于联邦强化学习的机器人通信控制方法、系统及设备。
基于联邦强化学习的机器人通信控制方法,该方法基于强化学习装置实现,所述强化学习装置包括接入点和U个机器人;该方法由以下步骤实现:
步骤S110、每个聚合周期开始时,每个机器人采用接收的新全局网络模型参数替换本地网络模型参数;所述新全局网络模型参数和本地网络模型参数均为强化学习算法中的网络模型参数;
步骤S120、在聚合周期内,每个机器人采用本地网络进行强化学习训练并更新本地网络模型参数;所述机器人的每一步需根据当前状态和本地网络做出相应的动作,并结合每一步环境的回报信息和下一步状态形成经验进行存储和训练,所述状态包括机器人的位置坐标和当前的信道增益;所述动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化;
步骤S130、聚合周期结束前,每个机器人上传最新本地网络模型参数给接入点;接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数,并把所述新全局模型参数下发给相应的机器人;所述新全局模型参数与本地模型参数结构一致,为所有本地模型参数取平均后得到的结果。
基于联邦强化学习的机器人通信控制系统,该系统包括信息获取模块、方案确定模块和资源分配模块;
信息获取模块,用于获取强化学习装置中的每个机器人在每个时刻的地理位置与当前下行信道增益;
方案确定模块,基于联邦深度强化学习方法,确定当前模型的目标资源分配方案;其中,所述目标资源分配方案包括:室内机器人路径规划和接入点的发射功率分配;
资源分配模块,用于控制机器人和接入点按照目标资源分配方案,为自身分配对应资源,以最大化系统吞吐量。
一种控制设备,包括处理器、通信接口、存储器和通信总线,所述处理器,通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法步骤。
本发明的有益效果:
一、本发明所述的方法,在每个聚合周期刚开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数;其中,网络模型参数为强化学习算法中的网络模型参数;所述强化学习系统中包括接入点和U个机器人。聚合周期内,每个机器人用本地网络进行强化学习训练并更新本地网络模型参数;其中,机器人需每步根据当前状态和本地网络做出相应的动作,并结合每步环境的回报和下一步状态形成经验进行存储和训练,状态包括机器人的位置坐标和当前的信道增益,动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化;聚合周期即将结束前每个机器人上传最新网络模型参数给接入点;接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数,并把新的全局模型参数下发给相应的机器人;当所有机器人都到达终点时,所有机器人开始分配新的各自起终点。其中,机器人从出发至到达终点一般包含多个聚合周期,一个聚合周期包括多个时隙。
二、在本发明所述的方法在整个过程在每个机器人端进行本地深度强化学习模型的训练,因此在无先验知识的前提下快速适应动态复杂的室内环境;同时系统周期性地通过联邦学习的方法进行全局模型的聚合和分发,进而可以加快模型的收敛速度并增强了用户隐私并降低了通信成本。
其中,由于在确定上述目标资源分配方案时,综合考虑了系统移动路径上的数据速率之和、所有机器人到达终点的时间,因此,可以在尽可能快速地到达终点的前提下,保证系统所有机器人在移动路径上的通信速率最大化,进而保证系统长期吞吐量最大。
三、本发明方法中,由于接入点通过取平均的方法进行模型的全局聚合,从而,在相同可用传输功率数下,无论机器人数量的大小,新全局模型参数与本地模型参数结构一致,因此对网络规模的变化有一定的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的基于联邦强化学习的机器人通信控制方法的流程图;
图2为一种室内机器人的场景示意图;
图3为本发明所述的基于联邦强化学习的机器人通信控制系统的结构示意图;
图4为本发明所述的一种控制设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了在无室内环境先验知识的前提下,兼顾室内机器人路径规划和接入点处的传输功率分配问题以最大化系统长期吞吐量,并一定程度上降低机器人硬件开销和节省有限的通信资源,提出了一种基于联邦强化学习的机器人通信控制方法、系统及控制设备。
具体实施方式一、结合图1和图2说明本实施方式,基于联邦强化学习的机器人通信控制方法,本实施方式所述的基于联邦强化学习的机器人通信控制方法可以适用于任一需要进行路径规划和接入点的发射功率分配的机器人系统,并且,系统中,强化学习装置中至少包括:至少一个机器人和接入点。
需要说明的是,本实施方式中提供的基于联邦强化学习的机器人通信控制方法的执行主体可以是控制设备,并且该控制设备可以安装在机器人上,也可以是部署在机器人外的一独立设备,可以通过无线信号控制机器人的运行;控制设备可以是微型计算机、处理器、手机等设备。对此,本发明实施例不对控制设备的安装位置和设备类型进行限定。
其中,在每个机器人端进行本地深度强化学习模型的训练,同时系统将周期性地通过联邦学习的方法进行全局模型的聚合和分发。需要说明的是,本地深度强化学习模型可以为:深度Q学习、演员-评议家网络、深度确定性策略梯度等模型,对此,本实施方式中不对机器人本地深度强化学习模型进行限定。
例如,如图2所示,为一种室内机器人的场景示意图。其中,一个单天线的接入点、U个单天线机器人组成,且机器人集合
Figure BDA0003159849100000041
室内环境中还存在一些障碍物和几个不可到达房间,根据地面平面建立三维笛卡尔坐标系,接入点位于qA=(xA,yA,hA)的位置。机器人的起点和终点分别表示为qu,S=.xu,S(t),yu,S(t)/和qu,D=.xu,D(t),yu,D(t)/。同时,机器人u实时位置表示为qu(t)=(xu(t),yu(t))且
Figure BDA0003159849100000042
且Tu代表机器人u从起点到终点的时间。
本实施方式所述的方法由以下步骤实现:如图1所示,该目标资源分配方法可以包括如下步骤S110~S130。
步骤S110:每个聚合周期刚开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数;
其中,网络模型参数为强化学习算法中的网络模型参数;所述强化学习系统中包括接入点和U个机器人。
本地深度强化学习网络利用DNNs来逼近Q函数
Figure BDA0003159849100000051
其形式如下:
Figure BDA0003159849100000052
式中,
Figure BDA0003159849100000053
为t′时刻的本地回报函数,γt′-t为t′-t次的衰减因子,γ∈(0,1]代表未来的影响,
Figure BDA0003159849100000054
为t时刻本地状态空间,
Figure BDA0003159849100000055
为t时刻动作空间,Tu代表机器人u从起点到终点的时间;Q函数一般分为实时Q函数和目标Q函数;wu为时间平均后的实时Q函数模型参数,目标Q函数为实时Q函数周期性迭代得到的;此外,wu,t代表实时Q函数在时间t的模型参数,且
Figure BDA0003159849100000056
代表目标Q函数在时间t的模型参数。
采用均方误差方法,损失函数Lu(wu,t)可表示为:
Figure BDA0003159849100000057
式中,
Figure BDA0003159849100000058
为目标。假如
Figure BDA0003159849100000059
不是终点,则目标
Figure BDA00031598491000000510
可写作:
Figure BDA00031598491000000511
否则,目标
Figure BDA00031598491000000512
通过对损失函数Lu(wu,t)执行梯度下降方法更新Q函数
Figure BDA00031598491000000513
从而使损失函数Lu(wu,t)最小化,Q函数参数更新过程如下:
Figure BDA00031598491000000514
其中α∈[0,1]表示学习率,代表用新得到的Q函数能多大程度地修改以往的Q函数。
结合强化学习网络参数wu,t
Figure BDA00031598491000000515
在基于模型参数的聚合方式下,假设时间t时机器人已收到当接入点下发的新全局模型参数,即每个聚合周期刚开始时每个机器人用新接收到的全局网络模型参数替换本地网络模型参数,可表示如下:
Figure BDA00031598491000000516
步骤S120:聚合周期内,每个机器人用本地网络进行强化学习训练并更新本地网络模型参数;
其中,机器人需每步根据当前状态和本地网络做出相应的动作,并结合每步环境的回报和下一步状态形成经验进行存储和训练,状态包括机器人的位置坐标和当前的信道增益,动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化;
具体地,以系统长期吞吐量最大为原则、且基于机器人的移动约束和接入点的功率约束条件,确定机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配,包括步骤S121~S122:
步骤S121:将最大化系统长期吞吐量问题建模为马尔可夫决策过程,得到马尔可夫决策过程所定义的状态、动作及回报函数;
步骤S122:基于所述状态、动作及回报函数,使用联邦强化学习算法得到最大化系统长期吞吐量时机器人的目标资源分配方案。
等价的,所得到的目标资源分配方案包括从起点到终点的移动轨迹和移动期间接入点的发射功率分配方案。
为了便于行文清晰,后续将会对上述步骤S120~S122进行详细举例说明。
步骤S130:聚合周期马上结束前每个机器人上传最新网络模型参数给接入点;接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数,并把新的全局模型参数下发给相应的机器人。
其中,新全局模型参数与本地模型参数结构一致,为所有本地模型参数取平均后得到的结果。
聚合周期马上结束前,结合强化学习网络利用DNNs来逼近Q函数
Figure BDA0003159849100000061
在基于模型参数的聚合方式下,假设时间t时接入点已收到当前时刻所有机器人上传的新本地模型参数,接入点将使用取平均的方法更新全局参数wt
Figure BDA0003159849100000062
可表示如下:
Figure BDA0003159849100000063
本实施方式中,步骤S120以系统长期吞吐量最大为原则、且基于机器人的移动约束和接入点的功率约束条件,确定机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配,长期吞吐量具体包括:
以最大化机器人系统的长期吞吐量为原则,确定每个机器人从起点到终点的运动轨迹,其中,所述系统的长期吞吐量可以分解为:最大化系统移动路径上的数据速率之和、最小化所有机器人到达终点的时间;每个机器人的长期数据速率可表达为移动过程中下行数据速率之和除以对应机器人的到达终点时间,将系统中所有机器人的长期数据速率进行求和,即可得到系统优化方程为:
Figure BDA0003159849100000071
其中,
Figure BDA0003159849100000072
Figure BDA0003159849100000073
分别表示系统中机器人的路径、AP的传输功率和机器人u在t时刻的下行数据速率。机器人u的信干噪比为:
Figure BDA0003159849100000074
其中,nu(t)表示加性高斯白噪声。此外,符号|.|为信号功率计算。结合香农公式,机器人u的下行数据速率(单位bps/Hz)可表示为:
Figure BDA0003159849100000075
在求解优化方程时,可以将功率和移动的约束方程作为约束:
其中,所述约束条件包括:机器人每轮任务分配特定的起终点、机器人在移动过程中所处的位置位于要求区域内、机器人需要避开障碍物和不可到达的区域、接入点的最大总发射功率约束、必要的串行干扰消除功率约束。
接入点分配给所有机器人的下行功率和不能超过总功率最大值的功率约束,即移动期间接入点的最大总发射功率约束为:
Figure BDA0003159849100000076
其中,Pu(t)表示时间t的机器人u发射功率,Pmax表示接入点的最大传输总功率。
假设t时刻室内机器人系统的信道增益顺序为βU(t)≤…≤β2(t)≤β1(t),接入点分配给不同机器人的发射功率之差不能小于最小分辨功率、信道条件越好的机器人应分配越小的接入点的发射功率,因此必要的串行干扰消除功率约束为:
Figure BDA0003159849100000081
其中参数ρmin又可以被写作Ptol×N0×B,且Ptol的物理意义是区分解码信号和剩余的未解码信号的最小功率差。此外,N0表示噪声功率谱密度,且B为机器人的传输带宽。
机器人移动的约束方程为:
Figure BDA0003159849100000082
其中||.||n表示n-范数,且xmin、xmax、ymin和ymax分别代表室内环境的范围。约束条件C1表示代表机器人的最大移动速度不能超过vmax,约束C2代表每轮机器人的起终点位置,室内空间的约束为C3和C4。
上述步骤S121可以按以下步骤A~D实现:
将最大化系统长期吞吐量问题建模为马尔可夫决策过程,得到马尔可夫决策过程所定义的状态、动作及回报函数;
将问题建模为马尔可夫决策过程,采用全局元组
Figure BDA0003159849100000083
来表示全局的经验转移(包括全局状态、动作和回报函数),同时机器人u持有局部元组
Figure BDA0003159849100000084
步骤A:定义状态空间。假设
Figure BDA0003159849100000085
表示机器人u的状态空间,则其时间t的本地状态
Figure BDA0003159849100000086
可以定义为:
Figure BDA0003159849100000087
其中qu(t)=(xu(t),yu(t))和gu(t)分别代表时间t的机器人u的实时位置和基于dB的信道增益。将连续的二维空间划分为具有相同大小的网格,且状态空间中的(xu(t),yu(t))为离散值且在每个网格Δ2的中心。此外,状态
Figure BDA0003159849100000091
中的坐标还应满足位置约束。
步骤B:定义动作空间。假设机器人u的动作空间为
Figure BDA0003159849100000092
那么其时间t的本地动作
Figure BDA0003159849100000093
被定义为
Figure BDA0003159849100000094
上式(3-2)中,机器人移动ΔDu(t)∈{r,l,u,d}表示机器人u每步只能选择向右/左/上/下移动一个网格。下行传输功率Pu(t)∈{Pmax/2,Pmax/4,…,Pmax/2v}且v≥U来严格保证必要的串行干扰消除功率约束。
步骤C:定义回报函数。机器人会根据回报来调整其策略,回报函数应该同时考虑到达终点的时间和移动路径上的数据速率,本地回报函数
Figure BDA0003159849100000095
可以如下计算得到:
Figure BDA0003159849100000096
其中回报函数
Figure BDA0003159849100000097
由四部分组成。Ru(t)为机器人下行数据速率,指引机器人u到达其目的地的引导回报为Ru,D(t)=du,D(t)-du,D(t-1),其中du,D(t)是时间t机器人u与对应终点之间的距离。此外,如果机器人u到达了目的地,则机器人u将获得正回报值Rgoal(t)>0,否则为默认零值Rgoal(t)=0。同时,时间代价Rtime是一个负常数,它可以帮助机器人及时到达目的地,而非不断徘徊。
本实施方式中,步骤S122,可以按以下步骤实现:
本地机器人网络使用经验重放和固定Q目标的深度强化学习技术。其中机器人u观察自身状态
Figure BDA0003159849100000098
并以概率1-∈根据目标Q函数选择动作
Figure BDA0003159849100000099
否则随机地选择动作
Figure BDA00031598491000000910
DQN利用DNNs来逼近Q函数(也被称为Q函数)
Figure BDA00031598491000000911
其形式如下:
Figure BDA00031598491000000912
其中,衰减因子γ∈(0,1]代表未来回报的影响,即越接近未来的回报,对时间t的动作选择影响越小,具体的值视具体情况而定。此外,wu,t代表Q函数在时间t的模型参数,且
Figure BDA00031598491000000913
代表目标Q函数在时间t的模型参数。
本实施方式中,目标Q函数和实时Q函数使用的是一样的网络结构,但保留了两组不同模型参数:固定的目标参数
Figure BDA0003159849100000101
和实时参数wu,t。每隔NQ时间,实时Q网络参数wu,t周期性地替换目标Q网络参数
Figure BDA0003159849100000102
具体实施方式二、结合图3说明本实施方式,基于联邦强化学习的机器人通信控制系统,该系统适用于实施方式一所述的基于联邦强化学习的机器人通信控制方法,该系统包括信息获取模块、方案确定模块和资源分配模块;
信息获取模块310,用于获取强化学习装置中的每个机器人在每个时刻的地理位置与当前下行信道增益;
方案确定模块320,基于联邦深度强化学习方法,确定当前模型的目标资源分配方案;其中,所述目标资源分配方案包括:室内机器人路径规划和接入点的发射功率分配;
资源分配模块330,用于控制机器人和接入点按照目标资源分配方案,为自身分配对应资源,以最大化系统吞吐量。
本实施方式中,所述方案确定模块包括:
机器人方向控制单元,用于使每个机器人根据本地强化学习训练输出的动作进行移动;
接入点功率控制单元,用于根据每个机器人的决策优先级结合串行干扰消除功率约束,为每个机器人分配相应的下行链路发射功率。
具体实施方式三、结合图4说明本实施方式,一种控制设备,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述实施方式一所述的基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法的步骤。
本实施方式中,所述控制设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述控制设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
所述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(接入点plication Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
具体实施方式四、一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施方式一所述的基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法。
具体实施方式五、一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施方式一所述的基于联邦深度强化学习的室内机器人路径规划和接入点的发射功率分配方法。
对于装置/控制设备/存储介质/程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本实施方式中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、控制设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.基于联邦强化学习的机器人通信控制方法,其特征是:该方法基于强化学习装置实现,所述强化学习装置包括接入点和U个机器人;该方法由以下步骤实现:
步骤S110、每个聚合周期开始时,每个机器人采用接收的新全局网络模型参数替换本地网络模型参数;所述新全局网络模型参数和本地网络模型参数均为强化学习算法中的网络模型参数;
步骤S120、在聚合周期内,每个机器人采用本地网络进行强化学习训练并更新本地网络模型参数;所述机器人的每一步需根据当前状态和本地网络做出相应的动作,并结合每一步环境的回报信息和下一步状态形成经验进行存储和训练,所述状态包括机器人的位置坐标和当前的信道增益;所述动作包括下一个时隙内接入点分配给机器人的下行发射功率和机器人的位置变化;
步骤S130、聚合周期结束前,每个机器人上传最新本地网络模型参数给接入点;接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数,并把所述新全局模型参数下发给相应的机器人;所述新全局模型参数与本地模型参数结构一致,为所有本地模型参数取平均后得到的结果;
步骤S110中,所述每个机器人采用接收的新全局网络模型参数替换本地网络模型参数,具体过程为:
本地深度强化学习网络利用深度神经网络DNNs逼近Q函数
Figure FDA0003607624160000011
形式如下:
Figure FDA0003607624160000012
式中,
Figure FDA0003607624160000013
为t′时刻的本地回报函数,γt′-t为t′-t次的衰减因子,γ∈(0,1]代表未来的影响,
Figure FDA0003607624160000014
为t时刻本地状态空间,
Figure FDA0003607624160000015
为t时刻动作空间,Tu为机器人u从起点到终点的时间;Q函数分为实时Q函数和目标Q函数;wu为时间平均后的实时Q函数模型参数,目标Q函数为实时Q函数周期性迭代得到的;wu,t为实时Q函数在t时刻的模型参数,且
Figure FDA0003607624160000016
为目标Q函数在t时刻的模型参数;
采用均方误差方法,损失函数Lu(wu,t)表示为:
Figure FDA0003607624160000017
式中,
Figure FDA0003607624160000021
为目标,设定本地状态空间
Figure FDA0003607624160000022
不是终点,则目标
Figure FDA0003607624160000023
用下式表示为:
Figure FDA0003607624160000024
否则,目标
Figure FDA0003607624160000025
通过对损失函数Lu(wu,t)执行梯度下降方法更新Q函数
Figure FDA0003607624160000026
使损失函数Lu(wu,t)最小化,Q函数参数更新过程如下:
Figure FDA0003607624160000027
其中α∈[0,1]表示学习率;
根据网络模型参数wu,t
Figure FDA0003607624160000028
在基于模型参数的聚合方式下,设定在t时刻,机器人已收到接入点下发的新全局模型参数wt
Figure FDA0003607624160000029
即每个聚合周期开始时每个机器人采用接收到新全局网络模型参数替换本地网络模型参数,表示如下:
Figure FDA00036076241600000210
式中,wt为新全局实时Q网络模型参数,
Figure FDA00036076241600000211
为新全局目标Q网络模型参数;
步骤S120的具体实现过程为:
步骤S121:将系统长期吞吐量问题建模为马尔可夫决策过程,获得马尔可夫决策过程所定义的状态空间、动作空间及回报函数;
步骤S122:根据所述状态空间、动作空间及回报函数,采用联邦强化学习算法获得最大化系统长期吞吐量时机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配方案;
步骤S120中,以系统长期吞吐量最大为原则,并根据机器人的移动约束和接入点的功率约束条件,确定机器人从起点到终点的移动轨迹和移动期间接入点的发射功率分配;
所述系统的长期吞吐量分解为:最大化系统移动路径上的数据速率之和、最小化所有机器人到达终点的时间;每个机器人的长期数据速率表示为移动过程中下行数据速率之和除以对应机器人的到达终点时间,将系统中所有机器人的长期数据速率进行求和,获得系统优化方程为:
Figure FDA00036076241600000212
式中,
Figure FDA00036076241600000213
Figure FDA00036076241600000214
分别表示系统中机器人的路径、接入点的传输功率和机器人u在t时刻的下行数据速率,Tu表示机器人u从起点到终点的时间,
Figure FDA0003607624160000031
机器人集合
Figure FDA0003607624160000032
步骤S130中,所述接入点对所有的新本地网络模型参数进行全局聚合得到新全局模型参数;
根据强化学习网络利用深度神经网络DNNs逼近Q函数
Figure FDA0003607624160000033
在基于模型参数的聚合方式下,设定t时刻接入点已收到当前时刻所有机器人上传的新本地模型参数,接入点采用取平均的方法更新全局参数,公式如下:
Figure FDA0003607624160000034
2.根据权利要求1所述的基于联邦强化学习的机器人通信控制方法,其特征在于:
所述机器人的移动约束和接入点的功率约束条件包括:
机器人每轮任务分配特定的起终点、机器人在移动过程中所处的位置位于要求区域内、机器人需要避开障碍物和不可到达的区域、接入点的最大总发射功率约束以及必要的串行干扰消除功率约束。
3.根据权利要求2所述的基于联邦强化学习的机器人通信控制方法,其特征在于:
所述必要的串行干扰消除功率约束具体为:
接入点分配给所有机器人的下行功率和不能超过总功率最大值的功率约束,即移动期间接入点的最大总发射功率约束为:
Figure FDA0003607624160000035
其中,Pu(t)为t时刻的机器人u对应的下行传输功率,Pmax为接入点的最大传输总功率;
设定t时刻室内机器人系统的信道增益顺序为βU(t)≤…≤β2(t)≤β1(t),接入点分配给不同机器人的发射功率之差不能小于最小分辨功率、信道条件越好的机器人应分配越小的接入点的发射功率,则必要的串行干扰消除功率约束为:
Figure FDA0003607624160000041
式中,参数ρmin被写作Ptol×N0×B,且Ptol为区分解码信号和剩余的未解码信号的最小功率差,N0为噪声功率谱密度,B为机器人的传输带宽。
4.根据权利要求1所述的基于联邦强化学习的机器人通信控制方法,其特征在于:
步骤S121的具体过程由以下步骤实现:
步骤A、定义状态空间;
设定
Figure FDA0003607624160000042
表示机器人u的状态空间,则t时刻本地状态空间
Figure FDA0003607624160000043
定义为:
Figure FDA0003607624160000044
设定qu(t)=(xu(t),yu(t))和gu(t)分别表示t时刻的机器人u的实时位置和基于dB的信道增益;将连续的二维空间划分为具有相同大小的网格,且状态空间中的(xu(t),yu(t))为离散值且在每个网格的中心;所述本地状态空间
Figure FDA0003607624160000045
中的坐标满足位置约束;
步骤B:定义动作空间:
设定
Figure FDA0003607624160000046
为机器人u的动作空间,则t时刻的本地动作空间
Figure FDA0003607624160000047
定义为:
Figure FDA0003607624160000048
式中,机器人位移ΔDu(t)∈{r,l,u,d}为机器人u每一步只能选择向右/左/上/下移动一个网格;下行传输功率Pu(t)∈{Pmax/2,Pmax/4,…,Pmax/2v}且v≥U保证必要的串行干扰消除功率约束;
步骤C、定义回报函数:
机器人根据回报值调整策略,回报函数同时考虑到达终点的时间和移动路径上的数据速率,本地回报函数
Figure FDA0003607624160000049
如下式:
Figure FDA00036076241600000410
式中,所述本地回报函数
Figure FDA0003607624160000051
由四部分组成:Rtime为时间代价,Rgoal(t)为回报值;Ru(t)为机器人下行数据速率,指引机器人u到达其目的地的引导回报为Ru,D(t)=du,D(t)-du,D(t-1),其中du,D(t)是t时刻机器人u与对应终点之间的距离;
当机器人u到达了目的地,则机器人u将获得回报值为正值,Rgoal(t)>0,否则默认为回报值为零值,Rgoal(t)=0。
5.基于联邦强化学习的机器人通信控制系统,其特征是,该系统包括信息获取模块、方案确定模块和资源分配模块;
信息获取模块,用于获取强化学习装置中的每个机器人在每个时刻的地理位置与当前下行信道增益;
方案确定模块,基于权利要求1-4任意一项所述的机器人通信控制方法确定当前模型的目标资源分配方案;其中,所述目标资源分配方案包括:室内机器人路径规划和接入点的发射功率分配;
资源分配模块,用于控制机器人和接入点按照目标资源分配方案,为自身分配对应资源,以最大化系统吞吐量。
6.一种控制设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
CN202110788018.2A 2021-07-13 2021-07-13 基于联邦强化学习的机器人通信控制方法、系统及设备 Active CN113392539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110788018.2A CN113392539B (zh) 2021-07-13 2021-07-13 基于联邦强化学习的机器人通信控制方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110788018.2A CN113392539B (zh) 2021-07-13 2021-07-13 基于联邦强化学习的机器人通信控制方法、系统及设备

Publications (2)

Publication Number Publication Date
CN113392539A CN113392539A (zh) 2021-09-14
CN113392539B true CN113392539B (zh) 2022-06-21

Family

ID=77625907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110788018.2A Active CN113392539B (zh) 2021-07-13 2021-07-13 基于联邦强化学习的机器人通信控制方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113392539B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792324B (zh) * 2021-11-16 2022-04-05 聊城高新生物技术有限公司 基于联邦学习的农产品数据交互方法、装置及电子设备
CN114785731A (zh) * 2022-04-25 2022-07-22 中国电信股份有限公司 模型确定系统及方法、计算机可存储介质
CN115174412B (zh) * 2022-08-22 2024-04-12 深圳市人工智能与机器人研究院 针对异构联邦学习系统的动态带宽分配方法以及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244906A1 (en) * 2019-06-03 2020-12-10 Nokia Solutions And Networks Oy Uplink power control using deep q-learning
CN110766169A (zh) * 2019-10-31 2020-02-07 深圳前海微众银行股份有限公司 强化学习的迁移训练优化方法、装置、终端及存储介质
CN111091200B (zh) * 2019-12-20 2021-03-19 深圳前海微众银行股份有限公司 训练模型的更新方法、系统、智能设备、服务器及存储介质
CN112884165B (zh) * 2021-03-18 2023-07-04 中国地质大学(北京) 面向联邦机器学习的全流程服务迁移方法与系统

Also Published As

Publication number Publication date
CN113392539A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113392539B (zh) 基于联邦强化学习的机器人通信控制方法、系统及设备
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
US10880854B2 (en) Intelligent base station with capability to identify three-dimensional environment, method for determining location thereof and storage medium
CN111867139B (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN108616303B (zh) 无人机基站通信系统的控制方法、系统、装置及存储介质
WO2021171341A1 (ja) 通信品質を予測するシステム、装置、方法及びプログラム
CN113467952A (zh) 一种分布式联邦学习协同计算方法及系统
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
EP4024212B1 (en) Method for scheduling inference workloads on edge network resources
EP3491793B1 (en) System and method for resource-aware and time-critical iot frameworks
CN110582072A (zh) 蜂窝车联网中基于模糊匹配的资源分配方法及装置
CN114785397A (zh) 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
CN114339842B (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
Li et al. Task offloading strategy to maximize task completion rate in heterogeneous edge computing environment
CN113727278B (zh) 一种路径规划方法、接入网设备及飞行控制设备
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN114884957B (zh) 空天地网络中的计算任务卸载方法、装置和电子设备
CN114201292B (zh) 一种道路网络临近检测方法及装置
CN114727323A (zh) 无人机基站控制方法及装置、模型训练方法及装置
Moneesh et al. Cooperative Spectrum Sensing using DQN in CRN
WO2023220975A1 (en) Method, apparatus and system for managing network resources
Yang et al. Deep reinforcement learning in NOMA-assisted UAV networks for path selection and resource offloading
Krijestorac Cooperative Channel Sensing, Relaying and Computing in UAV and Vehicular Networks
CN113326112B (zh) 一种基于块坐标下降法的多无人机任务卸载和迁移方法
CN116506829B (zh) 基于c-v2x通信的联邦边缘学习选择车辆方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant