CN115589250A - 一种星地中继物联网大规模中继选择与功率控制方法 - Google Patents

一种星地中继物联网大规模中继选择与功率控制方法 Download PDF

Info

Publication number
CN115589250A
CN115589250A CN202211205619.7A CN202211205619A CN115589250A CN 115589250 A CN115589250 A CN 115589250A CN 202211205619 A CN202211205619 A CN 202211205619A CN 115589250 A CN115589250 A CN 115589250A
Authority
CN
China
Prior art keywords
relay
node
terminal
agent
terminal node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211205619.7A
Other languages
English (en)
Inventor
唐斯琪
潘志松
胡谷雨
张磊
李云波
王彩玲
施蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202211205619.7A priority Critical patent/CN115589250A/zh
Publication of CN115589250A publication Critical patent/CN115589250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18513Transmission in a satellite or space-based system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Astronomy & Astrophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Radio Relay Systems (AREA)

Abstract

一种星地中继物联网大规模中继选择与功率控制方法,属于卫星通信领域。分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;将各个终端节点的决策过程建模为马尔可夫博弈;通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。本发明利用终端节点间相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互,大幅降低了联合动作维度,提高了多智能体强化学习的收敛效果与收敛效率。

Description

一种星地中继物联网大规模中继选择与功率控制方法
技术领域
本发明属于卫星通信领域,尤其涉及一种基于加权平均场强化学习的星地中继物联网大规模中继选择与功率控制方法。
背景技术
以小型化、低功耗、低成本为特点的物联网终端节点往往难以满足与卫星直接通信的要求,因此对于终端节点分布较为密集的地面区域,为降低物联网终端节点的发送功率门槛,降低终端节点能耗,可部署地面中继辅助物联网终端节点与卫星之间的数据传输。中继机制的优势在于降低了物联网终端节点制造成本与维护成本,一方面,考虑到在终端节点太阳能电池具有额定循环次数,中继机制能有效降低其功耗从而延长终端节点寿命;另一方面,终端节点不需要具备较强的太阳能电池,故障率低,运维人员只需要定期检查中继节点的太阳能供电装置是否正常工作,降低了维护工作量。现有的星地中继物联网场景下中继选择与资源分配方法存在以下不足:
(1)大多数研究基于全局的信道状态信息已知并且在较长一段时间稳定的假设。但在实际系统中,星地之间的通信信道受天气(降雨、降雪)、开放空间干扰等因素影响较大,呈现动态波动的特点;且由于卫星通信链路较长,反馈的CSI容易由于时延而过期。因此,在卫星物联网场景中已知全局实时准确的CSI这一前提难以满足。
(2)难以高效协调大规模终端节点的中继节点选择与资源分配决策。地面网络的覆盖范围往往是千米级别,但卫星网络覆盖范围达到数千千米级别。由于覆盖范围较广,物联网节点数量众多,且应用类型不同。现有基于优化或启发式方法的研究工作,其求解所需时间随终端节点规模成倍甚至指数倍增长。因此,连接节点的海量性,给现有的中继选择和资源分配的方法带来巨大挑战。
(3)卫星传播延迟较大,且终端节点数量庞大,不适合采用集中式控制机制。
多智能体强化学习将各终端节点视为智能体分布式决策,不依赖事先已知准确的信道质量信息或对信道模型的准确建模,而是通过环境反馈优化序列决策的策略,被认为是应对星地中继物联网中动态通信环境问题的有效途径。但现有基于多智能体强化学习的方法大多采用智能体独立优化策略的机制,忽略了智能体间相互影响。随着终端节点规模的增加,各智能体间互相影响显著增加,不考虑其他终端节点决策独立优化策略的智能体面临严重的环境不稳定问题,因而难以收敛。
发明内容
本发明提供了一种星地中继物联网大规模中继选择与功率控制方法,利用自编码器学习终端节点特征并计算终端节点间相似度,利用相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互,大幅降低了联合动作维度,提高了多智能体强化学习的收敛效果与收敛效率。
一种星地中继物联网大规模中继选择与功率控制方法,包括如下步骤:
步骤一:分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;
步骤二:将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈;
步骤三:通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;
步骤四:采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。
本发明采用上述技术方案,与现有技术相比具有如下优点:
1、考虑到卫星物联网场景下终端节点规模庞大,利用自编码器学习终端节点特征并计算终端节点间相似度,利用相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互,大幅降低了联合动作维度,提高了多智能体强化学习的收敛效果与收敛效率。
2、对星地中继物联网中终端节点的上行链路接入过程进行建模,包括中继选择与功率控制。首先,考虑到偏远地区物联网终端节点通常采用电池或太阳能机制进行供电,能量有限,将终端节点能量利用率作为优化目标之一。其次,由于切换中继需付出协调信令开销,本发明考虑中继切换导致的切换代价。最后,由于不同物联网应用具有不同的QoS需求,中继选择与功率控制策略需要满足异构卫星物联网终端节点的QoS约束。此模型有助于在满足多样传输需求的基础上,延长野外物联网终端节点的寿命。
3、以较低通信量同步全局状态,提高各智能体协同效果。一方面,令各智能体仅汇报上一时刻即时收益,并借助卫星广播能力,以较低通信开销在智能体间同步全局状态,使智能体了解其他智能体信息;另一方面,在决策过程中,各智能体通过Transformer模块学习时序全局状态信息中蕴含的其他智能体决策规律,进一步提高了协同能力。利用这两种机制以较低额外通信代价,促进了智能体间的合作协同。
附图说明
图1是本发明的应用场景即星地中继物联网场景的示意图;
图2是本发明场景下星地中继传输流程示意图;
图3是本发明进行终端节点相似性计算的自编码器网络结构;
图4是Q值神经网络结构图。
具体实施方式
下面对本发明的技术方案进行详细说明:
一种星地中继物联网大规模中继选择与功率控制方法,包括如下步骤:
步骤一:分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;
步骤二:将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈;
步骤三:通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;
步骤四:采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。
步骤一中分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题,具体过程为:
如图1所示,LEO星座提供物联网数据回传服务,N个物联网终端节点组成集合
Figure BDA0003873503470000031
M个中继节点组成中继集合
Figure BDA0003873503470000032
由于物联网应用主要利用上行链路进行数据传输,本发明重点关注上行链路。系统运行过程可离散为包含相等时间片的时间序列
Figure BDA0003873503470000033
中继节点对卫星的信号发送功率恒定不变,且不同类型的中继节点发送功率不同。各终端节点由于业务应用不同,对数据传输速率具有不同的QoS需求。令矩阵W=[wm,n],
Figure BDA0003873503470000041
表示终端节点的中继选择矩阵,其中wm,n∈{0,1},wm,n=1表示终端节点Un选择接入中继节点Rm。终端节点只能接入一个中继节点,而中继节点可以服务多个终端节点。
对于终端节点Un的功率控制问题,本发明将连续的发送功率变量离散化处理为一系列功率水平。即终端节点可以在离散化的功率集合
Figure BDA0003873503470000042
中选择合适的发送功率,其中
Figure BDA0003873503470000043
为终端的Un的最大发送功率,Np为发送功率量化的档位数量。令矩阵P=[pk,n],
Figure BDA0003873503470000044
表示终端节点的功率控制方案,其中pk,n∈{0,1},若pk,n=1则代表终端节点Un选择第k个发送功率档位,终端的发送功率为
Figure BDA0003873503470000045
卫星信道也是无线信道的一种,因此需要考虑无线信道的大尺度衰落与小尺度衰落,其信道增益可以表示为:
Figure BDA0003873503470000046
其中
Figure BDA0003873503470000047
表示卫星与中继节点Rm链路上的小尺度衰落,服从阴影莱斯分布;GLm,S包含卫星与中继节点Rm之间的自由空间损失、发送增益与接收增益,可表示为:
Figure BDA0003873503470000048
其中λc为载波波长,
Figure BDA0003873503470000049
表示t时刻中继节点Rm与卫星之间的距离,θm,S表示中继节点Rm与卫星之间的链路与卫星波束中心点间的夹角,GSm,S)表示卫星接收天线增益,Gm表示中继节点Rm的发送天线增益。
终端节点Un到中继节点Rm之间的地面无线信道增益可以表示为
Figure BDA00038735034700000410
其中GLn,m包含自由空间损失、终端节点的发送天线增益和中继节点的接收天线增益;
Figure BDA00038735034700000411
代表小尺度衰落,其服从瑞丽分布。
地面物联网终端节点到卫星的通信过程如图2所示,可分为三个阶段。
第一阶段为决策阶段,通过中继选择与功率控制算法选择接入的中继节点和终端节点发送功率;第二阶段为接入中继阶段,若第一次进行接入或发生中继切换,则需要与中继通信建立数据传输,第三阶段则是数据传输阶段,分为两个时隙。
第一个时隙中,地面物联网终端节点Un发送数据给选定的中继节点Rm。中继节点Rm接收到的终端节点节点Un发送的信号为
Figure BDA0003873503470000051
其中Pn表示终端节点Un的发射功率,nm(t)表示中继节点Rm接收天线处的高斯白噪声,其均值为0,方差为
Figure BDA0003873503470000052
在数据传输的第二时隙,被选择的中继节点Rm直接对收到的信号进行放大并发送给卫星,其放大因子可以表示为
Figure BDA0003873503470000053
卫星处接收到的来自中继节点Rm的信号可以表示为
Figure BDA0003873503470000054
因此t时刻第二时隙,卫星处接收到的由Rm中继转发的Un信号信噪比可表示为
Figure BDA0003873503470000055
Figure BDA0003873503470000056
Figure BDA0003873503470000057
其中
Figure BDA0003873503470000058
代表中继节点Rm处接收到的终端节点Un信号的信噪比;
Figure BDA0003873503470000059
代表仅仅考虑从中继节点Rm发送信号给卫星时,卫星处接收信噪比。
终端节点Un信号经过中继节点Rm的放大转发传输给卫星,可以实现的传输速率上限为:
Figure BDA0003873503470000061
其中
Figure BDA0003873503470000062
Figure BDA0003873503470000063
分别为终端节点与中继、中继与卫星之间的信噪比,
Figure BDA0003873503470000064
为t时刻中继节点Rm与终端节点Un之间的信道带宽。每个中继节点按照接入的终端节点需求比例将其带宽分配给各终端节点,即
Figure BDA0003873503470000065
其中Dn表示终端节点Un对传输速率的QoS需求,Di是所有Dn求和时候的索引,Bm代表中继节点Rm的下行链路具有的总带宽,
Figure BDA0003873503470000066
为t时刻各物联网终端节点Ui的中继选择结果。
在系统中的每一终端节点需要满足其物联网应用的最低QoS需求表示为
Figure BDA0003873503470000067
各终端节点能量利用率之和为
Figure BDA0003873503470000068
其中
Figure BDA0003873503470000069
为终端节点Un在t时刻的发送功率。
同时,考虑到切换所选的中继节点需要的协议信令代价,会导致通信开销。切换发生的次数可表示为
Figure BDA00038735034700000610
假设一次切换中的通信开销为η,则t-1时刻到t时刻系统切换代价可以表示为
Figure BDA00038735034700000611
因此系统总体的长期收益可表示为
Figure BDA00038735034700000612
综上所述,本发明所研究的中继节点选择与功率控制问题可以建模为如下优化问题
Figure BDA00038735034700000613
Figure BDA00038735034700000614
Figure BDA00038735034700000615
Figure BDA00038735034700000616
其中优化变量W和P分别表示各终端节点中继选择和功率控制结果。第一项约束表示任何终端节点都只能接入一个中继节点;第二项约束表示用户的传输速率需要达到其最低QoS要求。第三项约束表示为确保终端节点Un的传输质量,其信噪比应超过最低阈值δth,即SINRn≥δth,否则不会为此次传输分配资源,此次终端节点请求将被拒绝。
步骤二将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈,包括状态特征、动作空间、即时收益和神经网络结构的设计,具体如下:
2.1状态特征
每个物联网终端节点的状态包含其观察到的与中继节点选择与功率控制决策相关的环境信息,在本发明中,各终端节点节点为合作模式,通过协作选择更适合自身的中继节点,而将不适合自己的中继节点让出给更需要的终端节点。为实现协作,终端节点间需要建立交互。本发明令各终端节点在每一时间片汇报自身收益给卫星进行汇总,卫星汇总后广播此收益信息构成下一时刻各终端节点共享的全局状态。此机制的优势在于以较小的额外通信开销实现了各智能体共享状态,这一信息的交互有利于提高智能体间协同效果。各终端节点根据全局状态信息s和自身特征信息
Figure BDA00038735034700000711
进行决策。
2.1.1共享状态信息s
共享状态信息s=[Rt-T,…,Rt-1]包括之前T时刻各智能体即时收益构成的序列。其中Rt-1表示上一时刻各终端节点的即时收益,在t-1时刻由各终端节点智能体将其即时收益
Figure BDA0003873503470000071
通过上行链路汇总到卫星处,得到
Figure BDA0003873503470000072
并在下一时间片的开始由卫星广播给每个终端节点决策智能体。将各智能体收益的时序信息作为全局状态信息,有助于在不增加通信代价的前提下,学习其中蕴含的时序规律,潜在地挖掘各智能体决策规律,在一定程度上降低多智能体强化学习面临的环境不稳定难题。
2.1.2自身特征信息
Figure BDA0003873503470000073
各中继进行中继选择与功率控制还需考虑自身数据传输需求,因此智能体n的自身特征信息
Figure BDA0003873503470000074
需包含当前时刻终端节点的QoS需求
Figure BDA0003873503470000075
终端节点上一时刻动作
Figure BDA0003873503470000076
以及达到的即时收益
Figure BDA0003873503470000077
Figure BDA0003873503470000078
Figure BDA0003873503470000079
中包含此智能体t-1时刻的中继选择动作
Figure BDA00038735034700000710
有助于智能体了解上一时刻所选中继节点,从而保持上一时刻中继节点不变,降低切换中继节点所需付出的信令代价。
本发明所提出方法的状态空间并不包含信道质量,其主要原因在于:大规模终端节点的星地协作中继物联网场景中,存在终端节点-卫星、终端节点-中继、中继-卫星三类大量链路,通过信息交换或广播获取全局链路的CSI会导致较高的额外通信开销,降低了算法可行性。本发明所提算法并不依赖于CSI,而是通过上一时刻的即时收益这一环境反馈优化策略。每一时间片卫星只需广播各终端节点的即时收益向量R,相比于汇报并广播各链路的CSI,有效降低了所需通信量。
2.2动作空间
针对分布式物联网终端节点中继选择问题,令
Figure BDA0003873503470000081
表示覆盖终端节点Un的中继节点集合,因此中继选择的动作空间(即可选的动作集合)为
Figure BDA0003873503470000082
对于功率控制问题,每个终端节点可以在自身最大功率的限制下决定发送功率,可选功率集合为
Figure BDA0003873503470000083
功率控制的动作空间为
Figure BDA0003873503470000084
因此,智能体n的动作空间为
Figure BDA0003873503470000085
为方便后续多智能体训练,将动作a表示为独热(One-Hot)编码形式,并通过补零的方式将各智能体动作维度统一,即将所有不可选的中继节点对应的动作位置补为零。补零操作后,所有智能体的动作an统一为M×Np维的0,1元素组成的向量。
2.3即时收益
由于优化目标考虑了数据传输的能量利用率和中继切换代价,因此在终端节点Un的即时收益设计时也需要考虑到这两个部分。终端节点Un面对状态sn选择动作an的收益可以表示为rn=EE(sn,an)-price(sn,an),其中EE(sn,an)代表终端节点Un的能量利用率,price(sn,an)代表终端节点Un改变中继节点所需的切换代价。
终端节点Un的能量利用率可以表示为:
Figure BDA0003873503470000086
其中
Figure BDA0003873503470000087
为节点满足QoS需求的最低数据传输速率,如果QoS需求无法被满足,数据传输收益为0。
终端节点Un切换中继节点的代价可表示为
Figure BDA0003873503470000091
其中
Figure BDA0003873503470000092
为节点动作
Figure BDA0003873503470000093
在中继选择问题上的动作分量。
步骤三:通过自编码器得到终端的深层特征,从而计算终端之间的相似度,并通过聚类得到终端分组结果,具体过程为:
接入同一个中继的节点需要按需分配中继节点所属的带宽,因此有一定竞争关系,相互之间影响较为显著,而接入不同中继节点的物联网终端节点之间的影响较小。考虑到所面临条件相似的智能体倾向于选择相同的中继节点,相互影响更大,因此将节点之间中继选择的相似相作为加权平均场的权重。
物联网终端节点的中继节点选择问题受到自身数据传输QoS需求Dn、其到各中继节点的距离dn,m影响,且反映在历史决策
Figure BDA0003873503470000094
中,因此选择上述元素作为特征,并利用一段历史时间的决策结果,构成特征向量度量节点之间的相似度作为其接入相同中继节点的可能性依据,从而得到加权平均的权重。可表示为:
Figure BDA0003873503470000095
其中
Figure BDA0003873503470000096
表示之前Tsim时刻的中继节点选择的平均动作。
通过自编码器得到终端节点的深层语义特征hn,并利用余弦相似度计算终端节点间相似度矩阵
Figure BDA0003873503470000097
进一步,通过对相似度矩阵Sim进行K-means聚类得到各物联网终端节点的邻居划分
Figure BDA0003873503470000098
整体流程如下所示:
Figure BDA0003873503470000099
Figure BDA0003873503470000101
图3为进行终端节点相似性计算的自编码器网络结构示意图,其中稀疏自编码器包含编码和解码两个模块,编码模块可以表示为h=F(x)负责将特征x投影到低维空间得到深层特征h,
Figure BDA0003873503470000102
而解码模块则为o=G(h),将深层特征h重构为原始数据,即
Figure BDA0003873503470000103
其中
Figure BDA0003873503470000104
为自编码器的参数。为学习到终端节点的非线性语义特征,本发明采用多层神经网络构成的编码层与解码层,如图3所示。
网络训练的损失函数是输入特征与输出之间的重构损失,即
Figure BDA0003873503470000105
通过训练神经网络收敛后,将各终端节点的特征Cn输入神经网络的编码器,得到将深层特征hn,并以此深层特征利用余弦相似度计算终端节点间的相似度矩阵Sim=[simi,j]∈,
Figure BDA0003873503470000106
其中
Figure BDA0003873503470000107
利用Sim矩阵将平均场机制的平均动作计算公式改进为:
Figure BDA0003873503470000108
其中,各物联网终端节点的邻居划分
Figure BDA0003873503470000109
通过对相似度矩阵Sim进行K-means聚类得到。
步骤四:采用加权平均场深度强化学习方法,使各终端与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。具体过程为:
平均场机制的核心思想是将智能体与其他所有智能体之间的交互简化为其与周围邻居智能体的平均作用的交互,因而将N2次交互压缩为N次。其具体机制为将基于联合动作的Q值函数分解为智能体与其邻居平均场智能体双边交互的形式,即:
Figure BDA0003873503470000111
其中
Figure BDA0003873503470000112
为智能体n的邻居集合。分解后大幅降低了Q值函数的维度,并且保持了各智能体的交互作用。
由于在中继选择与功率控制的联合决策问题中,各终端节点是同构的,且动作a为one-hot编码,因此定义
Figure BDA0003873503470000113
为同群组中其他终端节点的平均动作,
Figure BDA0003873503470000114
各智能体两两相互作用的Q值函数Qn(s,a)可以进一步简化如下:
Figure BDA0003873503470000115
即对于每个智能体n,其与其他每个智能体的相互作用可以近似化简为智能体n与一个虚拟智能体的相互作用,此虚拟智能体代表所有邻居智能体的平均作用。
在训练过程中,可以通过以下公式更新Q值网络
Figure BDA0003873503470000116
其中,γ为折扣因子,α为设定的学习率,rn是第n个智能体的收益,s′为所有智能体选择动作后,产生的下一时刻状态。平均场V值函数
Figure BDA0003873503470000117
可以表示为
Figure BDA0003873503470000118
其中
Figure BDA0003873503470000119
分别是第n个智能体的策略和其他智能体的策略。
因此利用平均场近似,可将多智能体强化学习转化为求解中心智能体n的最佳策略πn的问题。所有智能体n邻居的平均动作
Figure BDA00038735034700001110
代表智能体n的所有相邻智能体对其的影响。将各智能体的平均场V值函数表示为
Figure BDA00038735034700001111
因此各智能体的Q值函数可以实现更新,即
Figure BDA00038735034700001112
其中r(s,a)为状态s下各智能体动作集合为a时各智能体的收益集合,P是求平均
Figure BDA00038735034700001114
过程中的概率分布。
每个智能体的训练采用DQN算法,神经网络表征的状态值函数
Figure BDA00038735034700001113
的更新公式可以表示为
Figure BDA0003873503470000121
Figure BDA0003873503470000122
其中
Figure BDA0003873503470000123
是状态s′的平均场V值函数,yn为状态值函数损失的计算过程。
在每次决策阶段,通过各动作的Q值可以得到各动作的选择概率,即策略
Figure BDA0003873503470000124
其中β为温度参数。通过迭代所有智能体的平均邻居动作
Figure BDA0003873503470000125
和本身的策略
Figure BDA0003873503470000126
交替优化。
通过上述公式可以迭代训练Q值网络直至收敛,使每个智能体学习到关于周围平均动作
Figure BDA0003873503470000127
的最优策略πn。从而使多个智能体达到纳什均衡。即
Figure BDA0003873503470000128
其中
Figure BDA0003873503470000129
表示除了智能体n外所有智能体的联合决策
Figure BDA00038735034700001210
Figure BDA00038735034700001211
是第n个智能体的最优策略,π*是所有智能体达到最优策略的集合。
与独立训练的MARL相比,平均场机制的核心优势在于其考虑了其他智能体动作对其的影响,因而保持了环境的平稳性,降低了智能体训练收敛的难度。
Figure BDA00038735034700001212
Figure BDA0003873503470000131
Figure BDA0003873503470000141
本发明所提出的MARL的中继选择算法,其Q值网络的整体结构如图4所示。其中时序历史信息状态作为Transformer模块的输入,而当前时刻的自身特征信息输入后通过全连接层抽取特征,并与时序信息特征进行拼接,从而使网络能同时感知时序全局状态信息和各智能体自身特征信息中蕴含的知识。Transformer模块结构如图4所示,借助与注意力机制,其可深入挖掘时序数据中的隐含信息。对比长短时记忆(Long Short-Term Memory,LSTM)等时序模型,更适合处理高维特征的时序数据。由于物联网终端节点规模庞大,因此即时收益向量构成的全局状态信息维度较高,采用Tranformer结构对其进行特征挖掘。例如当物联网终端节点数量N=240时,全局状态向量是240维特征的时序序列,普通LSTM很难对如此高维的特征进行有效学习。

Claims (5)

1.一种星地中继物联网大规模中继选择与功率控制方法,其特征在于包括如下步骤:
步骤一:分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;
步骤二:将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈;
步骤三:通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;
步骤四:采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。
2.根据权利要求1所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤一中分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题,具体过程为:
LEO星座提供数据回传服务,N个物联网终端节点组成集合
Figure FDA0003873503460000011
M个中继节点组成中继集合
Figure FDA0003873503460000012
令矩阵W=[wm,n],
Figure FDA0003873503460000013
表示终端节点的中继选择矩阵,其中wm,n∈{0,1},wm,n=1表示终端节点Un选择接入中继节点Rm;终端节点只能接入一个中继节点,而中继节点能够服务多个终端节点;
对于终端节点Un的功率控制问题,将连续的发送功率变量离散化处理为一系列功率水平。即终端节点在离散化的功率集合
Figure FDA0003873503460000014
中选择合适的发送功率,其中
Figure FDA0003873503460000015
为终端的Un的最大发送功率,Np为发送功率量化的档位数量;令矩阵P=[pk,n],
Figure FDA0003873503460000016
表示终端节点的功率控制方案,其中pk,n∈{0,1},若pk,n=1则代表终端节点Un选择第k个发送功率档位,终端的发送功率为
Figure FDA0003873503460000017
终端节点Un信号经过中继节点Rm的放大转发传输给卫星,实现传输速率的上限为:
Figure FDA0003873503460000018
其中
Figure FDA0003873503460000019
为卫星处接收到的由Rm中继转发的Un信号信噪比,
Figure FDA00038735034600000110
Figure FDA00038735034600000111
分别为终端节点与中继节点、中继节点与卫星之间的信噪比,
Figure FDA0003873503460000021
为t时刻中继节点Rm与终端节点Un之间的信道带宽;每个中继节点按照接入的终端节点需求比例将其带宽分配给各终端节点,即
Figure FDA0003873503460000022
其中Dn表示终端节点Un对传输速率的QoS需求,Bm代表中继节点Rm的下行链路具有的总带宽,
Figure FDA0003873503460000023
为t时刻各物联网终端节点Ui的中继选择结果;
各终端节点能量利用率之和为
Figure FDA0003873503460000024
其中
Figure FDA0003873503460000025
为终端节点Un在t时刻的发送功率;同时,考虑到切换所选的中继节点需要的协议信令代价,会导致通信开销;切换发生的次数表示为
Figure FDA0003873503460000026
假设一次切换中的通信开销为η,则t-1时刻到t时刻通信切换代价表示为
Figure FDA0003873503460000027
因此t时刻通信总体的长期收益可表示为
Figure FDA0003873503460000028
3.根据权利要求2所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤二将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈,将中继节点建模为智能体,包括状态特征、动作空间、即时收益和神经网络结构的设计,具体如下:
2.1状态特征
令各终端节点在每一时间片汇报自身收益给卫星进行汇总,卫星汇总后广播此收益信息构成下一时刻各终端节点共享的全局状态;各终端节点根据全局状态信息s和自身特征信息
Figure FDA0003873503460000029
进行决策;
2.1.1共享状态信息s
共享状态信息s=[Rt-T,…,Rt-1]包括之前t时刻各终端节点即时收益构成的序列;其中Rt-1表示上一时刻各终端节点的即时收益;在t-1时刻由各终端节点将其即时收益
Figure FDA00038735034600000210
通过上行链路汇总到卫星处,得到
Figure FDA00038735034600000211
并在下一时间片的开始由卫星广播给每个终端节点决策智能体,将各智能体收益的时序信息作为全局状态信息;
2.1.2自身特征信息
Figure FDA00038735034600000212
各中继节点进行中继选择与功率控制还需考虑自身数据传输需求,因此智能体n的自身特征信息
Figure FDA00038735034600000213
需包含当前时刻终端节点的QoS需求
Figure FDA00038735034600000214
终端节点上一时刻动作
Figure FDA00038735034600000215
以及达到的即时收益
Figure FDA0003873503460000031
Figure FDA0003873503460000032
Figure FDA0003873503460000033
中包含此智能体t-1时刻的中继选择动作
Figure FDA0003873503460000034
有助于智能体了解上一时刻所选中继节点,从而保持上一时刻中继节点不变,降低切换中继节点所需付出的信令代价;
2.2动作空间
针对分布式物联网终端节点中继选择问题,令
Figure FDA0003873503460000035
表示覆盖终端节点Un的中继节点集合,因此中继选择的动作空间为
Figure FDA0003873503460000036
对于功率控制问题,每个终端节点在自身最大功率的限制下决定发送功率,可选功率集合为
Figure FDA0003873503460000037
功率控制的动作空间为
Figure FDA0003873503460000038
因此,智能体n的动作空间为
Figure FDA0003873503460000039
将动作a表示为独热编码形式,并通过补零的方式将各智能体动作维度统一,即将所有不可选的中继节点对应的动作位置补为零;补零操作后,所有智能体的动作an统一为M×Np维的0,1元素组成的向量;
2.3即时收益
由于优化目标考虑了数据传输的能量利用率和中继切换代价,因此在终端节点Un的即时收益设计时也需要考虑到这两个部分;终端节点Un面对状态sn选择动作an的收益可以表示为rn=EE(sn,an)-price(sn,an),其中EE(sn,an)代表终端节点Un的能量利用率,price(sn,an)代表终端节点Un改变中继节点所需的切换代价;
终端节点Un的能量利用率表示为:
Figure FDA00038735034600000310
其中
Figure FDA00038735034600000311
为节点满足QoS需求的最低数据传输速率,如果QoS需求无法被满足,数据传输收益为0;
终端节点Un切换中继节点的代价表示为
Figure FDA00038735034600000312
其中
Figure FDA0003873503460000041
为节点动作
Figure FDA0003873503460000042
在中继选择问题上的动作分量。
4.根据权利要求3所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤三中通过自编码器得到终端的深层特征,从而计算终端之间的相似度,并通过聚类得到终端分组结果,具体过程为:
物联网终端节点的中继节点选择问题受到自身数据传输QoS需求Dn、其到各中继节点的距离dn,m影响,且反映在历史决策
Figure FDA0003873503460000043
中,因此选择上述元素作为特征,并利用一段历史时间的决策结果,构成特征向量度量节点之间的相似度作为其接入相同中继节点的可能性依据,从而得到加权平均的权重,表示为:
Figure FDA0003873503460000044
其中
Figure FDA0003873503460000045
表示之前Tsim时刻的中继节点选择的平均动作;
通过自编码器得到终端节点的深层语义特征hn,并利用余弦相似度计算终端节点间相似度矩阵
Figure FDA0003873503460000046
通过对相似度矩阵Sim进行K-means聚类得到各物联网智能体n的邻居划分
Figure FDA0003873503460000047
5.根据权利要求4所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤四中采用加权平均场深度强化学习方法,使各终端与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策,具体过程为:
将智能体与其他所有智能体之间的交互简化为其与周围邻居智能体的平均作用的交互,因而将N2次交互压缩为N次,具体机制为将基于联合动作的Q值函数分解为智能体与其邻居平均场智能体双边交互的形式,即:
Figure FDA0003873503460000048
其中
Figure FDA0003873503460000049
为智能体n的邻居集合;
由于在中继节点选择与功率控制的联合决策问题中,各终端节点是同构的,且动作a为独热编码,因此定义
Figure FDA00038735034600000410
为同群组中其他终端节点的平均动作,
Figure FDA00038735034600000411
各智能体两两相互作用的Q值函数Qn(s,a)进一步简化如下:
Figure FDA0003873503460000051
即对于每个智能体n,与其他每个智能体的相互作用近似化简为智能体n与一个虚拟智能体的相互作用,此虚拟智能体代表所有邻居智能体的平均作用;
在训练过程中,通过以下公式更新Q值网络
Figure FDA0003873503460000052
其中,γ为折扣因子,α为设定的学习率,rn是第n个智能体的收益,s′为所有智能体选择动作后,产生的下一时刻状态;平均场V值函数
Figure FDA0003873503460000053
表示为
Figure FDA0003873503460000054
其中
Figure FDA0003873503460000055
分别是第n个智能体的策略和其他智能体的策略;
利用平均场近似,将多智能体强化学习转化为求解中心智能体n的最佳策略πn的问题;所有智能体n邻居的平均动作
Figure FDA0003873503460000056
代表智能体n的所有相邻智能体对其的影响;将各智能体的平均场V值函数表示为
Figure FDA0003873503460000057
各智能体的Q值函数实现更新,即
Figure FDA0003873503460000058
其中r(s,a)为状态s下各智能体动作集合为a时各智能体的收益集合,P是求平均
Figure FDA0003873503460000059
过程中的概率分布;
每个智能体的训练采用DQN算法,神经网络表征的状态值函数
Figure FDA00038735034600000510
的更新公式表示为
Figure FDA00038735034600000511
Figure FDA00038735034600000512
其中
Figure FDA00038735034600000513
是状态s′的平均场V值函数;
在每次决策阶段,通过各动作的Q值得到各动作的选择概率,即策略
Figure FDA00038735034600000514
其中β为温度参数;通过迭代所有智能体的平均邻居动作
Figure FDA0003873503460000061
和本身的策略
Figure FDA0003873503460000062
交替优化;
通过上述公式迭代训练Q值网络直至收敛,使每个智能体学习到关于周围平均动作
Figure FDA0003873503460000063
的最优策略
Figure FDA0003873503460000064
从而使多个智能体达到纳什均衡,即
Figure FDA0003873503460000065
其中
Figure FDA0003873503460000066
表示除了智能体n外所有智能体的联合决策
Figure FDA0003873503460000067
Figure FDA0003873503460000068
是第n个智能体的最优策略,π*是所有智能体达到最优策略的集合。
CN202211205619.7A 2022-09-30 2022-09-30 一种星地中继物联网大规模中继选择与功率控制方法 Pending CN115589250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211205619.7A CN115589250A (zh) 2022-09-30 2022-09-30 一种星地中继物联网大规模中继选择与功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211205619.7A CN115589250A (zh) 2022-09-30 2022-09-30 一种星地中继物联网大规模中继选择与功率控制方法

Publications (1)

Publication Number Publication Date
CN115589250A true CN115589250A (zh) 2023-01-10

Family

ID=84778115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211205619.7A Pending CN115589250A (zh) 2022-09-30 2022-09-30 一种星地中继物联网大规模中继选择与功率控制方法

Country Status (1)

Country Link
CN (1) CN115589250A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117279072A (zh) * 2023-11-20 2023-12-22 上海卫星互联网研究院有限公司 终端接入方法及装置
CN117914378A (zh) * 2023-12-12 2024-04-19 深圳市物联微电子有限公司 一种5g直放站信号处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
US20210258988A1 (en) * 2018-09-28 2021-08-19 Intel Corporation System and method using collaborative learning of interference environment and network topology for autonomous spectrum sharing
CN114567365A (zh) * 2022-02-16 2022-05-31 北京电子科技学院 一种低轨卫星网络负载均衡的路由方法及系统
CN114599099A (zh) * 2022-03-08 2022-06-07 南京航空航天大学 一种基于强化学习的5g星地链路多波束动态功率分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210258988A1 (en) * 2018-09-28 2021-08-19 Intel Corporation System and method using collaborative learning of interference environment and network topology for autonomous spectrum sharing
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN114567365A (zh) * 2022-02-16 2022-05-31 北京电子科技学院 一种低轨卫星网络负载均衡的路由方法及系统
CN114599099A (zh) * 2022-03-08 2022-06-07 南京航空航天大学 一种基于强化学习的5g星地链路多波束动态功率分配方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117279072A (zh) * 2023-11-20 2023-12-22 上海卫星互联网研究院有限公司 终端接入方法及装置
CN117279072B (zh) * 2023-11-20 2024-02-23 上海卫星互联网研究院有限公司 终端接入方法及装置
CN117914378A (zh) * 2023-12-12 2024-04-19 深圳市物联微电子有限公司 一种5g直放站信号处理方法及系统
CN117914378B (zh) * 2023-12-12 2024-06-18 深圳市物联微电子有限公司 一种5g直放站信号处理方法及系统

Similar Documents

Publication Publication Date Title
CN115589250A (zh) 一种星地中继物联网大规模中继选择与功率控制方法
Piovesan et al. Joint load control and energy sharing for renewable powered small base stations: A machine learning approach
CN113613273A (zh) 一种智能超表面辅助无线供电网络的稳健能效优化方法
CN110381161B (zh) 电力物联网系统中基于博弈论的资源调度方法
CN115941017A (zh) 基于多智能体强化学习的物联网通信资源联合分配方法
Guo et al. Predictive resource allocation with deep learning
CN117914390B (zh) 基于多智能体强化学习的低轨卫星波束规划系统及方法
CN116546624B (zh) 跳波卫星业务预测与多维链路动态资源分配方法及装置
CN115483964B (zh) 一种空天地一体化物联网通信资源联合分配方法
Yuan et al. Joint Multi-Ground-User Edge Caching Resource Allocation for Cache-Enabled High-Low-Altitude-Platforms Integrated Network
CN115412156B (zh) 一种面向城市监测的卫星携能物联网资源优化分配方法
CN112188502B (zh) 一种变电站监控中前后端协同通信的资源分配方法
You et al. Distributed deep learning for RIS aided UAV-D2D communications in space-air-ground networks
CN115173926A (zh) 基于拍卖机制的星地融合中继网络的通信方法和通信系统
CN114340003A (zh) 一种基于博弈竞价机制的无线网络分簇异构优化系统
Jung et al. Renewable energy-enabled cellular networks
Sharifi et al. Deep reinforcement learning approach for HAPS user scheduling in massive MIMO communications
CN109219069B (zh) 基于多运营商合作的绿色回程网络的能源分配和定价方法
Wang et al. Autonomous learning based proactive deployment for UAV assisted wireless networks
CN115629540A (zh) 一种基于元强化学习的卫星物联网在线资源联合分配方法
Duo et al. UAV‐aided distribution line inspection using double‐layer offloading mechanism
CN117395690B (zh) 基于人工智能的高功率密度5g基站能源管理系统
KR102661899B1 (ko) 신재생에너지 발전량 예측 장치 및 방법
Fernandez Gambin Energy Management Strategies for Sustainable 5G Mobile Networks
Li et al. Time‐space‐power allocation for enhanced IoT‐terminal services in cognitive satellite‐aerial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination