CN115589250A - 一种星地中继物联网大规模中继选择与功率控制方法 - Google Patents
一种星地中继物联网大规模中继选择与功率控制方法 Download PDFInfo
- Publication number
- CN115589250A CN115589250A CN202211205619.7A CN202211205619A CN115589250A CN 115589250 A CN115589250 A CN 115589250A CN 202211205619 A CN202211205619 A CN 202211205619A CN 115589250 A CN115589250 A CN 115589250A
- Authority
- CN
- China
- Prior art keywords
- relay
- node
- terminal
- agent
- terminal node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000009471 action Effects 0.000 claims abstract description 58
- 230000003993 interaction Effects 0.000 claims abstract description 25
- 230000006854 communication Effects 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 230000002787 reinforcement Effects 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 118
- 230000005540 biological transmission Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008901 benefit Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 230000011664 signaling Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 230000002146 bilateral effect Effects 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000009916 joint effect Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005562 fading Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Aviation & Aerospace Engineering (AREA)
- Astronomy & Astrophysics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Radio Relay Systems (AREA)
Abstract
一种星地中继物联网大规模中继选择与功率控制方法,属于卫星通信领域。分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;将各个终端节点的决策过程建模为马尔可夫博弈;通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。本发明利用终端节点间相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互,大幅降低了联合动作维度,提高了多智能体强化学习的收敛效果与收敛效率。
Description
技术领域
本发明属于卫星通信领域,尤其涉及一种基于加权平均场强化学习的星地中继物联网大规模中继选择与功率控制方法。
背景技术
以小型化、低功耗、低成本为特点的物联网终端节点往往难以满足与卫星直接通信的要求,因此对于终端节点分布较为密集的地面区域,为降低物联网终端节点的发送功率门槛,降低终端节点能耗,可部署地面中继辅助物联网终端节点与卫星之间的数据传输。中继机制的优势在于降低了物联网终端节点制造成本与维护成本,一方面,考虑到在终端节点太阳能电池具有额定循环次数,中继机制能有效降低其功耗从而延长终端节点寿命;另一方面,终端节点不需要具备较强的太阳能电池,故障率低,运维人员只需要定期检查中继节点的太阳能供电装置是否正常工作,降低了维护工作量。现有的星地中继物联网场景下中继选择与资源分配方法存在以下不足:
(1)大多数研究基于全局的信道状态信息已知并且在较长一段时间稳定的假设。但在实际系统中,星地之间的通信信道受天气(降雨、降雪)、开放空间干扰等因素影响较大,呈现动态波动的特点;且由于卫星通信链路较长,反馈的CSI容易由于时延而过期。因此,在卫星物联网场景中已知全局实时准确的CSI这一前提难以满足。
(2)难以高效协调大规模终端节点的中继节点选择与资源分配决策。地面网络的覆盖范围往往是千米级别,但卫星网络覆盖范围达到数千千米级别。由于覆盖范围较广,物联网节点数量众多,且应用类型不同。现有基于优化或启发式方法的研究工作,其求解所需时间随终端节点规模成倍甚至指数倍增长。因此,连接节点的海量性,给现有的中继选择和资源分配的方法带来巨大挑战。
(3)卫星传播延迟较大,且终端节点数量庞大,不适合采用集中式控制机制。
多智能体强化学习将各终端节点视为智能体分布式决策,不依赖事先已知准确的信道质量信息或对信道模型的准确建模,而是通过环境反馈优化序列决策的策略,被认为是应对星地中继物联网中动态通信环境问题的有效途径。但现有基于多智能体强化学习的方法大多采用智能体独立优化策略的机制,忽略了智能体间相互影响。随着终端节点规模的增加,各智能体间互相影响显著增加,不考虑其他终端节点决策独立优化策略的智能体面临严重的环境不稳定问题,因而难以收敛。
发明内容
本发明提供了一种星地中继物联网大规模中继选择与功率控制方法,利用自编码器学习终端节点特征并计算终端节点间相似度,利用相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互,大幅降低了联合动作维度,提高了多智能体强化学习的收敛效果与收敛效率。
一种星地中继物联网大规模中继选择与功率控制方法,包括如下步骤:
步骤一:分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;
步骤二:将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈;
步骤三:通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;
步骤四:采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。
本发明采用上述技术方案,与现有技术相比具有如下优点:
1、考虑到卫星物联网场景下终端节点规模庞大,利用自编码器学习终端节点特征并计算终端节点间相似度,利用相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互,大幅降低了联合动作维度,提高了多智能体强化学习的收敛效果与收敛效率。
2、对星地中继物联网中终端节点的上行链路接入过程进行建模,包括中继选择与功率控制。首先,考虑到偏远地区物联网终端节点通常采用电池或太阳能机制进行供电,能量有限,将终端节点能量利用率作为优化目标之一。其次,由于切换中继需付出协调信令开销,本发明考虑中继切换导致的切换代价。最后,由于不同物联网应用具有不同的QoS需求,中继选择与功率控制策略需要满足异构卫星物联网终端节点的QoS约束。此模型有助于在满足多样传输需求的基础上,延长野外物联网终端节点的寿命。
3、以较低通信量同步全局状态,提高各智能体协同效果。一方面,令各智能体仅汇报上一时刻即时收益,并借助卫星广播能力,以较低通信开销在智能体间同步全局状态,使智能体了解其他智能体信息;另一方面,在决策过程中,各智能体通过Transformer模块学习时序全局状态信息中蕴含的其他智能体决策规律,进一步提高了协同能力。利用这两种机制以较低额外通信代价,促进了智能体间的合作协同。
附图说明
图1是本发明的应用场景即星地中继物联网场景的示意图;
图2是本发明场景下星地中继传输流程示意图;
图3是本发明进行终端节点相似性计算的自编码器网络结构;
图4是Q值神经网络结构图。
具体实施方式
下面对本发明的技术方案进行详细说明:
一种星地中继物联网大规模中继选择与功率控制方法,包括如下步骤:
步骤一:分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;
步骤二:将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈;
步骤三:通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;
步骤四:采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。
步骤一中分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题,具体过程为:
如图1所示,LEO星座提供物联网数据回传服务,N个物联网终端节点组成集合M个中继节点组成中继集合由于物联网应用主要利用上行链路进行数据传输,本发明重点关注上行链路。系统运行过程可离散为包含相等时间片的时间序列
中继节点对卫星的信号发送功率恒定不变,且不同类型的中继节点发送功率不同。各终端节点由于业务应用不同,对数据传输速率具有不同的QoS需求。令矩阵W=[wm,n],表示终端节点的中继选择矩阵,其中wm,n∈{0,1},wm,n=1表示终端节点Un选择接入中继节点Rm。终端节点只能接入一个中继节点,而中继节点可以服务多个终端节点。
对于终端节点Un的功率控制问题,本发明将连续的发送功率变量离散化处理为一系列功率水平。即终端节点可以在离散化的功率集合中选择合适的发送功率,其中为终端的Un的最大发送功率,Np为发送功率量化的档位数量。令矩阵P=[pk,n],表示终端节点的功率控制方案,其中pk,n∈{0,1},若pk,n=1则代表终端节点Un选择第k个发送功率档位,终端的发送功率为
卫星信道也是无线信道的一种,因此需要考虑无线信道的大尺度衰落与小尺度衰落,其信道增益可以表示为:其中表示卫星与中继节点Rm链路上的小尺度衰落,服从阴影莱斯分布;GLm,S包含卫星与中继节点Rm之间的自由空间损失、发送增益与接收增益,可表示为:
其中λc为载波波长,表示t时刻中继节点Rm与卫星之间的距离,θm,S表示中继节点Rm与卫星之间的链路与卫星波束中心点间的夹角,GS(θm,S)表示卫星接收天线增益,Gm表示中继节点Rm的发送天线增益。
终端节点Un到中继节点Rm之间的地面无线信道增益可以表示为
地面物联网终端节点到卫星的通信过程如图2所示,可分为三个阶段。
第一阶段为决策阶段,通过中继选择与功率控制算法选择接入的中继节点和终端节点发送功率;第二阶段为接入中继阶段,若第一次进行接入或发生中继切换,则需要与中继通信建立数据传输,第三阶段则是数据传输阶段,分为两个时隙。
第一个时隙中,地面物联网终端节点Un发送数据给选定的中继节点Rm。中继节点Rm接收到的终端节点节点Un发送的信号为
在数据传输的第二时隙,被选择的中继节点Rm直接对收到的信号进行放大并发送给卫星,其放大因子可以表示为
卫星处接收到的来自中继节点Rm的信号可以表示为
因此t时刻第二时隙,卫星处接收到的由Rm中继转发的Un信号信噪比可表示为
终端节点Un信号经过中继节点Rm的放大转发传输给卫星,可以实现的传输速率上限为:
其中和分别为终端节点与中继、中继与卫星之间的信噪比,为t时刻中继节点Rm与终端节点Un之间的信道带宽。每个中继节点按照接入的终端节点需求比例将其带宽分配给各终端节点,即其中Dn表示终端节点Un对传输速率的QoS需求,Di是所有Dn求和时候的索引,Bm代表中继节点Rm的下行链路具有的总带宽,为t时刻各物联网终端节点Ui的中继选择结果。
在系统中的每一终端节点需要满足其物联网应用的最低QoS需求表示为
各终端节点能量利用率之和为
综上所述,本发明所研究的中继节点选择与功率控制问题可以建模为如下优化问题
其中优化变量W和P分别表示各终端节点中继选择和功率控制结果。第一项约束表示任何终端节点都只能接入一个中继节点;第二项约束表示用户的传输速率需要达到其最低QoS要求。第三项约束表示为确保终端节点Un的传输质量,其信噪比应超过最低阈值δth,即SINRn≥δth,否则不会为此次传输分配资源,此次终端节点请求将被拒绝。
步骤二将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈,包括状态特征、动作空间、即时收益和神经网络结构的设计,具体如下:
2.1状态特征
每个物联网终端节点的状态包含其观察到的与中继节点选择与功率控制决策相关的环境信息,在本发明中,各终端节点节点为合作模式,通过协作选择更适合自身的中继节点,而将不适合自己的中继节点让出给更需要的终端节点。为实现协作,终端节点间需要建立交互。本发明令各终端节点在每一时间片汇报自身收益给卫星进行汇总,卫星汇总后广播此收益信息构成下一时刻各终端节点共享的全局状态。此机制的优势在于以较小的额外通信开销实现了各智能体共享状态,这一信息的交互有利于提高智能体间协同效果。各终端节点根据全局状态信息s和自身特征信息进行决策。
2.1.1共享状态信息s
共享状态信息s=[Rt-T,…,Rt-1]包括之前T时刻各智能体即时收益构成的序列。其中Rt-1表示上一时刻各终端节点的即时收益,在t-1时刻由各终端节点智能体将其即时收益通过上行链路汇总到卫星处,得到并在下一时间片的开始由卫星广播给每个终端节点决策智能体。将各智能体收益的时序信息作为全局状态信息,有助于在不增加通信代价的前提下,学习其中蕴含的时序规律,潜在地挖掘各智能体决策规律,在一定程度上降低多智能体强化学习面临的环境不稳定难题。
本发明所提出方法的状态空间并不包含信道质量,其主要原因在于:大规模终端节点的星地协作中继物联网场景中,存在终端节点-卫星、终端节点-中继、中继-卫星三类大量链路,通过信息交换或广播获取全局链路的CSI会导致较高的额外通信开销,降低了算法可行性。本发明所提算法并不依赖于CSI,而是通过上一时刻的即时收益这一环境反馈优化策略。每一时间片卫星只需广播各终端节点的即时收益向量R,相比于汇报并广播各链路的CSI,有效降低了所需通信量。
2.2动作空间
因此,智能体n的动作空间为为方便后续多智能体训练,将动作a表示为独热(One-Hot)编码形式,并通过补零的方式将各智能体动作维度统一,即将所有不可选的中继节点对应的动作位置补为零。补零操作后,所有智能体的动作an统一为M×Np维的0,1元素组成的向量。
2.3即时收益
由于优化目标考虑了数据传输的能量利用率和中继切换代价,因此在终端节点Un的即时收益设计时也需要考虑到这两个部分。终端节点Un面对状态sn选择动作an的收益可以表示为rn=EE(sn,an)-price(sn,an),其中EE(sn,an)代表终端节点Un的能量利用率,price(sn,an)代表终端节点Un改变中继节点所需的切换代价。
终端节点Un的能量利用率可以表示为:
终端节点Un切换中继节点的代价可表示为
步骤三:通过自编码器得到终端的深层特征,从而计算终端之间的相似度,并通过聚类得到终端分组结果,具体过程为:
接入同一个中继的节点需要按需分配中继节点所属的带宽,因此有一定竞争关系,相互之间影响较为显著,而接入不同中继节点的物联网终端节点之间的影响较小。考虑到所面临条件相似的智能体倾向于选择相同的中继节点,相互影响更大,因此将节点之间中继选择的相似相作为加权平均场的权重。
物联网终端节点的中继节点选择问题受到自身数据传输QoS需求Dn、其到各中继节点的距离dn,m影响,且反映在历史决策中,因此选择上述元素作为特征,并利用一段历史时间的决策结果,构成特征向量度量节点之间的相似度作为其接入相同中继节点的可能性依据,从而得到加权平均的权重。可表示为:其中表示之前Tsim时刻的中继节点选择的平均动作。
图3为进行终端节点相似性计算的自编码器网络结构示意图,其中稀疏自编码器包含编码和解码两个模块,编码模块可以表示为h=F(x)负责将特征x投影到低维空间得到深层特征h,
而解码模块则为o=G(h),将深层特征h重构为原始数据,即
网络训练的损失函数是输入特征与输出之间的重构损失,即
利用Sim矩阵将平均场机制的平均动作计算公式改进为:
步骤四:采用加权平均场深度强化学习方法,使各终端与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。具体过程为:
平均场机制的核心思想是将智能体与其他所有智能体之间的交互简化为其与周围邻居智能体的平均作用的交互,因而将N2次交互压缩为N次。其具体机制为将基于联合动作的Q值函数分解为智能体与其邻居平均场智能体双边交互的形式,即:
各智能体两两相互作用的Q值函数Qn(s,a)可以进一步简化如下:
即对于每个智能体n,其与其他每个智能体的相互作用可以近似化简为智能体n与一个虚拟智能体的相互作用,此虚拟智能体代表所有邻居智能体的平均作用。
在训练过程中,可以通过以下公式更新Q值网络
因此利用平均场近似,可将多智能体强化学习转化为求解中心智能体n的最佳策略πn的问题。所有智能体n邻居的平均动作代表智能体n的所有相邻智能体对其的影响。将各智能体的平均场V值函数表示为因此各智能体的Q值函数可以实现更新,即
在每次决策阶段,通过各动作的Q值可以得到各动作的选择概率,即策略
通过上述公式可以迭代训练Q值网络直至收敛,使每个智能体学习到关于周围平均动作的最优策略πn。从而使多个智能体达到纳什均衡。即其中表示除了智能体n外所有智能体的联合决策 是第n个智能体的最优策略,π*是所有智能体达到最优策略的集合。
与独立训练的MARL相比,平均场机制的核心优势在于其考虑了其他智能体动作对其的影响,因而保持了环境的平稳性,降低了智能体训练收敛的难度。
本发明所提出的MARL的中继选择算法,其Q值网络的整体结构如图4所示。其中时序历史信息状态作为Transformer模块的输入,而当前时刻的自身特征信息输入后通过全连接层抽取特征,并与时序信息特征进行拼接,从而使网络能同时感知时序全局状态信息和各智能体自身特征信息中蕴含的知识。Transformer模块结构如图4所示,借助与注意力机制,其可深入挖掘时序数据中的隐含信息。对比长短时记忆(Long Short-Term Memory,LSTM)等时序模型,更适合处理高维特征的时序数据。由于物联网终端节点规模庞大,因此即时收益向量构成的全局状态信息维度较高,采用Tranformer结构对其进行特征挖掘。例如当物联网终端节点数量N=240时,全局状态向量是240维特征的时序序列,普通LSTM很难对如此高维的特征进行有效学习。
Claims (5)
1.一种星地中继物联网大规模中继选择与功率控制方法,其特征在于包括如下步骤:
步骤一:分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题;
步骤二:将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈;
步骤三:通过自编码器得到终端节点的深层特征,从而计算终端节点之间的相似度,并通过聚类得到终端节点分组结果;
步骤四:采用加权平均场深度强化学习方法,使各终端节点与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。
2.根据权利要求1所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤一中分析星地中继物联网场景,并定义大规模终端节点上行链路的中继选择与功率控制问题,具体过程为:
LEO星座提供数据回传服务,N个物联网终端节点组成集合M个中继节点组成中继集合令矩阵W=[wm,n],表示终端节点的中继选择矩阵,其中wm,n∈{0,1},wm,n=1表示终端节点Un选择接入中继节点Rm;终端节点只能接入一个中继节点,而中继节点能够服务多个终端节点;
对于终端节点Un的功率控制问题,将连续的发送功率变量离散化处理为一系列功率水平。即终端节点在离散化的功率集合中选择合适的发送功率,其中为终端的Un的最大发送功率,Np为发送功率量化的档位数量;令矩阵P=[pk,n],表示终端节点的功率控制方案,其中pk,n∈{0,1},若pk,n=1则代表终端节点Un选择第k个发送功率档位,终端的发送功率为
终端节点Un信号经过中继节点Rm的放大转发传输给卫星,实现传输速率的上限为:
其中为卫星处接收到的由Rm中继转发的Un信号信噪比,和分别为终端节点与中继节点、中继节点与卫星之间的信噪比,为t时刻中继节点Rm与终端节点Un之间的信道带宽;每个中继节点按照接入的终端节点需求比例将其带宽分配给各终端节点,即其中Dn表示终端节点Un对传输速率的QoS需求,Bm代表中继节点Rm的下行链路具有的总带宽,为t时刻各物联网终端节点Ui的中继选择结果;
各终端节点能量利用率之和为其中为终端节点Un在t时刻的发送功率;同时,考虑到切换所选的中继节点需要的协议信令代价,会导致通信开销;切换发生的次数表示为假设一次切换中的通信开销为η,则t-1时刻到t时刻通信切换代价表示为
3.根据权利要求2所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤二将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈,将中继节点建模为智能体,包括状态特征、动作空间、即时收益和神经网络结构的设计,具体如下:
2.1状态特征
2.1.1共享状态信息s
共享状态信息s=[Rt-T,…,Rt-1]包括之前t时刻各终端节点即时收益构成的序列;其中Rt-1表示上一时刻各终端节点的即时收益;在t-1时刻由各终端节点将其即时收益通过上行链路汇总到卫星处,得到并在下一时间片的开始由卫星广播给每个终端节点决策智能体,将各智能体收益的时序信息作为全局状态信息;
2.2动作空间
因此,智能体n的动作空间为将动作a表示为独热编码形式,并通过补零的方式将各智能体动作维度统一,即将所有不可选的中继节点对应的动作位置补为零;补零操作后,所有智能体的动作an统一为M×Np维的0,1元素组成的向量;
2.3即时收益
由于优化目标考虑了数据传输的能量利用率和中继切换代价,因此在终端节点Un的即时收益设计时也需要考虑到这两个部分;终端节点Un面对状态sn选择动作an的收益可以表示为rn=EE(sn,an)-price(sn,an),其中EE(sn,an)代表终端节点Un的能量利用率,price(sn,an)代表终端节点Un改变中继节点所需的切换代价;
终端节点Un的能量利用率表示为:
终端节点Un切换中继节点的代价表示为
4.根据权利要求3所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤三中通过自编码器得到终端的深层特征,从而计算终端之间的相似度,并通过聚类得到终端分组结果,具体过程为:
物联网终端节点的中继节点选择问题受到自身数据传输QoS需求Dn、其到各中继节点的距离dn,m影响,且反映在历史决策中,因此选择上述元素作为特征,并利用一段历史时间的决策结果,构成特征向量度量节点之间的相似度作为其接入相同中继节点的可能性依据,从而得到加权平均的权重,表示为:其中表示之前Tsim时刻的中继节点选择的平均动作;
5.根据权利要求4所述的星地中继物联网大规模中继选择与功率控制方法,其特征在于上述步骤四中采用加权平均场深度强化学习方法,使各终端与环境交互,并在邻居节点间通信其动作,各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策,具体过程为:
将智能体与其他所有智能体之间的交互简化为其与周围邻居智能体的平均作用的交互,因而将N2次交互压缩为N次,具体机制为将基于联合动作的Q值函数分解为智能体与其邻居平均场智能体双边交互的形式,即:
各智能体两两相互作用的Q值函数Qn(s,a)进一步简化如下:
即对于每个智能体n,与其他每个智能体的相互作用近似化简为智能体n与一个虚拟智能体的相互作用,此虚拟智能体代表所有邻居智能体的平均作用;
在训练过程中,通过以下公式更新Q值网络
利用平均场近似,将多智能体强化学习转化为求解中心智能体n的最佳策略πn的问题;所有智能体n邻居的平均动作代表智能体n的所有相邻智能体对其的影响;将各智能体的平均场V值函数表示为各智能体的Q值函数实现更新,即
在每次决策阶段,通过各动作的Q值得到各动作的选择概率,即策略
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211205619.7A CN115589250A (zh) | 2022-09-30 | 2022-09-30 | 一种星地中继物联网大规模中继选择与功率控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211205619.7A CN115589250A (zh) | 2022-09-30 | 2022-09-30 | 一种星地中继物联网大规模中继选择与功率控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115589250A true CN115589250A (zh) | 2023-01-10 |
Family
ID=84778115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211205619.7A Pending CN115589250A (zh) | 2022-09-30 | 2022-09-30 | 一种星地中继物联网大规模中继选择与功率控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115589250A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117279072A (zh) * | 2023-11-20 | 2023-12-22 | 上海卫星互联网研究院有限公司 | 终端接入方法及装置 |
CN117914378A (zh) * | 2023-12-12 | 2024-04-19 | 深圳市物联微电子有限公司 | 一种5g直放站信号处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111885671A (zh) * | 2020-07-17 | 2020-11-03 | 燕山大学 | 一种基于深度强化学习的水下联合中继选择和功率分配方法 |
US20210258988A1 (en) * | 2018-09-28 | 2021-08-19 | Intel Corporation | System and method using collaborative learning of interference environment and network topology for autonomous spectrum sharing |
CN114567365A (zh) * | 2022-02-16 | 2022-05-31 | 北京电子科技学院 | 一种低轨卫星网络负载均衡的路由方法及系统 |
CN114599099A (zh) * | 2022-03-08 | 2022-06-07 | 南京航空航天大学 | 一种基于强化学习的5g星地链路多波束动态功率分配方法 |
-
2022
- 2022-09-30 CN CN202211205619.7A patent/CN115589250A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210258988A1 (en) * | 2018-09-28 | 2021-08-19 | Intel Corporation | System and method using collaborative learning of interference environment and network topology for autonomous spectrum sharing |
CN111885671A (zh) * | 2020-07-17 | 2020-11-03 | 燕山大学 | 一种基于深度强化学习的水下联合中继选择和功率分配方法 |
CN114567365A (zh) * | 2022-02-16 | 2022-05-31 | 北京电子科技学院 | 一种低轨卫星网络负载均衡的路由方法及系统 |
CN114599099A (zh) * | 2022-03-08 | 2022-06-07 | 南京航空航天大学 | 一种基于强化学习的5g星地链路多波束动态功率分配方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117279072A (zh) * | 2023-11-20 | 2023-12-22 | 上海卫星互联网研究院有限公司 | 终端接入方法及装置 |
CN117279072B (zh) * | 2023-11-20 | 2024-02-23 | 上海卫星互联网研究院有限公司 | 终端接入方法及装置 |
CN117914378A (zh) * | 2023-12-12 | 2024-04-19 | 深圳市物联微电子有限公司 | 一种5g直放站信号处理方法及系统 |
CN117914378B (zh) * | 2023-12-12 | 2024-06-18 | 深圳市物联微电子有限公司 | 一种5g直放站信号处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115589250A (zh) | 一种星地中继物联网大规模中继选择与功率控制方法 | |
Piovesan et al. | Joint load control and energy sharing for renewable powered small base stations: A machine learning approach | |
CN113613273A (zh) | 一种智能超表面辅助无线供电网络的稳健能效优化方法 | |
CN110381161B (zh) | 电力物联网系统中基于博弈论的资源调度方法 | |
CN115941017A (zh) | 基于多智能体强化学习的物联网通信资源联合分配方法 | |
Guo et al. | Predictive resource allocation with deep learning | |
CN117914390B (zh) | 基于多智能体强化学习的低轨卫星波束规划系统及方法 | |
CN116546624B (zh) | 跳波卫星业务预测与多维链路动态资源分配方法及装置 | |
CN115483964B (zh) | 一种空天地一体化物联网通信资源联合分配方法 | |
Yuan et al. | Joint Multi-Ground-User Edge Caching Resource Allocation for Cache-Enabled High-Low-Altitude-Platforms Integrated Network | |
CN115412156B (zh) | 一种面向城市监测的卫星携能物联网资源优化分配方法 | |
CN112188502B (zh) | 一种变电站监控中前后端协同通信的资源分配方法 | |
You et al. | Distributed deep learning for RIS aided UAV-D2D communications in space-air-ground networks | |
CN115173926A (zh) | 基于拍卖机制的星地融合中继网络的通信方法和通信系统 | |
CN114340003A (zh) | 一种基于博弈竞价机制的无线网络分簇异构优化系统 | |
Jung et al. | Renewable energy-enabled cellular networks | |
Sharifi et al. | Deep reinforcement learning approach for HAPS user scheduling in massive MIMO communications | |
CN109219069B (zh) | 基于多运营商合作的绿色回程网络的能源分配和定价方法 | |
Wang et al. | Autonomous learning based proactive deployment for UAV assisted wireless networks | |
CN115629540A (zh) | 一种基于元强化学习的卫星物联网在线资源联合分配方法 | |
Duo et al. | UAV‐aided distribution line inspection using double‐layer offloading mechanism | |
CN117395690B (zh) | 基于人工智能的高功率密度5g基站能源管理系统 | |
KR102661899B1 (ko) | 신재생에너지 발전량 예측 장치 및 방법 | |
Fernandez Gambin | Energy Management Strategies for Sustainable 5G Mobile Networks | |
Li et al. | Time‐space‐power allocation for enhanced IoT‐terminal services in cognitive satellite‐aerial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |