CN113162682A - 一种基于pd-noma的多波束leo卫星系统资源分配方法 - Google Patents
一种基于pd-noma的多波束leo卫星系统资源分配方法 Download PDFInfo
- Publication number
- CN113162682A CN113162682A CN202110522431.4A CN202110522431A CN113162682A CN 113162682 A CN113162682 A CN 113162682A CN 202110522431 A CN202110522431 A CN 202110522431A CN 113162682 A CN113162682 A CN 113162682A
- Authority
- CN
- China
- Prior art keywords
- user
- satellite
- time slot
- gain
- resource allocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/242—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/243—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/046—Wireless resource allocation based on the type of the allocated resource the resource being in the space domain, e.g. beams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明涉及一种基于PD‑NOMA的多波束LEO卫星系统资源分配方法,属于卫星通信技术领域,在多波束LEO卫星系统下行传输场景中,引入PD‑NOMA技术,同时考虑波束间与波束内干扰,在卫星发射功率和用户QoS的约束下,联合子信道和功率分配来优化多波束LEO系统吞吐量,针对固定‑贪婪策略无法适应动态变化的学习过程的问题,采用状态值函数的差异动态调整动作的探索率,并设置双重经验回放池,加速神经网络的学习过程。本发明提出的卫星资源分配方法可以加速神经网络的收敛,在不同发射功率和传输速率条件下,能有效地提高系统的吞吐量。
Description
技术领域
本发明属于属于卫星通信技术领域,涉及一种基于PD-NOMA的多波束LEO卫星系统资源分配方法。
背景技术
卫星系统以其覆盖范围广,不受地面条件约束,已经作为Beyond5G和6G通信的主要技术手段之一,其中LEO卫星由于具有低功耗、低传输时延的优势得到了广泛的关注,为了服务大量的地面用户设备,LEO卫星通常会采用星载多波束天线技术来实现通信空间隔离与频率资源复用。资源分配技术是卫星系统无线资源管理的关键技术之一,通过灵活地调度和分配卫星系统中的信道、带宽和功率等资源,来提高卫星系统性能,实现资源利用率的最大化。
为了实现LEO卫星多用户信号的传输,采用诸如频分多址、时分多址等各式的多址接入技术,这些技术将多用户的信号分配在正交的资源块上,一个时频资源块只能分配给一个用户使用。但是卫星频谱资源有限,且随着地面设备数量的增长,传统多址接入技术无法支持下一代无线通信爆炸式的数据流和大规模连接,为了满足通信需求的增长,作为5G网络应对海量用户的技术之一,NOMA允许多个用户同时使用相同的时频资源块,相较于OMA能够有效地提高系统频谱利用率和吞吐量,其中PD-NOMA通过不同的功率大小来区分多用户信号,实现简单,应用场景灵活,因其优越的性能,近年来PD-NOMA技术在卫星通信领域的应用引起了广泛的关注。
PD-NOMA技术在同一个时频资源块中叠加多个用户的数据,利用不同功率水平进行区分,接收端采用SIC技术来消除部分干扰,但是先解码的用户可能会受到后解码用户的干扰。因此,在卫星系统中使用PD-NOMA技术时会存在用户间的同信道干扰,为了保证卫星系统通信质量,有必要进行资源分配优化以减少波束间和用户间干扰。
现有技术存在以下不足:首先,现有研究大多针对GEO卫星,然而GEO卫星与地面终端相对静止,而LEO卫星网络轨道高度较低,网络拓扑实时变化,基于传统的优化方法需要随着不同的网络状态不断更新计算,这会增加资源分配计算开销,降低资源调度的及时性和准确性。其次,若采用传统启发式优化方法,当面对高维度的状态空间和动作空间时,可能会出现维度灾难而导致优化方法无法得到全局最优解。
发明内容
有鉴于此,本发明的目的在于提高卫星系统的频谱利用率和资源分配的效率,充分利用LEO卫星网络有限的资源来满足日益增长的通信需求,提供一种基于PD-NOMA的多波束LEO卫星系统资源分配方法,同时考虑波束间与波束内干扰,在卫星发射功率和用户QoS的约束下,最大化卫星系统的吞吐量。
为达到上述目的,本发明提供如下技术方案:
一种基于PD-NOMA的多波束LEO卫星系统资源分配方法,包括以下步骤:
S1:首先基于用户UEk,m,n与卫星之间的位置信息,根据视距损耗和降雨衰减效应,得到UEk,m,n与卫星之间的信道增益;
S2:通过波束增益差异因子模拟在同一个卫星波束下增益值随着方向角向波束边缘靠近而逐渐降低现象,得到第k个波束在用户UEk,m,n方向上的天线增益;
S3:根据用户UEk,m,n与波束k之间的等效信道增益,同时考虑波束内与波束间干扰,得到用户UEk,m,n在时隙t时的吞吐量;
S4:基于子信道分配因子和功率分配因子,使用深度强化学习寻找合适的子信道与功率联合分配的最佳资源分配方案。
进一步,在步骤S1中,LEO卫星使用Ka频段与地面上的多个用户终端进行通信,根据LEO卫星通信的传播特性,Ka波段卫星信道主要由视距损耗分量和缓慢的大气衰落(尤其是降雨衰落)决定,基于用户UEk,m,n与卫星之间的位置信息,根据视距损耗和降雨衰减效应,得到UEk,m,n与卫星之间的信道增益,具体包括:
S11:假设卫星到地面传输链路的信道增益在每个时隙内保持连续,在不同时隙间独立变化,在t时隙,UEk,m,n与卫星之间的信道增益建模为:
hk,m,n(t)=√Ck,m(t)·rk,n(t)
其中,Ck,m(t)=(v/4πfdk,m(t))2表示自由空间衰落因子,v为光速,fc为载波频率;为时隙t时LEO卫星与UEk,m,n之间的距离,其中用户位于(xm(t),ym(t),0),卫星位于(xk(t),yk(t),h);
S12:为了模拟降雨衰减效应,采用ITU-R2P.618建议书中提出的经验模型,第k个波束的第n个子信道的降雨衰落因子为:
进一步,步骤S2中,考虑波束增益的差异对卫星波束信号发射增益的影响,对于同一个卫星波束,其增益值在法向最高,并且增益值随着方向角向波束边缘靠近而逐渐降低。因此,第k个波束在用户UEk,m,n方向上的天线增益为:
Gk,m(t)=bk,m(t)GtGr
其中,Gt为波束中心增益,Gr为用户接收端增益,bk,m(t)为波束增益差异因子:
其中,pk,m,n(t)和sk,m,n(t)分别代表LEO卫星传输到UEk.m.n的发射功率与信号;
进一步,在PD-NOMA系统中,为了保证用户的公平性,等效信道增益小的用户可以分配到更多的功率。根据SIC最佳解码顺序,首先解码功率高的用户信号,解码时将其余信号当作干扰,若解码成功,从叠加信号中剔除该用户信号,再从剩余信号中解码功率大的信号,直至目标信号解码完成。等价于,用户UEk.m.n解码时执行SIC从叠加信号中减去等效信道增益比UEk.m.n小的信号,把剩余信号视为干扰从而解调出自身信号,波束内的干扰为:
波束间干扰是由UEk.m.n与共享相同的频带资源的不同波束所带来的:
根据香农定理,用户UEk.m.n在时隙t时的吞吐量表示为:
Rk,m,n(t)=Blog2(1+SINRk,m,n(t))。
进一步,在步骤S4中,基于子信道分配因子和功率分配因子,使用深度强化学习寻找合适的资源映射方案,深度强化学习把深度学习的强感知能力应用到强化学习的决策过程中,通过不断尝试的方式与环境交互,通过神经网络感知到环境的未知状况,从而得到最准确的奖励估值。并通过最大化累计奖励的方式寻找最佳策略。确定以下三个元素集:
状态空间:s(t)={H1,1,1(t),H1,1,2(t),…,Hk,m,n(t),…,HK,M,N(t)},Hk,m,n(t)表示时隙t时波束k与用户m在子信道n上的信道系数,这是决定资源分配策略的基础。由于LEO卫星沿着轨迹不断移动,将LEO的移动变化映射到用户与LEO的距离及方位变化,进一步映射到信道系数的变化,因此,LEO的移动性只影响状态的变化,并不影响框架的设计;
动作空间:从环境中获得状态后,需要选取合适的动作再作用于环境中。所提方法旨在通过联合子信道和功率分配达到收益的最大化,因此定义a(t)为系统在时隙t时的行为,其表达式为:
其中,xk,m,n(t)表示时隙t时对于用户m的子信道分配因子,pk,m,n(t)表示时隙t时在波束k的子信道n上分配给用户m的传输功率大小;
奖励:奖励是采取行动后环境给予的反馈,是指导策略学习而不断改进的关键因素,定义环境处于状态st时执行动作at,系统进入下一状态st+1,并得到即时奖励rt;本发明优化目标是最大化系统的长期吞吐量,因此将系统吞吐量设为即时奖励,即:
rt=Rtot(t)。
进一步,步骤S4具体包括以下步骤:
S401:初始化系统参数,随机生成神经网络参数θ,θ′,w,w′,置有效经验回放池H与普通经验回放池D为空;
S402:令episode=0,初始化状态s(0),并置初始奖励值r0=0,初始化动作探索率ε(s0)=1;
S403:令t=0,在每个调度时隙开始,收集当前时隙的状态,即网络拓扑状态信息、用户和卫星位置信息、信道增益信息和天线增益信息;
S404:根据下式选取近似最优的子信道与功率分配动作:
γ为折扣因子,γ∈(0,1),表示未来收益对当前收益的影响越来越小,因此采取一定折扣;
rt为时隙t的即时回报函数,rt=Rtot(t)表示为整体系统的总吞吐量;
Qπ(s(t+1),a(t+1))为下一时隙的动作值函数;
S405:根据给定的子信道和功率分配变量,判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件,如果不满足则转到步骤S404;如果满足则执行步骤S406;
S406:执行动作a(t),得到环境反馈奖励r(t)和下一个状态s(t+1);若普通经验池和有效经验池都溢出则进入S407,若均未溢出,将向量(s(t),a(t),r(t),s(t+1))放入经验回放池中,并转移到步骤403,令t=t+1;
S407:从经验池H中抽取β·ND个样本,从经验池D中抽取(1-β)·ND个样本,构成ND个批量状态转移样本ND*(s(i),a(i),r(i),s(i+1))进行训练;
S408:根据每一样本,逐一计算每个样本中的Critic网络的TD目标值y(t)=r(t)+γ·Q(s(t+1),a′(t+1);w′)和误差δ(t)=y(t)-Q(s(t),a(t);w);通过根梯度下降法根据在线网络参数,并通过软更新方式更新目标网络参数;若|δ(i)|>Λ,则用(s(i),a(i),r(i),s(i+1))代替有效经验池中的样本;最后根据下式更新动作探索率ε(st+1)
ε(st+1)=φ·f(st,at,σ)+(1-φ)·ε(st)
S409:经过数次迭代,判断是否满足收敛条件,若没有满足收敛条件,转移到步骤S403,若满足收敛条件,则执行步骤S410;
S410:判断迭代次数是否满足最大迭代次数,若不满足,则令episode=episode+1,并跳转到S402继续执行,否则结束。
深度强化学习通过不断执行动作,得到相应的奖励即下一状态,收集多个训练数据集(s(t),a(t),r(t),s(t+1))放入经验回放池,然后在经验回放池中随机抽取,以减少训练数据的相关性,用以训练卷积神经网络;
同时,针对固定ε-贪婪策略无法适应动态变化的学习过程的问题,采用基于探索的值函数差异方法来解决探索和利用模式的平衡问题,并设置双重经验回放池,加速神经网络的学习过程。通过神经网络的强感知力拟合反映状态动作对在未来的潜在价值状态值函数,当训练充足,完全拟合时即可得到最优策略。
本发明的有益效果在于:本发明所提出的的基于PD-NOMA系统的资源方法不仅可以加速神经网络的收敛,在不同发射功率和传输速率条件下,能有效地提高系统的吞吐量,同时也反映了NOMA系统在增加系统容量上的优势。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明实施例提供的基于PD-NOMA的多波束LEO卫星系统场景;
图2为本发明实施例提供的改进深度强化学习方法框架;
图3为本发明实施例提供的资源分配方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图3,图1所示为本发明基于PD-NOMA的多波束LEO卫星系统下行传输场景示意图。LEO卫星由K个波束组成,卫星具有固定的飞行高度,并按照预先配置好的移动轨迹沿着圆周轨道移动。系统带宽BW采用4色频率复用方案,相同颜色的波束共享同一频率资源,频带被划分为N个子频带,称为正交子信道,卫星通过子信道服务M个地面用户终端;
为了提升系统容量,在发射端,LEO卫星根据用户的信道状态信息,采用PD-NOMA技术在相同频带上以不同的功率同时传输多个用户终端的叠加数据,在接收端,使用用户检测算法,例如SIC技术消除部分干扰。因此,终端会受到当前波束和使用相同频率资源的其它波束的同信道干扰,分别为波束内干扰和波束间干扰。将时间划分为T个长度相同的时隙,在每一个很短的时隙t内,假定LEO卫星与终端的位置相对不变,LEO卫星借助地面控制中心获得所有用户的信道状态信息,并根据资源分配方案与用户进行通信,然后LEO卫星根据轨迹移动到下一个时隙的下一个位置上。令其中分别表示波束集合,子信道集合和所有用户终端集合,UEk,m,n表示第k个波束下第n个子信道中的用户m,表示与第k个波束通信的用户终端集合,故
首先,LEO卫星使用Ka频段与地面上的多个用户终端进行通信,根据LEO卫星通信的传播特性,Ka波段卫星信道主要由视距损耗分量和缓慢的大气衰落(尤其是降雨衰落)决定。假设卫星到地面传输链路的信道增益在每个时隙内保持连续,在不同时隙间独立变化,在t时隙,UEk,m,n与卫星之间的信道增益可以建模为:
其中,Ck,m(t)=(v/4πfdk,m(t))2表示自由空间衰落因子,v为光速,fc为载波频率。为时隙t时LEO卫星与UEk,m,n之间的距离,其中用户位于(xm(t),ym(t),0),卫星位于(xk(t),yk(t),h);
为了模拟降雨衰减效应,采用ITU-R2P.618建议书中提出的经验模型,第k个波束的第n个子信道的降雨衰落因子为:
另外,对于同一个卫星波束,其增益值在法向最高,并且增益值随着方向角向波束边缘靠近而逐渐降低。因此,需要考虑波束增益的差异对卫星波束信号发射增益的影响,第k个波束在用户m方向上的天线增益为:
Gk,m(t)=bk,m(t)GtGr
其中,Gt为波束中心增益,Gr为用户接收端增益,bk,m(t)为波束增益差异因子:
其中,Pk,m,n(t)和sk,m,n(t)分别代表LEO卫星传输到UEk.m.n的发射功率与信号;
在接收端,每个用户接收的信号不仅包含对应的期望信号,同时,还包括来自波束内的用户干扰信号、波束间的用户干扰信号以及均值为0,方差为的加性高斯白噪声,即因此,在t时隙,UEk.m.n接收到的信号可以表示为:
最后,在PD-NOMA系统中,为了保证用户的公平性,等效信道增益小的用户可以分配到更多的功率。根据SIC最佳解码顺序,首先解码功率高的用户信号,解码时将其余信号当作干扰,若解码成功,从叠加信号中剔除该用户信号,再从剩余信号中解码功率大的信号,直至目标信号解码完成。等价于,用户UEk.m.n解码时可以执行SIC从叠加信号中减去等效信道增益比UEk.m.n小的信号,把剩余信号视为干扰从而解调出自身信号,因此,波束内的干扰为
波束间干扰是由UEk.m.n与共享相同的频带资源的不同波束所带来的:
根据香农定理,用户UEk.m.n在时隙t时的吞吐量可表示为
Rk,m,n(t)=Blog2(1+SINRk,n,n(t))
因此,整个系统的总速率为:
根据PD-NOMA系统的原理,每个波束的子信道上可以同时支持多个用户,用布尔变量xk,m,n(t)表示时隙t时的子信道分配因子,在t时隙,当第k个波束的第n个子信道分配给用户m,则xk,m,n(t)=1,否则xk,m,n(t)=0,用pk,m,n(t)表示t时隙时的功率分配因子。为保证优化目标的有效性,分配给所有用户的总功率不超过LEO卫星的最大发射功率Pmax,且分配的功率不小于零;为了保证用户的QoS,需要满足用户的最小传输速率要求,Rmin为所需的最小吞吐量;每个用户同时只能分配给一个子信道,且每一个子信道最多分配Nmax个用户。
参见图2,图2为本发明提出的改进深度强化学习方法框架,以DDPG为基础,包含行动者和评判家两部分,使用深度神经网络来近似得到策略π(s)和Q值。其中,Actor负责构建策略网络,根据观测到的状态生成资源分配动作;Critic负责构建Q网络,根据执行动作后输出的Q值对当前策略进行评判,通过最小化损失函数对网络参数更新,Actor使用Critic的输出,通过梯度上升法进行参数更新。通过不断更新Critic网络的Q值和Actor网络的确定性策略,最终,可以根据状态及确定性策略选择最优的资源分配动作;
针对固定ε-贪婪策略无法很好地适应动态变化的学习过程这一问题,采用基于探索的值函数差异方法来解决探索和利用模式的平衡问题;针对随机抽取样本利用率低的问题,采用双重经验回放池来加速神经网络的学习过程。
参见图3,图3为本发明方法流程图,其处理步骤如下:
S401:初始化系统参数,随机生成神经网络参数θ,θ′,w,w′,置有效经验回放池H与普通经验回放池D为空;
S402:令episode=0,初始化状态s(0),并置初始奖励值r0=0,初始化动作探索率ε(s0)=1;
S403:令t=0,在每个调度时隙开始,收集当前时隙的状态,即所述网络拓扑状态信息,用户和卫星位置信息,信道增益信息和天线增益信息;
S404:根据下式选取近似最优的子信道与功率分配动作:
其中所述γ为折扣因子,γ∈(0,1),表示未来收益对当前收益的影响会越来越小,所以需要采取一定折扣;
其中所述rt为时隙t的即时回报函数,rt=Rtot(t)表示为整体系统的总吞吐量;
其中Qπ(s(t+1),a(t+1))为下一时隙的动作值函数;
S405:根据给定的子信道和功率分配变量,判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件,如果不满足则转到步骤S404;如果满足所述约束条件,则执行步骤S406;
S406:执行动作a(t),得到环境反馈奖励r(t)和下一个状态s(t+1)。若普通经验池和有效经验池都溢出时进入S407,若均未溢出,将向量(s(t),a(t),r(t),s(t+1))放入经验回放池中,并转移到步骤403,令t=t+1;
S407:从经验池H中抽取β·ND个样本,从经验池D中抽取(1-β)·ND个样本,构成ND个批量状态转移样本ND*(s(i),a(i),r(i),s(i+1))进行训练;
S408:根据每一样本,逐一计算每个样本中的Critic网络的TD目标值y(t)=r(t)+γ·Q(s(t+1),a′(t+1);w′)和误差δ(t)=y(t)-Q(s(t),a(t);w)。根梯度下降法根据在线网络参数,并通过软更新方式更新目标网络参数。若|δ(i)|>Λ,则用(s(i),a(i),r(i),s(i+1))代替有效经验池中的样本;另外,根据下式更新动作探索率ε(st+1)
ε(st+1)=φ·f(st,at,σ)+(1-φ)·ε(st)
S409:经过数次迭代,判断是否满足收敛条件,若没有满足收敛条件,转移到步骤S403,若满足收敛条件,则执行步骤S410;
S410:判断方法迭代次数是否满足最大迭代次数,若不满足,则令episode=episode+1,并跳转到S402继续执行,否则方法结束。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于PD-NOMA的多波束LEO卫星系统资源分配方法,其特征在于:包括以下步骤:
S1:首先基于用户UEk,m,n与卫星之间的位置信息,根据视距损耗和降雨衰减效应,得到UEk,m,n与卫星之间的信道增益;
S2:通过波束增益差异因子模拟在同一个卫星波束下增益值随着方向角向波束边缘靠近而逐渐降低现象,得到第k个波束在用户UEk,m,n方向上的天线增益;
S3:根据用户UEk,m,n与波束k之间的等效信道增益,同时考虑波束内与波束间干扰,得到用户UEk,m,n在时隙t时的吞吐量;
S4:基于子信道分配因子和功率分配因子,使用深度强化学习寻找合适的子信道与功率联合分配的最佳资源分配方案。
2.根据权利要求1所述的基于PD-NOMA的多波束LEO卫星系统资源分配方法,其特征在于:
在步骤S1中,LEO卫星使用Ka频段与地面上的多个用户终端进行通信,Ka波段卫星信道由视距损耗分量和缓慢的大气衰落决定,基于用户UEk,m,n与卫星之间的位置信息,根据视距损耗和降雨衰减效应,得到UEk,m,n与卫星之间的信道增益,具体包括:
S11:假设卫星到地面传输链路的信道增益在每个时隙内保持连续,在不同时隙间独立变化,在t时隙,UEk,m,n与卫星之间的信道增益建模为:
其中,Ck,m(t)=(v/4πfdk,m(t))2表示自由空间衰落因子,v为光速,fc为载波频率;为时隙t时LEO卫星与UEk,m,n之间的距离,其中用户位于(xm(t),ym(t),0),卫星位于(xk(t),yk(t),h);
S12:第k个波束的第n个子信道的降雨衰落因子为:
7.根据权利要求1所述的基于PD-NOMA的多波束LEO卫星系统资源分配方法,其特征在于:在步骤S4中,基于子信道分配因子和功率分配因子,使用深度强化学习寻找合适的资源映射方案,确定以下三个元素集:
状态空间:s(t)={H1,1,1(t),H1,1,2(t),…,Hk,m,n(t),…,HK,M,N(t)},Hk,m,n(t)表示时隙t时波束k与用户m在子信道n上的信道系数;
动作空间:定义a(t)为系统在时隙t时的行为,其表达式为:
其中,xk,m,n(t)表示时隙t时对于用户m的子信道分配因子,pk,m,n(t)表示时隙t时在波束k的子信道n上分配给用户m的传输功率大小;
奖励:定义环境处于状态st时执行动作at,系统进入下一状态st+1,并得到即时奖励rt;将系统吞吐量设为即时奖励,即:
rt=Rtot(t)。
8.根据权利要求7所述的基于PD-NOMA的多波束LEO卫星系统资源分配方法,其特征在于:步骤S4具体包括以下步骤:
S401:初始化系统参数,随机生成神经网络参数θ,θ′,w,w′,置有效经验回放池H与普通经验回放池D为空;
S402:令episode=0,初始化状态s(0),并置初始奖励值r0=0,初始化动作探索率ε(s0)=1;
S403:令t=0,在每个调度时隙开始,收集当前时隙的状态,即网络拓扑状态信息、用户和卫星位置信息、信道增益信息和天线增益信息;
S404:根据下式选取近似最优的子信道与功率分配动作:
γ为折扣因子,γ∈(0,1),表示未来收益对当前收益的影响越来越小,因此采取一定折扣;
rt为时隙t的即时回报函数,rt=Rtot(t)表示为整体系统的总吞吐量;
Qπ(s(t+1),a(t+1))为下一时隙的动作值函数;
S405:根据给定的子信道和功率分配变量,判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件,如果不满足则转到步骤S404;如果满足则执行步骤S406;
S406:执行动作a(t),得到环境反馈奖励r(t)和下一个状态s(t+1);若普通经验池和有效经验池都溢出则进入S407,若均未溢出,将向量(s(t),a(t),r(t),s(t+1))放入经验回放池中,并转移到步骤403,令t=t+1;
S407:从经验池H中抽取β·ND个样本,从经验池D中抽取(1-β)·ND个样本,构成ND个批量状态转移样本ND*(s(i),a(i),r(i),s(i+1))进行训练;
S408:根据每一样本,逐一计算每个样本中的Critic网络的TD目标值y(t)=r(t)+γ·Q(s(t+1),a′(t+1);w′)和误差δ(t)=y(t)-Q(s(t),a(t);w);通过根梯度下降法根据在线网络参数,并通过软更新方式更新目标网络参数;若|δ(i)|>Λ,则用(s(i),a(i),r(i),s(i+1))代替有效经验池中的样本;最后根据下式更新动作探索率ε(st+1)
ε(st+1)=φ·f(st,at,σ)+(1-φ)·ε(st)
S409:经过数次迭代,判断是否满足收敛条件,若没有满足收敛条件,转移到步骤S403,若满足收敛条件,则执行步骤S410;
S410:判断迭代次数是否满足最大迭代次数,若不满足,则令episode=episode+1,并跳转到S402继续执行,否则结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522431.4A CN113162682B (zh) | 2021-05-13 | 2021-05-13 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522431.4A CN113162682B (zh) | 2021-05-13 | 2021-05-13 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113162682A true CN113162682A (zh) | 2021-07-23 |
CN113162682B CN113162682B (zh) | 2022-06-24 |
Family
ID=76874868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110522431.4A Active CN113162682B (zh) | 2021-05-13 | 2021-05-13 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113162682B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113572517A (zh) * | 2021-07-30 | 2021-10-29 | 哈尔滨工业大学 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
CN113613301A (zh) * | 2021-08-04 | 2021-11-05 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN113644964A (zh) * | 2021-08-06 | 2021-11-12 | 北京邮电大学 | 一种多波束卫星同频组网系统的多维资源联合分配方法 |
CN113746575A (zh) * | 2021-09-03 | 2021-12-03 | 北京航空航天大学 | 一种同步静止轨道卫星的信道衰落确定方法及系统 |
CN114050855A (zh) * | 2021-09-27 | 2022-02-15 | 南京邮电大学 | 一种面向信道信息自适应的低轨卫星间智能协作传输方法 |
CN114630386A (zh) * | 2022-03-16 | 2022-06-14 | 军事科学院系统工程研究院网络信息研究所 | 一种星地一体化网络中的卫星中继通信方法 |
CN114665952A (zh) * | 2022-03-24 | 2022-06-24 | 重庆邮电大学 | 一种基于星地融合架构下低轨卫星网络跳波束优化方法 |
CN114710195A (zh) * | 2022-03-24 | 2022-07-05 | 重庆邮电大学 | 一种基于跳波束技术的低轨卫星高能效资源分配方法 |
CN114710191A (zh) * | 2022-03-09 | 2022-07-05 | 中国人民解放军61096部队 | 面向多波束卫星移动通信系统波束资源动态调整方法 |
CN114916051A (zh) * | 2022-05-24 | 2022-08-16 | 桂林电子科技大学 | 一种基于bp神经网络的leo卫星功率控制方法 |
CN115001570A (zh) * | 2022-08-03 | 2022-09-02 | 中电防务科技有限公司 | 一种基于多波束卫星移动通信系统的应急通信方法 |
CN115441939A (zh) * | 2022-09-20 | 2022-12-06 | 重庆邮电大学 | 基于maddpg算法的多波束卫星通信系统资源分配方法 |
CN117375706A (zh) * | 2023-12-04 | 2024-01-09 | 成都本原星通科技有限公司 | 一种面向接收端的低轨卫星星间干扰优化方法和系统 |
CN117639903A (zh) * | 2024-01-23 | 2024-03-01 | 南京控维通信科技有限公司 | 一种基于noma辅助的多用户卫星通信方法及系统 |
CN117833997A (zh) * | 2024-03-01 | 2024-04-05 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
CN117833997B (zh) * | 2024-03-01 | 2024-05-31 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1187721A (zh) * | 1996-10-21 | 1998-07-15 | 环球星有限合伙人公司 | 多卫星衰落衰减控制系统 |
CN105072689A (zh) * | 2015-08-31 | 2015-11-18 | 西安电子科技大学 | 基于有源天线阵列模型的多播系统无线资源优化分配方法 |
CN105939541A (zh) * | 2016-04-22 | 2016-09-14 | 中国矿业大学 | 多用户时频编码分集mt-cdma的等效子载波分配系统及方法 |
CN109617662A (zh) * | 2019-01-04 | 2019-04-12 | 浙江大学 | 基于水声ofdm-noma系统下行链路的联合资源优化方法 |
US20200044979A1 (en) * | 2018-08-06 | 2020-02-06 | Hughes Network Systems, Llc | Congestion based throttling in satellite based networks |
US20200120458A1 (en) * | 2017-07-01 | 2020-04-16 | Intel Corporation | Methods and devices for vehicular radio communications |
CN111147112A (zh) * | 2019-12-30 | 2020-05-12 | 中国传媒大学 | 一种基于mimo-noma系统的能量最大化收集方法 |
CN111416648A (zh) * | 2020-05-18 | 2020-07-14 | 北京邮电大学 | 一种低轨卫星系统的多波束自适应管理方法及装置 |
CN111447631A (zh) * | 2020-03-05 | 2020-07-24 | 南京邮电大学 | 基于非正交多址技术的星地联合波束形成和功率分配方法 |
CN111491312A (zh) * | 2019-01-28 | 2020-08-04 | 中国移动通信有限公司研究院 | 无线资源预测分配、获取、训练神经网络的方法及设备 |
CN111615202A (zh) * | 2020-04-30 | 2020-09-01 | 东莞理工学院 | 基于noma与波束成型的超密集网络无线资源分配方法 |
CN111867104A (zh) * | 2020-07-15 | 2020-10-30 | 中国科学院上海微系统与信息技术研究所 | 一种低轨卫星下行链路的功率分配方法及功率分配装置 |
CN111970047A (zh) * | 2020-08-25 | 2020-11-20 | 桂林电子科技大学 | 一种基于强化学习的leo卫星信道分配方法 |
CN112351433A (zh) * | 2021-01-05 | 2021-02-09 | 南京邮电大学 | 一种基于强化学习的异构网络资源分配方法 |
CN112566261A (zh) * | 2020-12-08 | 2021-03-26 | 南京爱而赢科技有限公司 | 一种基于深度强化学习的上行noma资源分配方法 |
-
2021
- 2021-05-13 CN CN202110522431.4A patent/CN113162682B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1187721A (zh) * | 1996-10-21 | 1998-07-15 | 环球星有限合伙人公司 | 多卫星衰落衰减控制系统 |
CN105072689A (zh) * | 2015-08-31 | 2015-11-18 | 西安电子科技大学 | 基于有源天线阵列模型的多播系统无线资源优化分配方法 |
CN105939541A (zh) * | 2016-04-22 | 2016-09-14 | 中国矿业大学 | 多用户时频编码分集mt-cdma的等效子载波分配系统及方法 |
US20200120458A1 (en) * | 2017-07-01 | 2020-04-16 | Intel Corporation | Methods and devices for vehicular radio communications |
US20200044979A1 (en) * | 2018-08-06 | 2020-02-06 | Hughes Network Systems, Llc | Congestion based throttling in satellite based networks |
CN109617662A (zh) * | 2019-01-04 | 2019-04-12 | 浙江大学 | 基于水声ofdm-noma系统下行链路的联合资源优化方法 |
CN111491312A (zh) * | 2019-01-28 | 2020-08-04 | 中国移动通信有限公司研究院 | 无线资源预测分配、获取、训练神经网络的方法及设备 |
CN111147112A (zh) * | 2019-12-30 | 2020-05-12 | 中国传媒大学 | 一种基于mimo-noma系统的能量最大化收集方法 |
CN111447631A (zh) * | 2020-03-05 | 2020-07-24 | 南京邮电大学 | 基于非正交多址技术的星地联合波束形成和功率分配方法 |
CN111615202A (zh) * | 2020-04-30 | 2020-09-01 | 东莞理工学院 | 基于noma与波束成型的超密集网络无线资源分配方法 |
CN111416648A (zh) * | 2020-05-18 | 2020-07-14 | 北京邮电大学 | 一种低轨卫星系统的多波束自适应管理方法及装置 |
CN111867104A (zh) * | 2020-07-15 | 2020-10-30 | 中国科学院上海微系统与信息技术研究所 | 一种低轨卫星下行链路的功率分配方法及功率分配装置 |
CN111970047A (zh) * | 2020-08-25 | 2020-11-20 | 桂林电子科技大学 | 一种基于强化学习的leo卫星信道分配方法 |
CN112566261A (zh) * | 2020-12-08 | 2021-03-26 | 南京爱而赢科技有限公司 | 一种基于深度强化学习的上行noma资源分配方法 |
CN112351433A (zh) * | 2021-01-05 | 2021-02-09 | 南京邮电大学 | 一种基于强化学习的异构网络资源分配方法 |
Non-Patent Citations (3)
Title |
---|
WENLE BAI: "Research on Channel Power Allocation of Fog Wireless Access Network Based on NOMA", 《IEEE ACCESS》 * |
刘帅军: "卫星通信系统中动态资源管理技术研究", 《中国博士学位论文全文数据库-信息科技辑》 * |
陈前斌: "面向5G 协作通信系统的资源分配技术综述", 《重庆邮电大学学报(自然科学版)》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113572517B (zh) * | 2021-07-30 | 2022-06-24 | 哈尔滨工业大学 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
CN113572517A (zh) * | 2021-07-30 | 2021-10-29 | 哈尔滨工业大学 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
CN113613301A (zh) * | 2021-08-04 | 2021-11-05 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN113613301B (zh) * | 2021-08-04 | 2022-05-13 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN113644964A (zh) * | 2021-08-06 | 2021-11-12 | 北京邮电大学 | 一种多波束卫星同频组网系统的多维资源联合分配方法 |
CN113644964B (zh) * | 2021-08-06 | 2022-03-29 | 北京邮电大学 | 一种多波束卫星同频组网系统的多维资源联合分配方法 |
CN113746575A (zh) * | 2021-09-03 | 2021-12-03 | 北京航空航天大学 | 一种同步静止轨道卫星的信道衰落确定方法及系统 |
CN114050855A (zh) * | 2021-09-27 | 2022-02-15 | 南京邮电大学 | 一种面向信道信息自适应的低轨卫星间智能协作传输方法 |
CN114050855B (zh) * | 2021-09-27 | 2023-12-12 | 南京邮电大学 | 一种面向信道信息自适应的低轨卫星间智能协作传输方法 |
CN114710191A (zh) * | 2022-03-09 | 2022-07-05 | 中国人民解放军61096部队 | 面向多波束卫星移动通信系统波束资源动态调整方法 |
CN114630386B (zh) * | 2022-03-16 | 2022-11-18 | 军事科学院系统工程研究院网络信息研究所 | 一种星地一体化网络中的卫星中继通信方法 |
CN114630386A (zh) * | 2022-03-16 | 2022-06-14 | 军事科学院系统工程研究院网络信息研究所 | 一种星地一体化网络中的卫星中继通信方法 |
CN114710195B (zh) * | 2022-03-24 | 2023-07-25 | 重庆邮电大学 | 一种基于跳波束技术的低轨卫星高能效资源分配方法 |
CN114665952A (zh) * | 2022-03-24 | 2022-06-24 | 重庆邮电大学 | 一种基于星地融合架构下低轨卫星网络跳波束优化方法 |
CN114665952B (zh) * | 2022-03-24 | 2023-07-18 | 重庆邮电大学 | 一种基于星地融合架构下低轨卫星网络跳波束优化方法 |
CN114710195A (zh) * | 2022-03-24 | 2022-07-05 | 重庆邮电大学 | 一种基于跳波束技术的低轨卫星高能效资源分配方法 |
CN114916051A (zh) * | 2022-05-24 | 2022-08-16 | 桂林电子科技大学 | 一种基于bp神经网络的leo卫星功率控制方法 |
CN115001570B (zh) * | 2022-08-03 | 2022-10-25 | 中电防务科技有限公司 | 一种基于多波束卫星移动通信系统的应急通信方法 |
CN115001570A (zh) * | 2022-08-03 | 2022-09-02 | 中电防务科技有限公司 | 一种基于多波束卫星移动通信系统的应急通信方法 |
CN115441939A (zh) * | 2022-09-20 | 2022-12-06 | 重庆邮电大学 | 基于maddpg算法的多波束卫星通信系统资源分配方法 |
CN115441939B (zh) * | 2022-09-20 | 2024-03-22 | 深圳泓越信息科技有限公司 | 基于maddpg算法的多波束卫星通信系统资源分配方法 |
CN117375706A (zh) * | 2023-12-04 | 2024-01-09 | 成都本原星通科技有限公司 | 一种面向接收端的低轨卫星星间干扰优化方法和系统 |
CN117375706B (zh) * | 2023-12-04 | 2024-03-12 | 成都本原星通科技有限公司 | 一种面向接收端的低轨卫星星间干扰优化方法和系统 |
CN117639903A (zh) * | 2024-01-23 | 2024-03-01 | 南京控维通信科技有限公司 | 一种基于noma辅助的多用户卫星通信方法及系统 |
CN117639903B (zh) * | 2024-01-23 | 2024-05-07 | 南京控维通信科技有限公司 | 一种基于noma辅助的多用户卫星通信方法及系统 |
CN117833997A (zh) * | 2024-03-01 | 2024-04-05 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
CN117833997B (zh) * | 2024-03-01 | 2024-05-31 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113162682B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113162682B (zh) | 一种基于pd-noma的多波束leo卫星系统资源分配方法 | |
CN110730031B (zh) | 一种用于多载波通信的无人机轨迹与资源分配联合优化方法 | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Liu et al. | Application of NOMA in 6G networks: Future vision and research opportunities for next generation multiple access | |
CN108123772B (zh) | 一种基于梯度投影法的无人机时频资源分配方法 | |
Zhao et al. | RIS-aided ground-aerial NOMA communications: A distributionally robust DRL approach | |
CN109962727B (zh) | 临空通信混合波束赋形及非正交多址接入传输方法 | |
CN112583453A (zh) | 多波束leo卫星通信系统下行noma功率分配方法 | |
CN110290542B (zh) | 海上无人机通信覆盖优化方法及系统 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
CN115441939B (zh) | 基于maddpg算法的多波束卫星通信系统资源分配方法 | |
Cui et al. | Latency Optimization for Hybrid GEO–LEO Satellite-Assisted IoT Networks | |
CN113055078A (zh) | 有效信息年龄确定方法、以及无人机飞行轨迹优化方法 | |
US11234141B2 (en) | Parameter selection for network communication links using reinforcement learning | |
CN116112060A (zh) | 基于缓冲中继的空天地通信系统资源分配方法及装置 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN113490219B (zh) | 一种面向超密集组网的动态资源分配方法 | |
Vaezi et al. | Deep Reinforcement Learning for Interference Management in UAV-based 3D Networks: Potentials and Challenges Mojtaba | |
CN113365288A (zh) | 一种基于SWIPT的NB-IoT系统上行链路资源分配法 | |
CN113438009A (zh) | 信道分配方法、功率控制方法及相应的装置、设备、介质 | |
CN116684851A (zh) | 基于mappo的多ris辅助车联网吞吐量提升方法 | |
CN114979135B (zh) | 基于移动边缘计算的无人机飞行高度和任务分配控制方法 | |
CN114980205A (zh) | 多天线无人机视频传输系统QoE最大化方法和装置 | |
CN115379465B (zh) | 一种面向空地网络的接入回传一体化能效优化方法及系统 | |
CN113472472B (zh) | 基于分布式强化学习的多小区协同波束赋形方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |