CN112566253A - 一种无线资源分配联合优化方法及装置 - Google Patents

一种无线资源分配联合优化方法及装置 Download PDF

Info

Publication number
CN112566253A
CN112566253A CN202011248200.0A CN202011248200A CN112566253A CN 112566253 A CN112566253 A CN 112566253A CN 202011248200 A CN202011248200 A CN 202011248200A CN 112566253 A CN112566253 A CN 112566253A
Authority
CN
China
Prior art keywords
resource allocation
network architecture
users
group
mimo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011248200.0A
Other languages
English (en)
Other versions
CN112566253B (zh
Inventor
张海君
卢同威
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202011248200.0A priority Critical patent/CN112566253B/zh
Publication of CN112566253A publication Critical patent/CN112566253A/zh
Application granted granted Critical
Publication of CN112566253B publication Critical patent/CN112566253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/345Interference values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无线资源分配联合优化方法及装置,该方法包括:对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应的MIMO网络架构的信道模型;其中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;基于信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。本发明可以实现MIMO网络架构中对于多个子功率控制的资源分配,获取用户的最大和速率,最终实现无线资源分配的整体经济效益。

Description

一种无线资源分配联合优化方法及装置
技术领域
本发明涉及移动通信技术领域,特别涉及一种无线资源分配联合优化方法及装置。
背景技术
NOMA作为一种很有前途的技术,最近引起了业界和学术界的广泛关注。NOMA是一种多用户多路复用方案,能够在功率域同时进行多路访问,对频谱和资源进行更有效的利用。在NOMA网络里,通常会进行连续干扰抵消SIC,这样可以去除由NOMA引起的共通道干扰,并将期望的信号连续解码。
数字域波束赋形通常采用自适应阵列天线系统,根据参考信号的接收质量,进行信道估计计算产生对应用户的波束赋形矢量,通过灵活控制波束赋形矢量,使波束主瓣对准用户,低功率的旁瓣或者零限位置对准干扰源,提高通信通信系统的信噪比使系统性能得到提升。
深度强化学习是将深度神经网络和强化学习进行结合,将高维动态数据进行分析并做出决策。面对资源分配的问题,采用深度强化学习可以对该问题进行建模后快速得出最优决策,并展现出很高的性能。深度强化学习对于状态空间和动作空间较大的资源分配具有良好性能。
另一方面,在基于NOMA通信的多用户多输入多输出网络系统MIMO-NOMA架构中,功率控制一直都是人们关注的焦点之一。功率的合理分配能够极大的节省系统资源。而目前针对在MIMO-NOMA网络系统的应用场景下,如何实现更优化的功率分配,依然是一个亟待解决的难题。
发明内容
本发明提供了一种无线资源分配联合优化方法及装置,用于多用户多输入多输出MIMO网络架构,以实现MIMO网络架构中对于多个子功率控制的资源分配,获取用户的最大和速率,最终实现无线资源分配的整体经济效益。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种无线资源分配联合优化方法,用于多用户多输入多输出MIMO网络架构,该方法包括:
对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在所述MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;
基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
进一步地,对待资源分配优化的MIMO网络架构的应用场景进行建模包括:
对待资源分配优化的MIMO网络架构的用户设备及信道状态资源建模为有限状态马尔可夫模型;其中,所述MIMO网络架构为一离散时隙系统,在同一时刻内,系统状态不发生变化,下一时刻系统状态依据状态转移概率进行转换。
进一步地,所述深度强化学习网络为双重深度Q网络,所述双重深度Q网络包括主网络和目标网络两个神经网络,两个神经网络的结构相同,参数不同。
进一步地,所述基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配,包括:
S1,初始化系统的状态空间、动作空间以及深度强化学习网络参数;
S2,将当前状态输入到深度强化学习网络的主网络中,输出每个动作对应的状态作用值Q,进行比较,选取最大Q值对应的动作作为当前状态的动作;
S3,根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
S4,判断所述经验池中存储的经验数量是否达到预设数量要求,若达到预设数量要求,则执行S5进行深度强化学习;
S5,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,以保证系统内的簇间功率及簇内功率分配最优;
S6,当长期奖励函数维持在一定的范围内不再上升时,终止进程。
进一步地,所述S3中获得即时奖励,包括:
当满足预设约束条件时,根据环境获得即时奖励,即时奖励的表达式为:
Figure BDA0002770762320000021
其中,m表示第m个用户对,rm为第m个用户对中第一组用户的速率回报;
所述预设约束条件包括:用户对中第二组的用户是否达到最小目标速率;用户对中第一组的用户是否满足解码条件;所有用户功率和小于最大功率Pmax
进一步地,所述用户对中第二组的用户是否达到最小目标速率的表达式为:
Figure BDA0002770762320000031
其中,
Figure BDA0002770762320000032
表示第一组用户的解码所需信噪比。
进一步地,所述用户对中第一组的用户是否满足解码条件的表达式为:
Figure BDA0002770762320000033
其中,
Figure BDA0002770762320000034
表示第二组用户的解码所需信噪比。
进一步地,在所述S1中,以正态分布初始化深度强化学习网络的权重参数。
进一步地,在所述MIMO网络架构中,接收端采用串行干扰消除技术进行信号解调。
另一方面,本发明还提供了一种无线资源分配联合优化装置,用于多用户多输入多输出MIMO网络架构,该装置包括:
建模模块,用于对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;
优化模块,用于基于信道模型采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明利用迫零ZF波束赋形技术和NOMA来解决小区内的簇间干扰及多个子功率分配问题。通过在发射端对发射信号采用ZF波束赋形技术进行编码,在接收端对接收信号采用串行干扰消除SIC技术解码,解决了NOMA引起的共信道干扰问题,将期望信号连续解码。本发明将MIMO-NOMA场景中的无线资源分配转化为具有随机约束的功率优化问题。借助深度神经网络DNN的参数化功能,采用深度强化学习DRL中双重深度Q网络DDQN来训练智能体,获取相应的动作和策略,以调度功率,获取用户的最大和速率。而且在本发明的DRL框架设计中,通过经验回放的方式来存储智能体的环境状态、动作、回报等信息以实现无模型训练。从而实现了MIMO网络架构中对于多个子功率控制的资源分配,获取用户的最大和速率,最终实现了无线资源分配的整体经济效益。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的MIMO-NOMA下行网络架构图;
图2是本发明实施例提供的采用深度强化学习网络进行学习实现MIMO网络架构中的簇间干扰和簇内干扰的分配的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种无线资源分配联合优化方法,该方法针对小区中簇内用户和簇间用户的两个子功率进行优化,利用迫零波束赋形技术,采用自适应阵列天线系统,根据参考信号的接收质量,进行信道估计计算产生对应用户的波束赋形矢量,通过灵活控制波束赋形矢量。同时通过双重深度Q网络进行簇内功率和簇间功率进行最优分配。本实施例将波束赋形技术应用到MIMO网络中,提高通信系统的性能。同时对于功率资源和信道资源采用双重深度Q网络进行分配,并将资源分配建模为马尔可夫决策模型。深度强化学习近年来也是异常火热,很多学者都在对一些使用数学方法无法完成决策的问题使用深度强化学习方法来解决。采用离线的强化学习方法,可以在学习完成之后将神经网络的结构和参数保存下来,之后可以直接应用到相似的网络中,达到快速的资源分配,同时在使用的时候也可以进行神经网络的更新,从而提高效率。
本实施例的主要思想是,通过在发射信号采用迫零波束赋形技术进行编码,消除小区内簇间干扰;在接收信号处采用SIC技术解码期望信号,消除用户对间的共信道干扰;并采用深度强化学习完成信道资源、多个子功率资源的分配,从而达到组2用户最低目标速率要求的情况下,最大化组1用户的和速率(即尽可能地提高组2用户的QoS)。该系统为离散时隙系统,同时将该模型建模为马尔可夫决策模型。考虑到真实环境下系统状态的动态变化,将系统状态建模为一阶马尔可夫决策模型。同时由于系统的状态空间和动作空间较大,采用双重深度Q网络进行决策优化,目标是最大化系统的目标函数。
本实施例中的MIMO网络架构如图1所示,配有N个天线的基站BS位于小区中心,小区内的单天线用户均分为组1和组2用户,每个用户对是由组1和组2内的用户组成,在用户对之间采用NOMA技术,接收端采用串行干扰消除技术进行信号解调;基站BS与用户进行信号传输,组成MIMO-NOMA系统。
本方法的重点是利用迫零波束赋形技术对发射信号进行编码,同时采用深度强化学习设计多个子功率分配算法及装置,进行最优资源分配,在保证小区内组2用户的最低数据速率时,最大化组1用户的和速率。
本实施例的无线资源分配联合优化方法可以由电子设备实现,该电子设备可以是终端或者服务器。具体地,该无线资源分配联合优化方法包括:
对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在所述MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;
基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
其中,对待资源分配优化的MIMO网络架构的应用场景进行建模包括:
对待资源分配优化的MIMO网络架构的用户设备及信道状态资源建模为有限状态马尔可夫模型;其中,所述MIMO网络架构为一离散时隙系统,在同一时刻内,系统状态不发生变化,下一时刻系统状态依据状态转移概率进行转换。
所述深度强化学习网络为双重深度Q网络,所述双重深度Q网络包括主网络和目标网络两个神经网络,两个神经网络的结构相同,参数不同。
所述基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配的过程如图2所示,包括:
S1,初始化系统的状态空间、动作空间以及深度强化学习网络参数;也即初始化无线设备、用户以及神经网络内的各项参数及智能体环境信息,包括基站最大发射功率Pmax,网络参数θ和θ′,智能体动作、状态、重放经验池
Figure BDA0002770762320000061
等。
需要说明的是,本实施例将功率控制框架和计算资源建模为有限状态马尔可夫模型,同时该系统为离散时隙系统,系统状态在同一时刻不会发生变化,在下一状态依据状态转移概率进行变化。
S2,根据当前所处状态,进行动作的选取,动作中包括小区内不同簇间功率及簇内功率的选择,动作的选取是依据当前状态所采取的资源分配决策导致的Q值大小,选取最大Q值对应的动作作为当前状态下动作决策,包括:将当前状态输入到深度强化学习网络的主网络中,输出每个动作对应的状态作用值Q,进行比较,选取最大Q值对应的动作作为当前状态的最优动作。
S3,与环境进行交互,获得即时奖励,依据状态转移概率获得系统的下一状态,并将其存储到经验池中;在之后学习的过程中,采取小批量样本进行学习,目的是减小数据之间的相关性。
需要说明的是,在上述S3中,系统想要获得即时奖励,必须满足以下三个条件:1)用户对中组2的用户是否达到最小目标速率;2)用户对中组1的用户是否满足解码条件;3)所有用户功率和小于最大功率Pmax
对于约束条件1,需要计算
Figure BDA0002770762320000062
其中
Figure BDA0002770762320000063
由以下公式计算:
Figure BDA0002770762320000064
其中,m表示小区内的第m个用户对,βm表示第m个用户对中组2用户的功率分配因子,ρm为第m个用户对的功率分配系数,wm表示第m个用户对中组1用户的信道增益,fm为第m个用户对中组1用户的迫零波束赋形矩阵,
Figure BDA0002770762320000065
表示第m个用户对中组1用户的加性白高斯噪声功率,R0表示系统内组2用户的最小目标数据速率。
对于约束条件2,需要计算
Figure BDA0002770762320000066
其中
Figure BDA0002770762320000067
由以下公式计算:
Figure BDA0002770762320000068
其中wm表示第m个用户对中组2用户的信道增益,
Figure BDA0002770762320000069
表示第m个用户对中组2用户的加性白高斯噪声功率。
根据环境获得即时奖励(组1用户的和速率),第m个组1用户的即时奖励表达式为:
Figure BDA0002770762320000071
其中,m为小区内第m个用户对,rm为第m个用户对中组1用户的速率回报,rm的表达式为:
Figure BDA0002770762320000072
其中R0表示系统内组2用户的最小目标数据速率,
Figure BDA0002770762320000073
表示组1用户的解码所需信噪比,
Figure BDA0002770762320000074
表示组2用户的信噪比,Pmax为最大用户功率。
Figure BDA0002770762320000075
由以下等式求出:
Figure BDA0002770762320000076
其中,αm表示第m个用户对中组1用户的功率分配因子。
S4,判断经验池中存储的经验数量是否达到预设数量要求,若达到预设数量要求,则执行S5开始进行深度强化学习;
S5,根据贝尔曼方程可获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,以保证系统内的簇间功率及簇内功率分配最优;
需要说明的是,上述S5中采用的算法是双重深度Q网络。该算法在深度神经网络结构的建立上,在最后一层神经网络输出的Q值先转化为状态价值和动作优势,最后再将其结合为一个Q值,此目的是为了消除DQN里的过估计问题。同时深度强化学习算法的表达式为:
yDouble DQN=r+γQ(s',argmaxQ(s',a;θ);θ-)
其中,yDouble DQN表示目标值即实际值,γ表示折扣因子,s′表示系统的下一状态,a表选取的动作,θ表示主神经网络的参数,θ-表示目标神经网络的参数。
深度强化学习目标是达到长期奖励函数最大化,即在保证小区内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
S6,当长期奖励函数维持在一定的范围内不再上升时,终止进程。
需要说明的是,通过学习和训练,系统的目标函数会不断上升,当算法趋于收敛,即长期奖励函数在一定的范围内不再发生变化后,表明系统已获得最优资源分配,即组2用户和速率达到最大,此时终止该资源分配的优化过程。
综上,本实施例改变了传统MIMO场景内的功率优化问题,以最大化用户和速率为目标,基于深度强化学习提出一种联合波束赋形与功率控制的资源优化方法。并在用户对间采用NOMA技术,对功率域进行多路访问,对发射信号进行迫零波束赋形编码,在信号解调时采用SIC解调技术,消除NOMA引起的共信道干扰。并使用双重深度Q网络进行学习,从而达到了满足一组用户的最低目标数据速率的同时,最大限度的提高另一组用户的QoS。保证了分布式系统中的数据安全性,实现了功率资源最大化使用,提升了用户QoS。
第二实施例
本实施例提供了一种无线资源分配联合优化装置,用于多用户多输入多输出MIMO网络架构,该装置包括以下模块:
建模模块,用于对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;
优化模块,用于基于信道模型采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
本实施例的无线资源分配联合优化装置与上述第一实施例的无线资源分配联合优化方法相对应;其中,本实施例的无线资源分配联合优化装置中的各功能模块所实现的功能与上述第一实施例的无线资源分配联合优化方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种无线资源分配联合优化方法,用于多用户多输入多输出MIMO网络架构,其特征在于,所述无线资源分配联合优化方法包括:
对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在所述MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;
基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
2.如权利要求1所述的无线资源分配联合优化方法,其特征在于,所述对待资源分配优化的MIMO网络架构的应用场景进行建模,包括:
对待资源分配优化的MIMO网络架构的用户设备及信道状态资源建模为有限状态马尔可夫模型;其中,所述MIMO网络架构为一离散时隙系统,在同一时刻内,系统状态不发生变化,下一时刻系统状态依据状态转移概率进行转换。
3.如权利要求2所述的无线资源分配联合优化方法,其特征在于,所述深度强化学习网络为双重深度Q网络,所述双重深度Q网络包括主网络和目标网络两个神经网络,两个神经网络的结构相同,参数不同。
4.如权利要求3所述的无线资源分配联合优化方法,其特征在于,所述基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配,包括:
S1,初始化系统的状态空间、动作空间以及深度强化学习网络参数;
S2,将当前状态输入到深度强化学习网络的主网络中,输出每个动作对应的状态作用值Q,进行比较,选取最大Q值对应的动作作为当前状态的动作;
S3,根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
S4,判断所述经验池中存储的经验数量是否达到预设数量要求,若达到预设数量要求,则执行S5进行深度强化学习;
S5,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,以保证系统内的簇间功率及簇内功率分配最优;
S6,当长期奖励函数维持在一定的范围内不再上升时,终止进程。
5.如权利要求4所述的无线资源分配联合优化方法,其特征在于,所述S3中获得即时奖励,包括:
当满足预设约束条件时,根据环境获得即时奖励,即时奖励的表达式为:
Figure FDA0002770762310000021
其中,m表示第m个用户对,rm为第m个用户对中第一组用户的速率回报;
所述预设约束条件包括:用户对中第二组的用户是否达到最小目标速率;用户对中第一组的用户是否满足解码条件;所有用户功率和小于最大功率Pmax
6.如权利要求5所述的无线资源分配联合优化方法,其特征在于,所述用户对中第二组的用户是否达到最小目标速率的表达式为:
Figure FDA0002770762310000022
其中,
Figure FDA0002770762310000023
表示第一组用户的解码所需信噪比。
7.如权利要求6所述的无线资源分配联合优化方法,其特征在于,所述用户对中第一组的用户是否满足解码条件的表达式为:
Figure FDA0002770762310000024
其中,
Figure FDA0002770762310000025
表示第二组用户的解码所需信噪比。
8.如权利要求4所述的无线资源分配联合优化方法,其特征在于,在所述S1中,以正态分布初始化深度强化学习网络的权重参数。
9.如权利要求1-8任一项所述的无线资源分配联合优化方法,其特征在于,在所述MIMO网络架构中,接收端采用串行干扰消除技术进行信号解调。
10.一种无线资源分配联合优化装置,用于多用户多输入多输出MIMO网络架构,其特征在于,所述无线资源分配联合优化装置包括:
建模模块,用于对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;
优化模块,用于基于信道模型采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率。
CN202011248200.0A 2020-11-10 2020-11-10 一种无线资源分配联合优化方法及装置 Active CN112566253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011248200.0A CN112566253B (zh) 2020-11-10 2020-11-10 一种无线资源分配联合优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011248200.0A CN112566253B (zh) 2020-11-10 2020-11-10 一种无线资源分配联合优化方法及装置

Publications (2)

Publication Number Publication Date
CN112566253A true CN112566253A (zh) 2021-03-26
CN112566253B CN112566253B (zh) 2022-09-06

Family

ID=75043007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011248200.0A Active CN112566253B (zh) 2020-11-10 2020-11-10 一种无线资源分配联合优化方法及装置

Country Status (1)

Country Link
CN (1) CN112566253B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113193896A (zh) * 2021-04-23 2021-07-30 西安交通大学 一种最大化两接收端和速率的波束成形神经网络决策方法
CN113242602A (zh) * 2021-05-10 2021-08-10 内蒙古大学 毫米波大规模mimo-noma系统资源分配方法及系统
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113411106A (zh) * 2021-05-31 2021-09-17 海南大学 安全空间调制系统中基于深度学习的功率分配方法
CN113766661A (zh) * 2021-08-30 2021-12-07 北京邮电大学 用于无线网络环境的干扰控制方法及系统
CN114268348A (zh) * 2021-12-21 2022-04-01 东南大学 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
CN114978278A (zh) * 2022-04-29 2022-08-30 北京科技大学 一种多波束的巨星座卫星频率与功率联合分配方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG HAIJUN等: "Energy Efficient Dynamic Resource Optimization in NOMA Systems", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113193896A (zh) * 2021-04-23 2021-07-30 西安交通大学 一种最大化两接收端和速率的波束成形神经网络决策方法
CN113193896B (zh) * 2021-04-23 2022-12-09 西安交通大学 一种最大化两接收端和速率的波束成形神经网络决策方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113254197B (zh) * 2021-04-30 2023-02-03 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN113242602A (zh) * 2021-05-10 2021-08-10 内蒙古大学 毫米波大规模mimo-noma系统资源分配方法及系统
CN113242602B (zh) * 2021-05-10 2022-04-22 内蒙古大学 毫米波大规模mimo-noma系统资源分配方法及系统
CN113411106A (zh) * 2021-05-31 2021-09-17 海南大学 安全空间调制系统中基于深度学习的功率分配方法
CN113411106B (zh) * 2021-05-31 2023-03-24 海南大学 安全空间调制系统中基于深度学习的功率分配方法
CN113766661A (zh) * 2021-08-30 2021-12-07 北京邮电大学 用于无线网络环境的干扰控制方法及系统
CN113766661B (zh) * 2021-08-30 2023-12-26 北京邮电大学 用于无线网络环境的干扰控制方法及系统
CN114268348A (zh) * 2021-12-21 2022-04-01 东南大学 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
CN114978278A (zh) * 2022-04-29 2022-08-30 北京科技大学 一种多波束的巨星座卫星频率与功率联合分配方法及装置

Also Published As

Publication number Publication date
CN112566253B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN112566253B (zh) 一种无线资源分配联合优化方法及装置
Wang et al. Joint interference alignment and power control for dense networks via deep reinforcement learning
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN101860951B (zh) 分布式多输入多输出无线通信系统中控制功率装置和方法
Tang et al. Decoupling or learning: Joint power splitting and allocation in MC-NOMA with SWIPT
CN108183733B (zh) 基于在线noma多天线系统的波束成形优化方法
CN105379412A (zh) 一种控制多个无线接入节点的系统和方法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Nath et al. Dynamic computation offloading and resource allocation for multi-user mobile edge computing
CN110191476B (zh) 一种基于可重构天线阵列的非正交多址接入方法
Gao et al. Resource allocation in IRSs aided MISO-NOMA networks: A machine learning approach
Tseng et al. Cross-layer resource management for downlink BF-NOMA-OFDMA video transmission systems and supervised/unsupervised learning based approach
Chen et al. Deep reinforcement learning for resource allocation in massive MIMO
KR20230092294A (ko) 심층 q-학습을 이용한 우선순위 기반 자원 할당 방법 및 장치
CN114521023A (zh) Swipt辅助noma-mec系统资源分配建模方法
CN111917444B (zh) 一种适用于毫米波mimo-noma系统的资源分配方法
Chen et al. iPAS: A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system
Wang et al. Deep transfer reinforcement learning for beamforming and resource allocation in multi-cell MISO-OFDMA systems
CN107872255B (zh) 适用于大规模mimo蜂窝移动通信网络的导频调度方法
Zhou et al. Continual learning-based fast beamforming adaptation in downlink MISO systems
Kumar et al. WSEE optimization of cell-free mmimo uplink using deep deterministic policy gradient
Hou et al. Multicell power control under QoS requirements with CNet
Akbarpour-Kasgari et al. Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming
Amin et al. A deep reinforcement learning for energy efficient resource allocation Intelligent Reflecting Surface (IRS) driven Non-Orthogonal Multiple Access Beamforming (NOMA-BF)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant