CN113242602B - 毫米波大规模mimo-noma系统资源分配方法及系统 - Google Patents
毫米波大规模mimo-noma系统资源分配方法及系统 Download PDFInfo
- Publication number
- CN113242602B CN113242602B CN202110505976.4A CN202110505976A CN113242602B CN 113242602 B CN113242602 B CN 113242602B CN 202110505976 A CN202110505976 A CN 202110505976A CN 113242602 B CN113242602 B CN 113242602B
- Authority
- CN
- China
- Prior art keywords
- action
- current
- power
- sub
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0426—Power distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请涉及信号通信技术领域,尤其涉及一种毫米波大规模MIMO‑NOMA系统资源分配方法及系统,将系统当前状态作为DQN神经网络的输入,得到当前动作;基站执行当前动作,根据当前动作选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据设置的奖励函数对分配的动作做出反馈,并将奖励反馈值反馈给基站,基站获得当前的奖励反馈值,以及系统下一时刻的状态;基站依据当前的奖励反馈值,以及系统下一时刻的状态训练DQN神经网络,并且得到下一时刻的子信道分配动作和下一时刻的功率分配动作,以进行下一轮子信道和功率的分配。本申请可以在资源有限以及用户更高数据速率要求的情况下,为每个用户合理高效分配无线资源。
Description
技术领域
本申请涉及信号通信技术领域,尤其涉及一种毫米波大规模MIMO-NOMA系统资源分配方法及系统。
背景技术
近年来,随着5G的商用化以及智能设备和应用的成倍增长,相应的高数据速率的迫切要求急剧增加。为了满足这些要求,第六代(6G)无线通信正在被学术界和产业界广泛研究。与现有的5G相比,6G通信网络从根本上能够实现10-100倍的数据速率,支持更大规模的互联,最低数据速率达到1Gbps,峰值数据速率高于100Gbps。
由于毫米波大规模MIMO技术可以提供更大的带宽和更高的频谱效率,从而将可实现的数据速率性能显著提升到每秒多千兆比特的水平,因此通过毫米波大规模MIMO技术实现第六代(6G)无线通信技术的数据速率目标。然而,为了能够充分获得大规模MIMO技术提供的增益,每根天线都需要使用专用的射频链(RF),这对于毫米波系统来说,由于空间受限而难以实现,而且大量的RF链会导致成本太高;并且RF链的功耗是难以承受的,在整个收发机总能耗中占比甚至高达70%。
为了降低毫米波大规模MIMO系统收发机的计算复杂度以及能耗,相比数字预编码来说,模拟预编码和混合预编码的提出可以明显降低所需的RF链路数量从而降低系统复杂度以及能耗。一般来说,一个RF链路仅能支持一个数据流,这会限制系统的频谱效率。因此,随着RF链数目的降低,毫米波大规模MIMO系统所能支持的用户数目和系统频谱效率也随之降低。为了增加系统可以支持的用户数并进一步提升系统频谱效率和系统容量,可以将非正交多址接入技术(NOMA)引入毫米波大规模MIMO系统中。NOMA技术可以通过在发送端使用叠加编码技术(SC)以及在接收端使用连续干扰消除技术(SIC)从而支持多个用户共享同一个时频资源而提升频谱效率和系统容量。
但是,随着基站的超密集部署以及用户终端大规模互联,基站与用户之间链路数量和数据传输速率急剧增加,系统的无线资源变得更加相对有限,资源的不合理分配会对系统性能产生影响,给毫米波大规模MIMO-NOMA网络带来了新的挑战。
因此,在资源有限以及用户更高数据速率要求的情况下,如何为每个用户合理高效分配无线资源,是目前本领域技术人员针对毫米波大规模MIMO-NOMA系统急需解决的技术问题。
发明内容
本申请提供了一种毫米波大规模MIMO-NOMA系统资源分配方法及系统,以在资源有限以及用户更高数据速率要求的情况下,为每个用户合理高效分配无线资源。
一种毫米波大规模MIMO-NOMA系统资源分配方法,包括以下步骤:基站获得系统当前的状态st,并且将当前状态st作为DQN神经网络的输入,得到当前的子信道分配动作at1和当前的功率分配动作at2;基站执行当前动作at={at1,at2},根据当前动作at选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据预先设置的奖励函数对分配的子信道和功率做出反馈,并将奖励反馈值rt反馈给基站,基站得到当前的奖励反馈值rt,以及系统下一时刻的状态st+1;基站依据当前的奖励反馈值rt,以及系统下一时刻的状态st+1训练DQN神经网络,并且得到下一时刻的子信道分配动作a(t+1)1和下一时刻的功率分配动作a(t+1)2,以继续进行下一轮的子信道和功率的分配。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,系统第t个时间槽时的状态st={SINRl,m,k(t)},st∈s,其中s为系统的状态空间,SINRl,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,当前动作 ;其中at1∈A1,A1为子信道分配动作空间;at2∈A2,A2为功率分配动作空间;其中,x1,1,1(t)为在第t个时间槽时第1个子信道被分配给第1组中第1个用户,为在第t个时间槽时第l个子信道被分配给第m组中第|Ωm|个用户,为在第t个时间槽时第L个子信道被分配给第NRF组中第个用户;P1,1,1(t)为在第t个时间槽时在第1个子信道上第1组中第1个用户的发射功率,为在第t个时间槽时在第l个子信道上第m组中第|Ωm|个用户的发射功率,为在第t个时间槽时在第L个子信道上第NRF组中第个用户的发射功率。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,DQN神经网络中用于分配功率的DQN神经网络具有K个,并且其中为在t时刻第1组中第1个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第1组中第2个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第m组中第1个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第m组中第|Ωm|个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第NRF组中第1个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第NRF组中第个功率分配DQN神经网络所选择的功率分配动作。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,通过奖励函数获得当前的奖励反馈值rt,其中,Rl,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率,Rl,m,k(t)=log2(1+SINRl,m,k(t)),Rmin为用户的最小数据速率。
一种毫米波大规模MIMO-NOMA系统资源分配方法,包括以下步骤:基站获得系统当前的状态st,并且将当前状态st作为Dueling DQN神经网络和DDPG神经网络的输入,得到当前的子信道分配动作at1和当前的功率分配动作at2;基站执行当前动作at={at1,at2},根据当前动作at选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据预先设置的奖励函数对分配的子信道和功率做出反馈,并将奖励反馈值rt反馈给基站,基站得到当前的奖励反馈值rt,以及系统下一时刻的状态st+1;基站依据当前的奖励反馈值rt,以及系统下一时刻的状态st+1训练Dueling DQN神经网络和DDPG神经网络,并且得到下一时刻的子信道分配动作a(t+1)1和下一时刻的功率分配动作a(t+1)2,以继续进行下一轮的子信道和功率的分配。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,系统第t个时间槽时的状态st={SINRl,m,k(t)},st∈s,其中s为系统的状态空间,SINRl,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,DuelingDQN神经网络根据ò-贪婪策略以ò的概率从动作空间A1中随机选择当前的子信道分配动作at1,否则以1-ò的概率选择当前的子信道分配动作其中Q(st,at1;θ)为Dueling DQN神经网络的训练Q网络函数,其值为训练Q值,其中下角标t表明为第t个时间槽,at1表明该DQN神经网络是进行子信道分配的,θ为训练Q网络的权值,θ不断被更新;其中,Nt为随机探索噪声,为DDPG神经网络的Actor训练网络函数,为Actor训练网络的权值参数,不断被更新,at2被限制在[0,Pmax]范围内,Pmax为基站的最大发射功率。
如上所述的毫米波大规模MIMO-NOMA系统资源分配方法,其中,优选的是,通过奖励函数获得当前的奖励反馈值rt,其中,Rl,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率,Rl,m,k(t)=log2(1+SINRl,m,k(t)),Rmin为用户的最小数据速率。
一种毫米波大规模MIMO-NOMA系统资源分配系统,包括:一个基站和K个用户,基站和用户执行上述任一项所述的毫米波大规模MIMO-NOMA系统资源分配方法。
为解决上述技术问题,本申请提供的毫米波大规模MIMO-NOMA系统资源分配方法及系统依据系统的动作空间分配的子信道和功率,并且还通过对保存的数据进行采样训练神经网络,从而实现子信道和功率的有效分配,并且子信道和功率的分配是基于系统前一时刻的状态以及反馈的奖励值,因此本申请的毫米波大规模MIMO-NOMA系统资源分配方法及系统还可以在资源有限以及用户更高数据速率要求的情况下,为每个用户合理高效分配无线资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的毫米波大规模MIMO-NOMA系统的示意图;
图2是本申请实施例一提供的毫米波大规模MIMO-NOMA系统资源分配方法的流程图;
图3是本申请实施例二提供的毫米波大规模MIMO-NOMA系统资源分配方法的流程图;
图4是本申请实施例二提供的毫米波大规模MIMO-NOMA系统资源分配的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,本申请的毫米波大规模MIMO-NOMA系统包括:一个基站、K个用户、NRF根RF链路、N根天线。其中,基站位于小区的中心,K个用户随机分布在小区内并且可以随机移动,根据用户分组算法,将K个用户分为NRF组,得到用户集合其中Ω1为第一组用户,Ω2为第二组用户,为第NRF组用户。将总的带宽分为L个正交子信道,得到子信道集合L={1,2,…,l,…,L},l∈L,通过子信道之间的正交性从而避免子信道之间的干扰。
在此基础上,通过子信道分配因子xl,m,k(t)表示在第t个时间槽时子信道的分配情况,当xl,m,k(t)=1时表示在第t个时间槽时第l个子信道被分配给第m组中第k个用户,否则被表示为xl,m,k(t)=0。通过功率分配因子Pl,m,k(t)表示在第t个时间槽时在第l个子信道上第m组中第k个用户的发射功率。
实施例一
如图2所示,本申请提供了一种毫米波大规模MIMO-NOMA系统资源分配方法,包括以下步骤:
步骤S210、基站获得系统当前的状态st,并且将当前状态st作为DQN神经网络的输入,得到当前的子信道分配动作at1和当前的功率分配动作at2;
DQN神经网络可以根据当前系统所处的状态得到接下来待做出的最佳动作,以此来保障在满足用户最小数据速率约束条件下最大化整个MIMO-NOMA系统的可达和速率。
为了能够达到该目标,将系统第t个时间槽时的状态st定义为:st={SINRl,m,k(t)},且st∈s,其中s为系统的状态空间,SINRl,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。其中,状态st={SINRl,m,k(t)}反映了链路当前的信道质量SINR、子信道分配因子xl,m,k(t)以及当前的功率分配因子Pl,m,k(t)。
基站获得系统当前的状态st,将当前的状态st输入DQN神经网络,DQN神经网络包括:子信道分配DQN神经网络和功率分配DQN神经网络,子信道分配DQN神经网络会根据ò-贪婪策略获得当前的子信道分配动作at1,也就是以ò的概率从子信道分配动作空间A1中随机选择得到当前的子信道分配动作at1,否则以1-ò的概率选择得到当前的子信道分配动作其中Q(st,at1;θ)为DQN神经网络的训练Q网络函数,其值为训练Q值(其中,训练Q网络函数中参数的下角标t表明为第t个时间槽,动作a的下角标具有1表明该DQN神经网络是进行子信道分配的,下面关于下角标的含义均同此处),θ为训练Q网络的权值,θ不断被更新。
对于功率分配过程来说,随着相同的状态st作为功率分配DQN神经网络的输入,在采用跟子信道分配相同的动作策略后,得到当前的功率分配动作at2。从而获得当前动作 以便毫米波大规模MIMO-NOMA系统的基站执行该动作at。其中, at1∈A1,A1为子信道分配动作空间;at2∈A2,A2为功率分配动作空间,子信道分配动作空间和功率分配动作空间的总动作空间的大小为2L×K。
其中,x1,1,1(t)为在第t个时间槽时第1个子信道被分配给第1组中第1个用户,为在第t个时间槽时第l个子信道被分配给第m组中第|Ωm|个用户,为在第t个时间槽时第L个子信道被分配给第NRF组中第个用户;P1,1,1(t)为在第t个时间槽时在第1个子信道上第1组中第1个用户的发射功率,为在第t个时间槽时在第l个子信道上第m组中第|Ωm|个用户的发射功率,为在第t个时间槽时在第L个子信道上第NRF组中第个用户的发射功率。
另外,由于发射功率是一个连续变量,而DQN神经网络的输出是离散性的,因此功率分配DQN神经网络输出的动作空间at2会具有离散性,这样会导致动作空间at2变得十分巨大,巨大的动作空间会导致功率分配DQN神经网络训练收敛缓慢甚至不收敛,从而严重影响了毫米波大规模MIMO-NOMA系统的性能。因此,为了提高功率分配DQN神经网络的性能,本申请中采用多个功率分配DQN神经网络架构,以使多个功率分配DQN神经网络同步及分布式进行工作,从而提高毫米波大规模MIMO-NOMA系统的性能。
具体的,毫米波大规模MIMO-NOMA系统中将K个用户分为NRF个组,由于一个功率分配DQN神经网络能够决定一个用户的功率分配策略,因此本申请中需要K个功率分配DQN神经网络,若每个功率分配DQN神经网络的动作空间为E,那么通过采用K个功率分配DQN神经网络架构使得所有用户所需要的动作空间就从EK降低到了E×K,从而极大的降低了功率分配的动作空间,进而提升了毫米波大规模MIMO-NOMA系统的性能。
基于此,本申请实施例中动作空间at2优选为其中为在t时刻第1组中第1个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第1组中第2个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第m组中第1个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第m组中第|Ωm|个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第NRF组中第1个功率分配DQN神经网络所选择的功率分配动作,为在t时刻第NRF组中第个功率分配DQN神经网络所选择的功率分配动作。
在采用多个功率分配DQN神经网络时,待初始化得到初始的子信道分配动作a11后,由于K个用户被分为NRF组,所以K个功率分配DQN单元被按组进行选择激活,因此每个组中的用户对部分功率分配DQN神经网络进行选择激活。
步骤S220、基站执行当前动作at={at1,at2},根据当前动作at选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据预先设置的奖励函数对分配的子信道和功率做出反馈,并将奖励反馈值rt反馈给基站,基站得到当前的奖励反馈值rt,以及系统下一时刻的状态st+1;
基站执行当前的子信道分配动作at1和当前的功率分配动作at2,从而选择出相应的子信道和功率,并将选择出的子信道和功率发送给所有的用户,待用户依据选择出的子信道和功率运行后,用户和基站组成的系统更新了环境,并还根据预先设置的奖励函数对分配的子信道和功率分配的动作做出反馈,并将奖励反馈值rt反馈给基站,从而使基站得到当前的奖励反馈值rt。具体的,当前的奖励反馈值rt为系统的当前的可达和速率,通过奖励函数获得当前的奖励反馈值rt,其中,Rl,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率,Rl,m,k(t)=log2(1+SINRl,m,k(t)),Rmin为用户的最小数据速率。
基站执行当前的子信道分配动作at1和当前的功率分配动作at2后,系统的状态空间进入下一时刻,所以还获得系统下一时刻的状态st+1。
步骤S230、基站依据当前的奖励反馈值rt,以及系统下一时刻的状态st+1训练DQN神经网络,并且得到下一时刻的子信道分配动作a(t+1)1和下一时刻的功率分配动作a(t+1)2,以继续进行下一轮的子信道和功率的分配;
基站接收到当前的奖励反馈值rt以及系统下一时刻的状态st+1,通过经验重播机制将(st,at,rt,st+1)存入记忆库D中,然后在训练阶段从记忆库D中按批次随机抽取数据(si,ai,ri,si+1),其中si为用户在第i个时间槽时的状态,ai为在第i个时间槽时的动作,ri为在第i个时间槽时的奖励反馈值,si+1为系统在第i+1个时间槽时的状态,对DQN神经网络的参数进行迭代更新,以确保训练的数据是相互独立分布不具有相关性的。
对于子信道分配网络,在随机抽取数据(si,ai,ri,si+1)后,通过得到DQN神经网络目标Q网络的真实的目标Q值yi;其中Q(si+1,a(i+1)1;θ-)为DQN神经网络的目标Q网络函数;θ-为目标Q网络的权值,在一段时间内是固定的,每当训练完成一定轮数的迭代,用参数θ更新参数θ-;γ为折扣因子,γ∈[0,1];a(i+1)1为在第i+1个时间槽时的子信道分配动作;其中下角标表明为时间槽。
对子信道分配DQN神经网络训练的目的是使训练Q值与真实的目标Q值之间的预测误差无限接近于0,因此本申请中将预测误差定义为一个损失函数,即为:L(θ)=(yi-Q(si,ai1;θ))2,其中ai1为在第i个时间槽时的子信道分配动作空间。
然后,利用随机梯度下降优化器来最小化损失函数。具体的在从记忆库D中按批次随机抽取数据后,随机梯度下降优化器返回一组梯度,通过反向传播(Back Propagation,BP)技术更新训练Q网络的权值参数θ: 表示的是在第i个样本时刻所处状态s=si和所采取的动作a=ai1下产生的Q值的梯度。
对于功率分配DQN神经网络来说,采用和子信道分配DQN神经网络相同的方法来计算真实的目标Q值yi:其中a(i+1)2为在第i+1个时间槽时的功率分配动作,Q(si+1,a(i+1)2;θ-)为DQN神经网络的目标Q网络函数,其中a(i+1)2表明该DQN神经网络是进行功率分配的。
对应的损失函数为:L(θ)=(yi-Q(si,ai2;θ))2,其中,ai2在第i个时间槽时的功率分配动作,同理ai2为表明该DQN神经网络是进行功率分配的。
然后也利用随机梯度下降优化器来最小化损失函数,并通过反向传播(BackPropagation,BP)技术更新训练Q网络的权值参数θ。之后,每经过一定轮数的迭代后,训练Q网络的参数θ会同步更新目标Q网络参数θ-。
实施例二
如图3和图4,本申请提供了一种毫米波大规模MIMO-NOMA系统资源分配方法,包括以下步骤:
步骤S310、基站获得系统当前的状态st,并且将当前状态st作为DuelingDQN神经网络和DDPG神经网络的输入,得到当前的子信道分配动作at1和当前的功率分配动作at2;
将系统第t个时间槽时的状态st定义为st={SINRl,m,k(t)},且st∈s,其中s为系统的状态空间,SINRl,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比。其中,系统状态st={SINRl,m,k(t)}反映了链路当前的信道质量SINR、子信道分配因子xl,m,k(t)以及当前的功率分配因子Pl,m,k(t)。
基站获得系统当前的状态st,对于子信道分配的Dueling DQN神经网络,将系统当前的状态st输入Dueling DQN神经网络,Dueling DQN神经网络会根据ò-贪婪策略获得当前的子信道分配动作at1,也就是意味着以ò的概率从动作空间A1中随机选择当前的子信道分配动作at1,否则以1-ò的概率选择当前的子信道分配动作其中Q(st,at1;θ)为Dueling DQN神经网络的训练Q网络函数,其值为训练Q值,其中下角标t表明为第t个时间槽,at1表明该DQN神经网络是进行子信道分配的,θ为训练Q网络的权值,θ不断被更新。
对于功率分配的DDPG神经网络来说,DDPG神经网络根据随机的权值和当前的状态st生成当前的功率分配动作在此基础上,为了平衡动作的exploration(探索)和exploitation(利用),所以在训练过程中,为功率分配动作的决策机制引入随机噪声,即:其中,Nt为随机探索噪声,为DDPG神经网络的Actor训练网络函数,为Actor训练网络的权值参数,不断被更新,at2被限制在[0,Pmax]范围内,Pmax为基站的最大发射功率。
步骤S320、基站执行当前动作at={at1,at2},根据当前动作at选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据预先设置的奖励函数对分配的子信道和功率做出反馈,并将奖励反馈值rt反馈给基站,基站得到当前的奖励反馈值rt,以及系统下一时刻的状态st+1;
基站执行当前的子信道分配动作at1和当前的功率分配动作at2,从而选择出相应的子信道和功率,并将选择出的子信道和功率发送给所有的用户,待用户依据选择出的子信道和功率运行后,基站和用户组成的系统更新了环境,并根据预先设置的奖励函数对分配的子信道和功率做出反馈,并将奖励反馈值rt反馈给基站,从而使基站得到当前的奖励反馈值rt。具体的,当前的奖励反馈值rt为系统当前的可达和速率,通过奖励函数获得当前的奖励反馈值rt,其中,Rl,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率,Rl,m,k(t)=log2(1+SINRl,m,k(t)),Rmin为用户的最小数据速率。
用户执行当前的子信道分配动作at1和当前的功率分配动作at2后,用户和基站组成的系统的状态空间进入下一时刻,所以还获得系统下一时刻的状态st+1。
步骤S330、基站依据当前的奖励反馈值rt,以及系统下一时刻的状态st+1训练Dueling DQN神经网络和DDPG神经网络,并且得到下一时刻的子信道分配动作a(t+1)1和下一时刻的功率分配动作a(t+1)2,以继续进行下一轮的子信道和功率的分配;
基站接收到当前的奖励反馈值rt以及系统下一时刻的状态st+1,通过经验重播机制将(st,at,rt,st+1)存入记忆库D中,然后在训练阶段从记忆库D中按批次随机抽取数据(si,ai,ri,si+1),其中si为系统在第i个时间槽时的状态,ai为在第i个时间槽时的动作,ri为在第i个时间槽时的奖励反馈值,si+1为系统在第i+1个时间槽时的系统状态,对DuelingDQN神经网络和DDPG神经网络的参数进行迭代更新,以确保训练的数据是相互独立分布不具有相关性的。
具体的,对于子信道分配Dueling DQN神经网络,在随机抽取数据(si,ai,ri,si+1)后,通过得到Dueling DQN神经网络真实的目标Q值yi,Q(si+1,a(i+1)1;θ-,α,β)为Dueling DQN神经网络目标Q网络函数。
由于Dueling DQN神经网络相对于DQN神经网络而言,是将DQN神经网络的值函数模型拆解为两个部分,第一部分为只与状态有关的价值函数V,第二部分为与状态和动作都有关的优势函数A,因此将Q(si+1,a(i+1)1;θ-,α,β)表示为:Q(si+1,a(i+1)1;θ-,α,β)=V(si+1;θ-,α)+A(si+1,a(i+1)1;θ-,β)。
其中,θ-为目标Q网络的权值,在一段时间内是固定的,每当训练完成一定轮数的迭代,用参数θ更新参数θ-;V(si+1;θ-,α)为价值函数,表示的是在下一时刻状态的价值,与具体要采取的动作无关,α为价值函数V网络部分的参数;A(si+1,a(i+1)1;θ-,β)为优势函数,表示的是在下一时刻采取子信道分配动作后的价值,与下一时刻状态和采取的动作都有关,β为优势函数A网络部分的参数。
在此基础上,对拆分成的两个部分价值函数和优势函数的输出做出一定的限制。具体的,对优势函数A进行限定,其中a′为下一时刻采取的动作;a′(i+1)1为下一时刻从采样的子信道分配动作空间中选择的动作;∑a′A(si+1,a′(i+1)1;θ-,β)为当前状态下所有优势函数A的值的平均数。
在上述公式中,通过每一个优势函数A的值减去当前状态下所有优势函数A的值的平均数,以对优势函数A进行限定,从而可以保证优势函数A的期望值为0的约束,增加了价值函数V和优势函数A的输出稳定性。
在此基础上,对Dueling DQN神经网络训练的目的是使训练Q值与真实的目标Q值之间的预测误差无限接近于0,Dueling DQN神经网络中的训练Q网络损失函数为:L(θ)=(yi-Q(si,ai1;θ))2。DDPG神经网络和DQN神经网络一样,用了目标网络(Target Network)技术,先固定求Target的网络,在更新之后,再把参数复制到Target网络。
对于功率分配DDPG神经网络来说,整个DDPG神经网络主要包括四个组成部分,分别是Actor目标网络、Actor训练网络、Critic目标网络以及Critic训练网络。其中,为Actor训练网络函数,是用来选择动作的;Q(s,a;ω)为Critic训练网络函数,是用来对所选择的动作做出训练Q值的,其中ω为Critic训练网络的权值参数。与之对应的,为Actor目标网络函数,为Critic目标网络函数,Actor目标网络函数和Critic目标网络函数都是用来生成训练数据的,其中为Actor目标网络的权值参数,ω-为Critic目标网络的权值参数。
Critic训练网络的权值参数ω通过最小化损失函数进行更新,Critic训练网络的损失函数为:∑i为对所有数据进行求和操作,N为从记忆库D中按批次采样数据的大小,选择的动作的训练Q值可以被Critic训练网络函数Q(s,a;ω)估计为根据DPG理论,Actor训练网络函数的权值参数可以根据以下公式更新:J(μ)表示在采取策略μ时的性能度量(最小化损失函数),表示的是参数下采取的策略μ的梯度。表示的是在第i个样本时刻所处状态s=si和所采取的动作下产生的Q值的梯度。表示的是在第i个样本时刻所处状态s=si下采取的策略对参数的梯度。
在上述基础上,将系统状态si作为Actor训练网络的输入,输出的是功率分配动作ai2,然后更新对应的参数然后,将系统状态si作为Critic训练网络的输入,输出的是该状态下执行的动作的Q值,然后通过 更新权值参数ω。
另外,DDPG神经网络从训练网络到目标网络的参数更新不再采用直接复制更新的硬方法,而是选择采用的一种软更新的方法,即每次参数值更新一点,也即表达为:ω-←τω+(1-τ)ω-,其中τ是软更新系数,一般取值比较小,例如:τ取0.1或者0.01。
由于本申请是依据系统的动作空间分配的子信道和功率,并且还通过对保存的数据进行采样训练神经网络,从而实现子信道和功率的有效分配,并且子信道和功率的分配是基于系统前一时刻的状态以及反馈的奖励值,因此本申请的毫米波大规模MIMO-NOMA资源分配方法及系统还可以在资源有限以及用户更高数据速率要求的情况下,为每个用户合理高效分配无线资源。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (8)
1.一种毫米波大规模MIMO-NOMA系统资源分配方法,其特征在于,包括以下步骤:
基站获得系统当前的状态st,并且将当前状态st作为DQN神经网络的输入,得到当前的子信道分配动作at1和当前的功率分配动作at2;
基站执行当前动作at={at1,at2},根据当前动作at选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据预先设置的奖励函数对分配的子信道和功率分配的动作做出反馈,并将奖励反馈值rt反馈给基站,基站获得当前的奖励反馈值rt,以及系统下一时刻的状态st+1;当前的奖励反馈值其中,Rl,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率,Rl,m,k(t)=log2(1+SINRl,m,k(t)),Rmin为用户的最小数据速率,SINRl,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比,L为子信道集合中的子信道个数,NRF为用户集合中的用户组数,|Ωm|为第m组中的用户个数;
基站依据当前的奖励反馈值rt,以及系统下一时刻的状态st+1训练DQN神经网络,并且得到下一时刻的子信道分配动作a(t+1)1和下一时刻的功率分配动作a(t+1)2,以继续进行下一轮的子信道和功率的分配。
2.根据权利要求1所述的毫米波大规模MIMO-NOMA系统资源分配方法,其特征在于,系统第t个时间槽时的状态st={SINRl,m,k(t)},st∈s,其中s为系统的状态空间。
5.一种毫米波大规模MIMO-NOMA系统资源分配方法,其特征在于,包括以下步骤:
基站获得系统当前的状态st,并且将当前状态st作为Dueling DQN神经网络和DDPG神经网络的输入,得到当前的子信道分配动作at1和当前的功率分配动作at2;
基站执行当前动作at={at1,at2},根据当前动作at选择功率和子信道发送给所有的用户以进行子信道和功率的分配,系统更新环境,并根据预先设置的奖励函数对分配的子信道和功率做出反馈,并将奖励反馈值rt反馈给基站,基站获得当前的奖励反馈值rt,以及系统下一时刻的状态st+1;
当前的奖励反馈值其中,Rl,m,k(t)为在第t个时间槽时第l个子信道上第m组中的第k个用户的数据速率,Rl,m,k(t)=log2(1+SINRl,m,k(t)),Rmin为用户的最小数据速率,SINRl,m,k(t)为第t个时间槽时在第l个子信道上第m组中第k个用户的信号与干扰加噪声比,L为子信道集合中的子信道个数,NRF为用户集合中的用户组数,|Ωm|为第m组中的用户个数;
基站依据当前的奖励反馈值rt,以及系统下一时刻的状态st+1训练Dueling DQN神经网络和DDPG神经网络,并且得到下一时刻的子信道分配动作a(t+1)1和下一时刻的功率分配动作a(t+1)2,以继续进行下一轮的子信道和功率的分配。
6.根据权利要求5所述的毫米波大规模MIMO-NOMA系统资源分配方法,其特征在于,系统第t个时间槽时的状态st={SINRl,m,k(t)},st∈s,其中s为系统的状态空间。
7.根据权利要求5或6所述的毫米波大规模MIMO-NOMA系统资源分配方法,其特征在于,Dueling DQN神经网络根据贪婪策略以的概率从动作空间A1中随机选择当前的子信道分配动作at1,否则以的概率选择当前的子信道分配动作其中Q(st,at1;θ)为Dueling DQN神经网络的训练Q网络函数,其值为训练Q值,其中下角标t表明为第t个时间槽,at1表明该DQN神经网络是进行子信道分配的,θ为训练Q网络的权值,θ不断被更新;
8.一种毫米波大规模MIMO-NOMA系统资源分配系统,其特征在于,包括:一个基站和K个用户,基站和用户执行上述权利要求1-7任一项所述的毫米波大规模MIMO-NOMA系统资源分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505976.4A CN113242602B (zh) | 2021-05-10 | 2021-05-10 | 毫米波大规模mimo-noma系统资源分配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505976.4A CN113242602B (zh) | 2021-05-10 | 2021-05-10 | 毫米波大规模mimo-noma系统资源分配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113242602A CN113242602A (zh) | 2021-08-10 |
CN113242602B true CN113242602B (zh) | 2022-04-22 |
Family
ID=77132956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110505976.4A Active CN113242602B (zh) | 2021-05-10 | 2021-05-10 | 毫米波大规模mimo-noma系统资源分配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113242602B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116033556B (zh) * | 2023-01-09 | 2023-07-25 | 重庆邮电大学 | 一种实现高能效大规模urllc的资源分配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019190476A1 (en) * | 2018-03-27 | 2019-10-03 | Nokia Solutions And Networks Oy | Method and apparatus for facilitating resource pairing using a deep q-network |
CN112351433A (zh) * | 2021-01-05 | 2021-02-09 | 南京邮电大学 | 一种基于强化学习的异构网络资源分配方法 |
CN112566261A (zh) * | 2020-12-08 | 2021-03-26 | 南京爱而赢科技有限公司 | 一种基于深度强化学习的上行noma资源分配方法 |
CN112566253A (zh) * | 2020-11-10 | 2021-03-26 | 北京科技大学 | 一种无线资源分配联合优化方法及装置 |
CN112601284A (zh) * | 2020-12-07 | 2021-04-02 | 南京邮电大学 | 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102030128B1 (ko) * | 2018-02-28 | 2019-11-08 | 한국과학기술원 | 기계학습을 이용한 무선 백홀망 자원할당방법 및 자원할당 장치 |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN109803344B (zh) * | 2018-12-28 | 2019-10-11 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
US11461145B2 (en) * | 2019-01-28 | 2022-10-04 | EMC IP Holding Company LLC | Building neural networks for resource allocation for iterative workloads using reinforcement learning |
CN111683381B (zh) * | 2020-04-28 | 2023-04-07 | 南京邮电大学 | 基于深度强化学习的端到端网络切片资源分配方法 |
CN111901862B (zh) * | 2020-07-07 | 2021-08-13 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
-
2021
- 2021-05-10 CN CN202110505976.4A patent/CN113242602B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019190476A1 (en) * | 2018-03-27 | 2019-10-03 | Nokia Solutions And Networks Oy | Method and apparatus for facilitating resource pairing using a deep q-network |
CN112566253A (zh) * | 2020-11-10 | 2021-03-26 | 北京科技大学 | 一种无线资源分配联合优化方法及装置 |
CN112601284A (zh) * | 2020-12-07 | 2021-04-02 | 南京邮电大学 | 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 |
CN112566261A (zh) * | 2020-12-08 | 2021-03-26 | 南京爱而赢科技有限公司 | 一种基于深度强化学习的上行noma资源分配方法 |
CN112351433A (zh) * | 2021-01-05 | 2021-02-09 | 南京邮电大学 | 一种基于强化学习的异构网络资源分配方法 |
Non-Patent Citations (2)
Title |
---|
Energy-Efficient Resource Allocation in Uplink NOMA Systems with Deep Reinforcement Learning;Y.Zhang;《 2019 11th International Conference on Wireless Communications and Signal Processing (WCSP)》;20191209;全文 * |
基于深度强化学习的无线虚拟网络资源分配问题研究;熊昆;《中国优秀硕士论文全文库》;20200115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113242602A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737057B (zh) | 基于深度学习的多载波认知noma资源分配方法 | |
US11671151B2 (en) | Efficient peak-to-average-power reduction for OFDM and MIMO-OFDM | |
CN112601284B (zh) | 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 | |
JP2006067572A (ja) | 無線ネットワークにおけるサブチャンネルの割り当て方法 | |
WO2006075205A1 (en) | A gradient-based method and apparatus for ofdm sub-carrier power optimization | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN114189870A (zh) | 基于多智能体深度强化学习的多小区多业务资源分配方法 | |
CN110337144B (zh) | 基于角度域毫米波非正交多址接入系统的功率分配方法 | |
CN102781101B (zh) | 一种ofdma中继系统的资源分配方法 | |
CN105873214A (zh) | 一种基于遗传算法的d2d通信系统的资源分配方法 | |
CN112911711A (zh) | 一种多载波noma系统的资源分配方法 | |
CN101917768B (zh) | 一种正交频分多址接入中继系统的用户公平资源分配方法 | |
KR20190140366A (ko) | 비직교 다중 접속 시스템에서 코드북 결정 방법 및 이를 위한 장치 | |
CN101998612B (zh) | 两跳多中继的正交频分复用系统中的资源分配方法和装置 | |
CN113242602B (zh) | 毫米波大规模mimo-noma系统资源分配方法及系统 | |
CN113923787A (zh) | 实现大规模urllc的用户自适应接入方法及装置 | |
Zhu et al. | Joint antenna and user scheduling in the massive MIMO system over time-varying fading channels | |
CN111315017A (zh) | 一种基于scma系统节能的资源分配方法 | |
CN110856247A (zh) | 一种基于服务质量的下行noma功率分配方法及系统 | |
Jayasankar et al. | Novel selective mapping with oppositional hosted cuckoo optimization algorithm for PAPR reduction in 5G UFMC systems | |
CN112469113B (zh) | 一种多载波noma系统的资源分配方法及装置 | |
CN111682915B (zh) | 一种频谱资源自分配方法 | |
CN107592674B (zh) | 一种信能协同传输的ofdm中继网络资源分配方法 | |
KR20160052374A (ko) | 다중 셀 초다중 안테나 통신 시스템에서 최적의 파일럿 신호의 반복 사용과 배정 방법 | |
CN112738827B (zh) | H-cran中基于谱效最大化的子载波与功率联合优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |