CN117176213A - 基于深度预测q网络的scma码本选择和功率分配方法 - Google Patents
基于深度预测q网络的scma码本选择和功率分配方法 Download PDFInfo
- Publication number
- CN117176213A CN117176213A CN202311452308.5A CN202311452308A CN117176213A CN 117176213 A CN117176213 A CN 117176213A CN 202311452308 A CN202311452308 A CN 202311452308A CN 117176213 A CN117176213 A CN 117176213A
- Authority
- CN
- China
- Prior art keywords
- internet
- network
- representing
- codebook
- things
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000009471 action Effects 0.000 claims abstract description 67
- 230000005540 biological transmission Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000013468 resource allocation Methods 0.000 claims abstract description 16
- 239000003795 chemical substances by application Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 16
- 239000000969 carrier Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006855 networking Effects 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000005562 fading Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000002045 lasting effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 13
- 206010042135 Stomatitis necrotising Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 201000008585 noma Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本申请涉及一种基于深度预测Q网络的SCMA码本选择和功率分配方法。所述方法包括:将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,智能体通过与动态环境交互获得奖励和惩罚,得到动作策略;根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略。采用本方法能够在动态环境下实现SCMA的资源分配。
Description
技术领域
本申请涉及无线通信技术领域,特别是涉及一种基于深度预测Q网络的SCMA码本选择和功率分配方法。
背景技术
非正交多址(Non-orthogonal multiple access,NOMA)技术是一种多物联网设备接入技术,可以实现物联网网络中的大规模连接。NOMA技术通过将多个物联网设备的信号在同一频带上进行叠加,并使用不同的功率级别或者码本来区分物联网设备。稀疏码多址(Sparse Code Multiple Access,SCMA)是一种码域NOMA技术,其核心在于设计一组稀疏的非正交码本,将物联网设备数据映射到码本中的某些码字上,再通过多物联网设备干扰消除技术如消息传递算法将不同物联网设备的数据分离出来。SCMA技术是未来通信和物联网大连接场景下的候选空口技术之一。
SCMA技术采用高维正交调幅映射与低密度扩频技术相结合的码本,可通过将不同的码本选择给不同的物联网设备实现多址接入。SCMA的资源分配如码本选择和功率分配方式受到广泛关注。目前,学者们已经提出了多种SCMA的资源分配方法,如凸优化方法和启发式算法。前者将SCMA的码本、子载波和功率之间的关系作为约束条件,将最大化SCMA和速率建模为优化问题进行求解;后者则通过启发式策略,将码本选择给具有最小码本间干扰的物联网设备,具有较好的性能。
然而,以往的研究主要集中在静态信道环境下,而现实中物联网设备所处的信道环境是动态变化的。此外,传统的优化算法和启发式算法,通常需要较高的在线计算复杂度,难以应对信道环境变化的挑战。因此,在动态信道环境下实现SCMA的资源分配仍然是一个亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在动态环境下实现SCMA的资源分配的基于深度预测Q网络的SCMA码本选择和功率分配方法。
一种基于深度预测Q网络的SCMA码本选择和功率分配方法,所述方法包括:
获取物联网设备在数据传输过程中的码本集合和子载波集合;
根据SCMA技术和码本集合为多个物联网设备分配不同的码本,计算分配过程中的SCMA码本选择和功率分配策略;
利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率;
将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,利用目标函数和约束条件设置码本选择及功率分配问题的求解模型;
将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,智能体通过与动态环境交互获得奖励和惩罚,得到动作策略;
根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络;
利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略。
在其中一个实施例中,计算分配过程中的SCMA码本选择和功率分配策略,包括:
计算分配过程中的SCMA码本选择和功率分配策略为
;
;
其中,表示码本选择的二进制变量,/>表示子载波/>上分配的功率比例,/>表示码本集合,/>表示子载波集合,/>表示时隙集合,/>表示码本序列,/>表示子载波序号,/>表示时隙序号,/>表示物联网设备序号,/>表示物联网设备集合,/>表示基站序号。
在其中一个实施例中,利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率,包括:
利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率为
;
其中,表示物联网设备/>占用码本/>的信干噪比,/>表示码本/>占用的子载波/>,/>表示物联网设备/>在码本/>上的发射功率,/>表示时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益,/>表示物联网设备/>在子载波/>上的干扰,/>表示背景噪声的功率。
在其中一个实施例中,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,包括:
约束一:表示将SCMA码本选择给物联网设备,即
;
约束二:表示给被占用的子载波分配功率,即
;
约束三:每个SCMA码本最多可以由一个物联网设备选择,即
;
约束四:各子载波的功率分配比例之和等于1,即
。
在其中一个实施例中,将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,包括:
观测结果:表示物联网设备在时隙/>观测到的环境状态,观测结果为
;
其中,表示子载波上观测到的信道增益,和/>分别表示物联网设备/>在前一个时隙从基站广播中观测到的其他物联网设备的信道状态和动作;
动作:物联网设备在时隙/>的动作为
;
其中,表示所选的SCMA码本,/>表示子载波上分配的功率比例;
奖励:指导学习的奖励为物联网设备/>的传输速率,表示为
其中,物联网设备的传输速率。
在其中一个实施例中,根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络,包括:
将预先构建的深度预测Q网络和目标网络的权重都随机初始化为相同的权值,在训练过程中,首先进行状态初始化,在每个训练回合,深度预测Q网络的环境参数都会被重置,智能体/>观测到环境状态的状态数据,使用最大最小归一化方法将相同类型的状态数据归一化为/>;
在每个时隙,归一化的状态输入训练网络,输出是每个动作的Q值,根据/>值和贪心策略选择动作,获得奖励/>并归一化下一观测值/>,利用经验重放方法将所有智能体的历史动作策略随机化,去除相邻数据间相关性,在经验回放/>中存储,从/>中抽取/>组经验作为训练数据并根据预先设置的损失函数对深度预测Q网络的权值更新并复制到固定目标网络,得到训练好的深度预测Q网络。
在其中一个实施例中,每个动作的Q值为
;
其中,为奖励折扣系数,/>表示物联网设备/>在时隙/>观测结果,/>表示物联网设备/>在时隙/>的动作,/>为物联网设备/>获得的奖励/>。
在其中一个实施例中,预先设置的损失函数为
;
;
其中,为目标网络的权值,/>表示物联网设备/>在时隙/>观测结果。
在其中一个实施例中,利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略,包括:
在输入层输入物联网设备观测到的状态/>和在前一个时隙观测到的其他物联网设备的信道状态/>和动作/>将传递到训练好的对深度预测Q网络的LSTM层;
在LSTM层学习信道状态和当前SCMA资源分配策略来预测其他设备的当前状态并使用时间相关法来预测未来时间序列的变化,得到观测状态和预测状态并传递到训练好的深度预测Q网络的全连接层;
在全连接层采用ReLu激活函数将观测状态和预测状态映射到值并传递到训练好的深度预测Q网络的Dueling层;
在Dueling层首先学习当前状态值以及动作优势值/>,然后将它们相加得到最终输出Q值并传递到训练好的深度预测Q网络的输出层;
在输出层根据每个动作的Q值选择最优动作,最优动作为最优码本选择及功率分配策略。
上述基于深度预测Q网络的SCMA码本选择和功率分配方法,本申请通过利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率;将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,利用目标函数和约束条件设置码本选择及功率分配问题的求解模型。将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,智能体通过与动态环境交互获得奖励和惩罚,得到动作策略。智能体可以从部分信道状态信息的动态环境中学习近似最优的SCMA资源分配策略,避免了在每个时隙中解决动态信道的非凸优化问题,从而大大降低了复杂度,再根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络;利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略,通过采用了LSTM和D3QN网络架构,将物联网设备作为智能体,通过LSTM层预测其他设备的状态,并通过D3QN网络来决定SCMA码本选择和功率分配。与基准方案以及OFDMA接入方案相比,本发明能够有效避免SCMA物联网设备选择码本冲突情况,从而有效提升了SCMA码本选择和功率分配效率。
附图说明
图1为一个实施例中一种基于深度预测Q网络的SCMA码本选择和功率分配方法的流程示意图;
图2为一个实施例中不同接入方案传输速率对比的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于深度预测Q网络的SCMA码本选择和功率分配方法,包括以下步骤:
步骤102,获取物联网设备在数据传输过程中的码本集合和子载波集合;根据SCMA技术和码本集合为多个物联网设备分配不同的码本,计算分配过程中的SCMA码本选择和功率分配策略。
在SCMA系统中,码本的集合为,子载波的集合为/>。稀疏指示矩阵/>描述了码本与各子载波之间的关系,矩阵元素记为/>。/>为1时,表示物联网设备所用的码本/>占用了子载波/>。一个典型的拥有6个物联网设备、4个子载波的SCMA系统的指示矩阵为
;
稀疏指示矩阵的列重为,表示每个物联网设备占用/>个子载波,其行重为/>,代表每个子载波上承载/>个物联网设备的信息。物联网设备/>在码本/>上的发射功率为/>,与比例系数/>成正比,且满足/>。在SCMA系统中,通过为多个设备分配不同的码本来实现多址接入。码本选择的二进制变量为/>,如果码本/>在时隙/>被分配给了物联网设备/>,则/>,否则/>。为了减少不同物联网设备之间的干扰,假定一个码本最多只分配给一个物联网设备,即/>。SCMA码本选择和功率分配策略描述为:
;
。
步骤104,利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率;将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,利用目标函数和约束条件设置码本选择及功率分配问题的求解模型。
首先在时隙,物联网设备/>占用码本/>的信干噪比为
;
其中,表示码本/>占用的子载波/>,/>是时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益,/>表示背景噪声的功率。令/>表示占据相同子载波/>的物联网设备。/>表示物联网设备/>在子载波/>上的干扰,可以表示为
。
使用标准化带宽,物联网设备在时隙/>的传输速率为
。
码本选择及功率分配方案可以描述为以下约束下的传输速率优化问题,则优化目标为
;
最后根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件。
步骤106,将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,智能体通过与动态环境交互获得奖励和惩罚,得到动作策略。
由于传输速率优化问题是在动态环境下的非凸优化问题,难以使用传统优化算法解决。因此,本申请将物联网设备表示为智能体,智能体可以从部分信道状态信息的动态环境中学习近似最优的SCMA资源分配策略。本申请所提出的在线学习算法避免了在每个时隙中解决动态信道的非凸优化问题,从而大大降低了复杂度。
本发明基于长短时记忆网络(LSTM)和D3QN网络提出深度预测Q网络(DPQN)。将每个物联网设备视为一个智能体,首先利用LSTM网络通过基站广播的前一时刻的观测推断其他物联网设备的当前观测。通过输入来自其他物联网设备的历史信息(信道增益、动作选择),智能体可以获得近似的全局信息。然后,每个智能体可以通过D3QN网络与动态环境交互,学习近似最优的SCMA码本选择和功率。基于原优化问题的设计,其观测、动作和奖励定义如下:
观测:物联网设备在时隙/>观测到的环境状态为/>,包含子载波上观测到的信道增益,/>,物联网设备/>在前一个时隙从基站广播中观测到的其他物联网设备的信道状态和动作,/>,以及。因此,观测结果可以表示为
;
动作:物联网设备在时隙/>的动作为
;
其中,表示所选的SCMA码本,/>表示子载波上分配的功率比例。
奖励:根据原优化问题,指导学习的奖励为物联网设备/>的传输速率,表示为
。
如果物联网设备选择更优的SCMA资源分配策略,传输速率更高,可以获得更大的奖励。在时隙中,物联网设备通过观察环境的状态/>并根据/>值选择动作/>,即
;
其中,表示累计奖励,/>为奖励折扣系数,表示当前奖励和未来奖励之间的权衡。
步骤108,根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络;利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略。
智能体通过与SCMA环境的交互获得奖励和惩罚,从而更新其动作策略。当处理一个比较大的状态与动作空间时,可以用深度神经网络来近似对应两者关系。然后,两次训练经验之间的强相关性与神经网络独立同分布的要求不符。为了解决这个问题,本发明通过经验重放以及固定目标网络来提高训练收敛性。
首先利用经验重放方法将训练数据随机化,去除相邻数据间相关性。通过从经验池中随机选择一组经验作为训练数据。固定目标网络与训练网络具有相同的结构,不同的权值,可以降低估计/>值与目标/>值之间的相关性。目标网络的参数在固定次的迭代中保持不变,然后将训练网络的权值复制到目标网络。
深度神经网络的输入是观测值,输出是每个动作的Q值,即/>。权值/>是网络的每层权值,并在训练过程中通过反向传播进行更新。损失函数/>定义为
;
;
其中,为目标网络的权值。物联网设备/>执行动作/>,并获得奖励/>。
物联网设备只能观察部分环境状态,并不知道其他物联网设备的信道和SCMA资源分配策略。然而,SCMA资源分配取决于其他物联网设备的资源分配策略。因此,利用LSTM可以预测其他设备的信道和资源分配状态,故利用训练好的对深度预测Q网络可以根据输入的当前环境状态观测结果输出对应的最优动作,即最优的码本选择及功率分配策略。
上述基于深度预测Q网络的SCMA码本选择和功率分配方法中,本申请通过利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率;将最大化物联网设备的传输速率设置为码本选择及功率分配问题的目标函数,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,利用目标函数和约束条件设置码本选择及功率分配问题的求解模型。将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,智能体通过与动态环境交互获得奖励和惩罚,得到动作策略。智能体可以从部分信道状态信息的动态环境中学习近似最优的SCMA资源分配策略,避免了在每个时隙中解决动态信道的非凸优化问题,从而大大降低了复杂度,再根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络;利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略,通过采用了LSTM和D3QN网络架构,将物联网设备作为智能体,通过LSTM层预测其他设备的状态,并通过D3QN网络来决定SCMA码本选择和功率分配。与基准方案以及OFDMA接入方案相比,本发明能够有效避免SCMA物联网设备选择码本冲突情况,从而有效提升了SCMA码本选择和功率分配效率。
在其中一个实施例中,计算分配过程中的SCMA码本选择和功率分配策略,包括:
计算分配过程中的SCMA码本选择和功率分配策略为
;
;
其中,表示码本选择的二进制变量,/>表示子载波/>上分配的功率比例,/>表示码本集合,/>表示子载波集合,/>表示时隙集合,/>表示码本序列,/>表示子载波序号,/>表示时隙序号,/>表示物联网设备序号,/>表示物联网设备集合,/>表示基站序号。
在其中一个实施例中,利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率,包括:
利用SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率为
;
其中,表示物联网设备/>占用码本/>的信干噪比,/>表示码本/>占用的子载波/>,/>表示物联网设备/>在码本/>上的发射功率,/>表示时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益,/>表示物联网设备/>在子载波上的干扰,/>表示背景噪声的功率。
在其中一个实施例中,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,包括:
约束一:表示将SCMA码本选择给物联网设备,即
;
约束二:表示给被占用的子载波分配功率,即
;
约束三:每个SCMA码本最多可以由一个物联网设备选择,即
;
约束四:各子载波的功率分配比例之和等于1,即
。
在其中一个实施例中,将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,包括:
观测结果:表示物联网设备在时隙/>观测到的环境状态,观测结果为
;
其中,表示子载波上观测到的信道增益,和/>分别表示物联网设备/>在前一个时隙从基站广播中观测到的其他物联网设备的信道状态和动作;
动作:物联网设备在时隙/>的动作为
;
其中,表示所选的SCMA码本,/>表示子载波上分配的功率比例;
奖励:指导学习的奖励为物联网设备/>的传输速率,表示为
;
其中,物联网设备的传输速率。
在其中一个实施例中,根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络,包括:
将预先构建的深度预测Q网络和目标网络的权重都随机初始化为相同的权值,在训练过程中,首先进行状态初始化,在每个训练回合,深度预测Q网络的环境参数都会被重置,智能体/>观测到环境状态的状态数据,使用最大最小归一化方法将相同类型的状态数据归一化为/>;
在每个时隙,归一化的状态输入训练网络,输出是每个动作的Q值,根据/>值和贪心策略选择动作,获得奖励/>并归一化下一观测值/>,利用经验重放方法将所有智能体的历史动作策略随机化,去除相邻数据间相关性,在经验回放/>中存储,从/>中抽取/>组经验作为训练数据并根据预先设置的损失函数对深度预测Q网络的权值更新并复制到固定目标网络,得到训练好的深度预测Q网络。
在具体实施例中,动作通过ε-贪心策略确定,即
;
其中,为/>之间的一个随机数。
在其中一个实施例中,每个动作的Q值为
;
其中,为奖励折扣系数,/>表示物联网设备/>在时隙/>观测结果,/>表示物联网设备/>在时隙/>的动作,/>为物联网设备/>获得的奖励/>。
在其中一个实施例中,预先设置的损失函数为
;
其中,为目标网络的权值,/>表示物联网设备/>在时隙/>观测结果。
在其中一个实施例中,利用训练好的对深度预测Q网络求解模型进行求解,得到码本选择及功率分配策略,包括:
在输入层输入物联网设备观测到的状态/>和在前一个时隙观测到的其他物联网设备的信道状态/>和动作/>将传递到训练好的对深度预测Q网络的LSTM层;
在LSTM层学习信道状态和当前SCMA资源分配策略来预测其他设备的当前状态并使用时间相关法来预测未来时间序列的变化,得到观测状态和预测状态并传递到训练好的深度预测Q网络的全连接层;
在全连接层采用ReLu激活函数将观测状态和预测状态映射到值并传递到训练好的深度预测Q网络的Dueling层;
在Dueling层首先学习当前状态值以及动作优势值/>,然后将它们相加得到最终输出Q值并传递到训练好的深度预测Q网络的输出层;
在输出层根据每个动作的Q值选择最优动作,最优动作为最优码本选择及功率分配策略。
在具体实施例中,如图2所示,为不同接入方案传输速率对比的示意图,其中主要是DPQN方案与四种基准接入方案之间的传输速率对比。这些基准方案包括仅码本选择、仅功率分配、随机分配和正交频分多址(OFDMA)。仅码本选择表示采用相等功率和SCMA码本选择。仅功率分配使用随机码本和功率分配,而随机分配则采用随机SCMA码本和相等功率。OFDMA是将OFDMA替代SCMA接入框架。与OFDMA相比,本发明提出的SCMA方案可以达到更高的传输速率。SCMA码本和功率分配对不同物联网设备的影响可能不同的。SCMA码本选择对物联网设备1、2和4更重要,而功率分配则对物联网设备3、5和6起着更重要作用。与随机方案相比,本发明在物联网设备3和5传输速率有显著增长。物联网设备3的传输速率从增加到/>,增长了31.8%;而物联网设备5的传输速率从增加到/>,增长了35.3%。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于深度预测Q网络的SCMA码本选择和功率分配方法,其特征在于,所述方法包括:
获取物联网设备在数据传输过程中的码本集合和子载波集合;
根据SCMA技术和码本集合为多个物联网设备分配不同的码本,计算分配过程中的SCMA码本选择和功率分配策略;
利用所述SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率;
将最大化所述物联网设备的传输速率设置为码本选择及功率分配问题的目标函数,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,利用所述目标函数和约束条件设置码本选择及功率分配问题的求解模型;
将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,智能体通过与动态环境交互获得奖励和惩罚,得到动作策略;
根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络;
利用所述训练好的对深度预测Q网络所述求解模型进行求解,得到码本选择及功率分配策略。
2.根据权利要求1所述的方法,其特征在于,计算分配过程中的SCMA码本选择和功率分配策略,包括:
计算分配过程中的SCMA码本选择和功率分配策略为
;
;
其中,表示码本选择的二进制变量,/>表示子载波/>上分配的功率比例,/>表示码本集合,/>表示子载波集合,/>表示时隙集合,/>表示码本序列,/>表示子载波序号,表示时隙序号,/>表示物联网设备序号,/>表示物联网设备集合,/>表示基站序号。
3.根据权利要求2所述的方法,其特征在于,利用所述SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率,包括:
利用所述SCMA码本选择和功率分配策略进行标准计算,得到物联网设备的传输速率为
;
其中,表示物联网设备/>占用码本/>的信干噪比,/>表示码本/>占用的子载波/>,/>表示物联网设备/>在码本/>上的发射功率,/>表示时隙/>内物联网设备/>通过子载波/>到基站的准静态衰落信道增益,/>表示物联网设备/>在子载波/>上的干扰,/>表示背景噪声的功率。
4.根据权利要求2所述的方法,其特征在于,根据SCMA码本选择方式和子载波的分配功率设置码本选择及功率分配问题的约束条件,包括:
约束一:表示物联网设备选择的SCMA码本变量,即
;
约束二:表示给被占用的子载波分配功率,即
;
约束三:每个SCMA码本最多可以由一个物联网设备选择,即
;
约束四:各子载波的功率分配比例之和等于1,即
。
5.根据权利要求1所述的方法,其特征在于,将物联网设备表示为智能体,设置智能体与动态环境交互中的观测结果、动作和奖励,包括:
观测结果:表示物联网设备在时隙/>观测到的环境状态,观测结果为
;
其中,表示子载波上观测到的信道增益,和/>分别表示物联网设备/>在前一个时隙从基站广播中观测到的其他物联网设备的信道状态和动作;
动作:物联网设备在时隙/>的动作为
;
其中,表示所选的SCMA码本,/>表示子载波上分配的功率比例;
奖励:指导学习的奖励为物联网设备/>的传输速率,表示为
;
其中,物联网设备的传输速率。
6.根据权利要求1所述的方法,其特征在于,根据经验重放以及固定目标网络方法和所有智能体的历史动作策略对预先构建的深度预测Q网络进行训练,得到训练好的深度预测Q网络,包括:
将预先构建的深度预测Q网络和目标网络的权重都随机初始化为相同的权值,在训练过程中,首先进行状态初始化,在每个训练回合,深度预测Q网络的环境参数都会被重置,智能体/>观测到环境状态的状态数据,使用最大最小归一化方法将相同类型的状态数据归一化为/>;
在每个时隙,归一化的状态输入训练网络,输出是每个动作的Q值,根据/>值和/>贪心策略选择动作,获得奖励/>并归一化下一观测值/>,利用经验重放方法将所有智能体的历史动作策略随机化,去除相邻数据间相关性,在经验回放/>中存储,从/>中抽取/>组经验作为训练数据并根据预先设置的损失函数对深度预测Q网络的权值更新并复制到固定目标网络,得到训练好的深度预测Q网络。
7.根据权利要求6所述的方法,其特征在于,所述每个动作的Q值为
;
其中,为奖励折扣系数,/>表示物联网设备/>在时隙/>观测结果,/>表示物联网设备在时隙/>的动作,/>为物联网设备/>获得的奖励/>。
8.根据权利要求7所述的方法,其特征在于,所述预先设置的损失函数为
;
;
其中,为目标网络的权值,/>表示物联网设备/>在时隙/>观测结果。
9.根据权利要求1所述的方法,其特征在于,利用所述训练好的对深度预测Q网络所述求解模型进行求解,得到码本选择及功率分配策略,包括:
在输入层输入物联网设备观测到的状态/>和在前一个时隙观测到的其他物联网设备的信道状态/>和动作/>将传递到训练好的对深度预测Q网络的LSTM层;
在LSTM层学习信道状态和当前SCMA资源分配策略来预测其他设备的当前状态并使用时间相关法来预测未来时间序列的变化,得到观测状态和预测状态并传递到训练好的深度预测Q网络的全连接层;
在全连接层采用ReLu激活函数将观测状态和预测状态映射到值并传递到训练好的深度预测Q网络的Dueling层;
在Dueling层首先学习当前状态值以及动作优势值/>,然后将它们相加得到最终输出Q值并传递到训练好的深度预测Q网络的输出层;
在输出层根据每个动作的Q值选择最优动作,所述最优动作为最优码本选择及功率分配策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311452308.5A CN117176213B (zh) | 2023-11-03 | 2023-11-03 | 基于深度预测q网络的scma码本选择和功率分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311452308.5A CN117176213B (zh) | 2023-11-03 | 2023-11-03 | 基于深度预测q网络的scma码本选择和功率分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117176213A true CN117176213A (zh) | 2023-12-05 |
CN117176213B CN117176213B (zh) | 2024-01-30 |
Family
ID=88938003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311452308.5A Active CN117176213B (zh) | 2023-11-03 | 2023-11-03 | 基于深度预测q网络的scma码本选择和功率分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117176213B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015093918A1 (ko) * | 2013-12-20 | 2015-06-25 | 삼성전자주식회사 | 다중 입출력 시스템을 위한 코드북과 이를 이용한 통신 방법 및 장치 |
CN108768482A (zh) * | 2018-05-15 | 2018-11-06 | 天津大学 | 基于遗传算法的scma码本生成方法 |
CN110048985A (zh) * | 2019-03-27 | 2019-07-23 | 天津大学 | 次优的低复杂度scma码本设计方法 |
KR20190094798A (ko) * | 2018-02-06 | 2019-08-14 | 한국과학기술원 | 상향링크 scma 시스템의 중첩 전송 방법 및 이를 적용한 이동통신 시스템 |
CN111082842A (zh) * | 2019-12-26 | 2020-04-28 | 上海无线通信研究中心 | 基于码本复用的上行链路scma发射方法与接收方法 |
CN111315017A (zh) * | 2020-01-06 | 2020-06-19 | 新疆大学 | 一种基于scma系统节能的资源分配方法 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
CN113141326A (zh) * | 2021-04-21 | 2021-07-20 | 新疆大学 | 一种新的scma系统码本优化及码字分配方法 |
CN113795050A (zh) * | 2021-08-20 | 2021-12-14 | 广东工业大学 | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 |
US20220209885A1 (en) * | 2020-12-24 | 2022-06-30 | Viettel Group | Method and apparatus for adaptive anti-jamming communications based on deep double-q reinforcement learning |
CN115442812A (zh) * | 2022-11-08 | 2022-12-06 | 湖北工业大学 | 一种基于深度强化学习的物联网频谱分配优化方法及系统 |
WO2022258193A1 (en) * | 2021-06-11 | 2022-12-15 | Huawei Technologies Co., Ltd. | Generation and reception of precoded signals based on codebook linearization |
CN115515101A (zh) * | 2022-09-23 | 2022-12-23 | 西北工业大学 | 一种用于scma-v2x系统的解耦q学习智能码本选择方法 |
CN115765806A (zh) * | 2022-10-27 | 2023-03-07 | 沈阳理工大学 | 一种基于scma系统的不规则码本设计方法 |
CN116050514A (zh) * | 2023-01-05 | 2023-05-02 | 上海大学 | 一种基于深度q网络改进的多目标进化算法 |
CN116456493A (zh) * | 2023-04-20 | 2023-07-18 | 无锡学院 | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 |
CN116709567A (zh) * | 2023-06-20 | 2023-09-05 | 南京邮电大学 | 基于信道特性的联合学习接入方法 |
CN116963034A (zh) * | 2023-07-13 | 2023-10-27 | 南京航空航天大学 | 一种面向应急场景的空地网络分布式资源调度方法 |
-
2023
- 2023-11-03 CN CN202311452308.5A patent/CN117176213B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015093918A1 (ko) * | 2013-12-20 | 2015-06-25 | 삼성전자주식회사 | 다중 입출력 시스템을 위한 코드북과 이를 이용한 통신 방법 및 장치 |
KR20190094798A (ko) * | 2018-02-06 | 2019-08-14 | 한국과학기술원 | 상향링크 scma 시스템의 중첩 전송 방법 및 이를 적용한 이동통신 시스템 |
CN108768482A (zh) * | 2018-05-15 | 2018-11-06 | 天津大学 | 基于遗传算法的scma码本生成方法 |
CN110048985A (zh) * | 2019-03-27 | 2019-07-23 | 天津大学 | 次优的低复杂度scma码本设计方法 |
CN111082842A (zh) * | 2019-12-26 | 2020-04-28 | 上海无线通信研究中心 | 基于码本复用的上行链路scma发射方法与接收方法 |
CN111315017A (zh) * | 2020-01-06 | 2020-06-19 | 新疆大学 | 一种基于scma系统节能的资源分配方法 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
US20220209885A1 (en) * | 2020-12-24 | 2022-06-30 | Viettel Group | Method and apparatus for adaptive anti-jamming communications based on deep double-q reinforcement learning |
CN113141326A (zh) * | 2021-04-21 | 2021-07-20 | 新疆大学 | 一种新的scma系统码本优化及码字分配方法 |
WO2022258193A1 (en) * | 2021-06-11 | 2022-12-15 | Huawei Technologies Co., Ltd. | Generation and reception of precoded signals based on codebook linearization |
CN113795050A (zh) * | 2021-08-20 | 2021-12-14 | 广东工业大学 | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 |
CN115515101A (zh) * | 2022-09-23 | 2022-12-23 | 西北工业大学 | 一种用于scma-v2x系统的解耦q学习智能码本选择方法 |
CN115765806A (zh) * | 2022-10-27 | 2023-03-07 | 沈阳理工大学 | 一种基于scma系统的不规则码本设计方法 |
CN115442812A (zh) * | 2022-11-08 | 2022-12-06 | 湖北工业大学 | 一种基于深度强化学习的物联网频谱分配优化方法及系统 |
CN116050514A (zh) * | 2023-01-05 | 2023-05-02 | 上海大学 | 一种基于深度q网络改进的多目标进化算法 |
CN116456493A (zh) * | 2023-04-20 | 2023-07-18 | 无锡学院 | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 |
CN116709567A (zh) * | 2023-06-20 | 2023-09-05 | 南京邮电大学 | 基于信道特性的联合学习接入方法 |
CN116963034A (zh) * | 2023-07-13 | 2023-10-27 | 南京航空航天大学 | 一种面向应急场景的空地网络分布式资源调度方法 |
Non-Patent Citations (3)
Title |
---|
PENGTAO LIU: "《A Deep Reinforcement Learning Scheme for SCMA-Based Edge Computing in IoT Networks》", 《 GLOBECOM 2022 - 2022 IEEE GLOBAL COMMUNICATIONS CONFERENCE》 * |
PENGTAO LIU: "《SCMA-Enabled Multi-Cell Edge Computing Networks: Design and Optimization》", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 * |
彭小洹: "《稀疏码多址接入系统的低复杂度检测算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, pages 136 - 1543 * |
Also Published As
Publication number | Publication date |
---|---|
CN117176213B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhong et al. | A deep actor-critic reinforcement learning framework for dynamic multichannel access | |
CN111726811B (zh) | 一种用于认知无线网络的切片资源分配方法及系统 | |
CN113038616B (zh) | 一种基于联邦学习的频谱资源管理分配方法 | |
CN103916355A (zh) | 一种认知ofdm网络中子载波的分配方法 | |
CN114340016A (zh) | 一种电网边缘计算卸载分配方法及系统 | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
Yang et al. | Partially observable multi-agent deep reinforcement learning for cognitive resource management | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
Taşpınar et al. | Pilot tones design using particle swarm optimization for OFDM–IDMA system | |
CN113613332B (zh) | 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统 | |
Sharma et al. | A novel genetic algorithm for adaptive resource allocation in MIMO-OFDM systems with proportional rate constraint | |
CN117176213B (zh) | 基于深度预测q网络的scma码本选择和功率分配方法 | |
Sharma et al. | On the use of NSGA-II for multi-objective resource allocation in MIMO-OFDMA systems | |
CN114095940A (zh) | 混合接入认知无线网络切片资源分配方法及设备 | |
CN116302569B (zh) | 一种基于用户请求信息的资源分区智能化调度方法 | |
CN116567667A (zh) | 一种基于深度强化学习的异构网络资源能效优化方法 | |
Del Ser et al. | Iterative power and subcarrier allocation in rate-constrained orthogonal multicarrier downlink systems based on hybrid harmony search heuristics | |
CN111385894B (zh) | 一种基于在线强化学习的传输模式选择方法及装置 | |
Lu et al. | Dynamic channel access via meta-reinforcement learning | |
Ali et al. | Deep-Q Reinforcement Learning for Fairness in Multiple-Access Cognitive Radio Networks | |
Zhen et al. | Transmission power allocation for underwater acoustic multicarrier-CDMA communication networks based on genetic algorithm | |
Han et al. | MAB-based two-tier learning algorithms for joint channel and power allocation in stochastic underwater acoustic communication networks | |
Ashraf et al. | Performance evaluation of cooperative and non‐cooperative MIMO cognitive radio networks | |
Annauth et al. | Evolutionary multi-objective approach for resource allocation in OFDM systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |