CN115811788B - 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 - Google Patents
一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 Download PDFInfo
- Publication number
- CN115811788B CN115811788B CN202211475457.9A CN202211475457A CN115811788B CN 115811788 B CN115811788 B CN 115811788B CN 202211475457 A CN202211475457 A CN 202211475457A CN 115811788 B CN115811788 B CN 115811788B
- Authority
- CN
- China
- Prior art keywords
- neural network
- channel
- layer
- transmitter
- power control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 238000013468 resource allocation Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 223
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000005540 biological transmission Effects 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000006978 adaptation Effects 0.000 claims description 10
- 238000005562 fading Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 20
- 238000004891 communication Methods 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,属于无线通信技术领域。构建信道分配神经网络,在发射机智能体上分布式执行,其输入为发射机智能体收集到的所有信道的本地信息集、输出为信道分配方案;构建信道功率控制神经网络,在发射机智能体上分布式执行,其输入为由信道分配神经网络输出的信道分配方案所确定的一组本地信息集、输出为优化的信道功率;利用深度强化学习和深度无监督学习分别对信道分配神经网络和信道功率控制神经网络进行集中式训练;训练完成后对发射机智能体上的网络进行更新并继续分布式执行。本发明与传统的集中式和分布式算法相比,能够有效地提高收敛速度,并最大化传输速率。
Description
技术领域
本发明涉及一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,属于无线通信技术领域。
背景技术
在当今的无线网络中,随着移动设备的日益增多,用户对高数据传输服务需求不断增加。大量的数据流量需要通过网络传输,导致无线网络出现了流量过载等问题。为了提高无线网络的性能,运营商通常在多频段部署更多基站,以缓解移动通信阻塞问题,但这也导致了巨大的成本支出。Device-to-device(D2D)技术的提出,实现了设备之间的直接通信,以低成本为基站卸载繁重的移动通信量。通常,D2D用户可以在覆盖模式下共享蜂窝网络的频谱资源,虽然D2D用户不会对蜂窝设备造成干扰,但D2D用户对之间会造成严重的干扰。
为了降低D2D用户对信道间的相互干扰,研究者对基于信道的选择和功率分配问题开展了广泛的研究。通过获取全局信道状态信息(CSI)的不同,可以分为集中式与分布式的两类模型。集中式模型需要瞬时全局的CSI,而分布式只需要少部分的CSI。在诸多集中式与分布式模型方法中,由于深度学习技术较传统算法计算复杂度较低,已被广泛用于解决D2D网络中的资源分配问题。
当前D2D网络无线资源分配研究现状如下:
(1)集中式模型:目前集中式D2D网络无线资源分配已提出了诸多算法和理论,其中最先进的优化算法有分数规划算法(FP)、加权最小均方误差(WMMSE)算法和基于深度学习的无线资源分配优化算法。但在实际中,信道状态信息是实时改变的,获取完整的瞬时全局状态信息需要实施大规模的信息交换,对于当前的设备而言是一个巨大的挑战。故集中式模型中的大多数算法都不适用于实际的大型网络场景中。
(2)分布式模型:分布式模型的提出能够更好的考虑实际无线网络信息中的及时性和相关性。在分布式模型中,令每一个发射机为一个智能体,通过智能体与智能体之间的信息交互,做出决策。在强化学习中,状态、行为和奖励都需要满足马尔可夫决策过程,状态会根据奖励回报迭代更新。在当前基于深度强化学习的分布式D2D网络无线资源分配中,一般会将信道分配和功率控制作为行为,将智能体之间交互的信息例如信道增益、干扰等作为状态,将优化的目标作为奖励。在当前应用场景中通常会使用强化学习方法深度Q-learning(DQN)或者深度确定性策略梯度(DDPG)。在使用DQN在信道选择和功率控制中,DQN很难适用于既包含离散变量又包含连续变量的问题。而使用DDPG在信道选择和功率控制中,DDPG的确定性策略高度依赖于Q值预估的准确性,当神经网络开始学习时,由于网络权重初始化,导致Q值的预估值不理想,并且随着神经网络规模的增加,DDPG训练效果变差。以上两方面的缺陷降低了DDPG的确定性策略在动作探索上的效率,从而在采用DDPG进行物理层的连续功率分配中,无法有效和快速地提高频谱利用率。
综上所述,在实现D2D网络最大化传输速率上,现有的集中式与分布式方法不能够有效的降低D2D用户对之间的干扰,提高网络性能。
发明内容
本发明提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,通过使用强化学习进行信道分配,深度无监督学习进行信道功率控制,以最大化传输速率、有效增加网络容量、提升D2D网络性能,从而解决现有技术中收敛速度低、传输速率小的问题。
一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤:
S100、构建信道分配神经网络,在发射机智能体上分布式执行;信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集,信道分配神经网络的输出为M个适应值,将最大适应值所对应的信道确定为信道分配方案;
S200、构建信道功率控制神经网络,在发射机智能体上分布式执行;根据S100的信道分配方案,确定此信道分配方案所对应的一组本地信息集;信道功率控制神经网络的输入为确定的一组本地信息集,通过对信道功率控制神经网络输出层的输出进行约束,得到功率控制方案;
S300、对S100中信道分配神经网络进行基于深度强化学习的集中式训练,将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行;
S400、对S200中信道功率控制神经网络进行基于深度无监督学习的集中式训练,将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。
进一步的,在S100中,信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层,一个输入层、多个全连接隐层和一个输出层依次连接,其中,
输入层的维度为M×Q,其中M为D2D用户对所共享的正交信道数量,Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数;本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰等,共有M×Q个元素;
每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;
输出层的输出维度为M。
进一步的,在S200中,信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层,一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接,其中,
一个输入层的维度为Q;输入层的输入是由S100中信道分配神经网络所决定的信道分配方案而确定的一组本地信息集,包含Q个元素;
每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;
信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层;
输出层的输出维度为1;
约束层,用于对输出层的输出进行处理以满足约束;将输出进行约束处理的方法为,用Pmax乘以信道功率控制神经网络输出层的输出,最后得到约束处理后的功率控制。
进一步的,在S300中,信道分配神经网络采用基于深度强化学习的集中式训练,具体的,
首先为信道分配神经网络设定经验池,假设回程占用一个时隙延迟,则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1、t-1时隙信道分配神经网络的输出at-1、t时隙奖励rt和t时隙发射机智能体所收集到的所有M个信道的本地信息集st,当经验池信息数量满足训练要求后,信道分配神经网络开始集中训练;将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1作为信道分配神经网络的输入,t时隙发射机智能体所收集到的所有M个信道的本地信息集st作为信道分配神经网络目标网络的输入,
在训练时采用均方误差损失函数,以最大化传输速率,所采用的损失函数L(θ)表示为:
y(st,rt)=rt+γmaxa′Qtarget(st,a′;θtarget) (2)
θtarget=τθ+(1-τ)θ (3)
其中表示期望,a′为信道分配神经网络目标网络的输出,y(st,rt)为信道分配神经网络的目标输出值;Q(st-1,at-1;θ)为信道分配神经网络的实际输出值,Qtarget(st,a′;θtarget)为信道分配神经网络目标网络的实际输出值,γ为折扣因子,θ为信道分配神经网络的参数,θtarget为信道分配神经网络目标网络的参数;通过神经网络反向传播更新信道分配神经网络的参数θ,并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θtarget,τ为小于1的正数;
奖励rt表示为:
其中为t时隙发射机n的奖励值;为t-1时隙发射机n的下行链路传输速率;惩罚项表示t-1时隙发射机n对所有接收机造成的干扰;为t-1时隙发射机n在信道m上的下行链路传输速率;是t时隙被干扰机集合;表示t-1时隙处链路n选择信道m,否则 表示由信道功率控制网络输出约束层得到的在t-1时隙处发射机n发射功率;σ2表示高斯噪声;表示t-1时隙处发射机n在信道m上的信道增益;βk→n表示发射机k到接收机n的路径损耗;表示t-1时隙处在信道m上发射机k到接收机n的小尺度瑞利衰落。
进一步的,在S400中,信道功率控制神经网络采用基于深度无监督学习的集中式训练,具体的,
在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数,通过神经网络反向传播更新信道功率控制神经网络的参数,以最大化信道传输速率;损失函数表示为:
其中φ为信道功率控制神经网络的参数,
本发明的有益效果:本发明提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,避免了集中式收集瞬时全局信道状态信息方法的缺点,该方法将深度强化学习和深度无监督学习相结合,研究多信道D2D网络的信道分配和功率控制,以最大化信道传输速率。
附图说明
图1是本发明的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法的实施框架图;
图2是本发明中的多信道D2D网络模型;
图3是本发明实施例中链路N=20的D2D网络拓扑图;
图4是本发明实施例中所设计的信道分配神经网络;
图5是本发明实施例中所设计的功率控制神经网络;
图6是信道数量为2时本发明方法与其他基准算法的信道平均传输速率比较曲线;
图7是信道数量为4时本发明方法与其他基准算法的信道平均传输速率比较曲线;
图8是信道数量为10时本发明方法与其他基准算法的信道平均传输速率比较曲线。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,通过使用强化学习进行信道分配,深度无监督学习进行信道功率控制,以最大化传输速率、有效增加网络容量、提升D2D网络性能,所述无线资源分配方法包括以下步骤:
为了实现分布式执行,本发明将每个发射机设置为单独的智能体,每个发射机智能体收集到的局部的信道状态信息作为本地信息集,不再是仅有单个智能体收集全局的信道状态信息,避免了集中式执行类似的缺点。
S100、构建信道分配神经网络,在发射机智能体上分布式执行;所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集,所述信道分配神经网络的输出为M个适应值,将最大适应值所对应的信道确定为信道分配方案;
在S100中,所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层,所述一个输入层、多个全连接隐层和一个输出层依次连接,其中,所述输入层的维度为M×Q,其中M为D2D用户对所共享的正交信道数量,Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数;所述的本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰等,共有M×Q个元素;每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;所述输出层的输出维度为M。
S200、构建信道功率控制神经网络,在发射机智能体上分布式执行;根据S100的信道分配方案,确定此信道分配方案所对应的一组本地信息集;所述信道功率控制神经网络的输入为所述确定的一组本地信息集,通过对所述信道功率控制神经网络输出层的输出进行约束,得到功率控制方案;
在S200中,所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层,所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接,其中,所述一个输入层的维度为Q;所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集,包含Q个元素;每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层;所述输出层的输出维度为1;所述约束层,用于对所述输出层的输出进行处理以满足约束;所述的将输出进行约束处理的方法为,用Pmax乘以信道功率控制神经网络输出层的输出,最后得到约束处理后的功率控制。
S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练,将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行;
在S300中,所述信道分配神经网络采用基于深度强化学习的集中式训练,具体的,首先为信道分配神经网络设定经验池,假设回程占用一个时隙延迟,则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1、t-1时隙信道分配神经网络的输出at-1、t时隙奖励rt和t时隙发射机智能体所收集到的所有M个信道的本地信息集st,当经验池信息数量满足训练要求后,信道分配神经网络开始集中训练;将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1作为信道分配神经网络的输入,t时隙发射机智能体所收集到的所有M个信道的本地信息集st作为信道分配神经网络目标网络的输入,在训练时采用均方误差损失函数,以最大化传输速率,所采用的损失函数L(θ)表示为:
y(st,rt)=rt+γmaxa′Qtarget(st,a′;θtarget) (12)
θtarget=τθ+(1-τ)θ (13)
其中表示期望,a′为信道分配神经网络目标网络的输出,y(st,rt)为信道分配神经网络的目标输出值;Q(st-1,at-1;θ)为信道分配神经网络的实际输出值,Qtarget(st,a′;θtarget)为信道分配神经网络目标网络的实际输出值,γ为折扣因子,θ为信道分配神经网络的参数,θtarget为信道分配神经网络目标网络的参数;通过神经网络反向传播更新信道分配神经网络的参数θ,并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θtarget,τ为小于1的正数;奖励rt表示为:
其中为t时隙发射机n的奖励值;为t-1时隙发射机n的下行链路传输速率;惩罚项表示t-1时隙发射机n对所有接收机造成的干扰;为t-1时隙发射机n在信道m上的下行链路传输速率;是t时隙被干扰机集合;表示t-1时隙处链路n选择信道m,否则 表示由信道功率控制网络输出约束层得到的在t-1时隙处发射机n发射功率;σ2表示高斯噪声;表示t-1时隙处发射机n在信道m上的信道增益;βk→n表示发射机k到接收机n的路径损耗;表示t-1时隙处在信道m上发射机k到接收机n的小尺度瑞利衰落。
S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练,将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行;
在S400中,所述信道功率控制神经网络采用基于深度无监督学习的集中式训练,具体的,在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数,通过神经网络反向传播更新信道功率控制神经网络的参数,以最大化信道传输速率;所述的损失函数表示为:
其中φ为信道功率控制神经网络的参数,
下面提供一个具体实施例:
该面向多信道D2D网络基于深度强化学习联合无监督学习的D2D网络分布式资源分配方法,实施框架图如图1所示,其中图中分别表示t-1时隙的发射机智能体收集到所有信道的本地信息集、t-1时隙所有信道分配神经网络的输出、t时隙的奖励和t时隙的发射机智能体收集到所有信道的本地信息集。表示t时隙信道分配神经网络输出的信道分配方案,表示为t时隙信道分配神经网络输出的信道分配方案所确定的一组本地信息集,表示t时隙信道功率神经网络输出的信道功率方案。
以下结合实施流程、实施例、附图对本专利的实施做详细说明。
图2是多信道D2D网络系统模型。在实施例中,假定每一个D2D对被随机放置在面积为500m×500m的场景中,其接收器随机放置在10米到100米之间的发射机周围,D2D对为20,信道数量为2。图3是本发明实施例中链路N=20的D2D网络拓扑图。按照LTE标准,路径损耗由128.1+37.6log10(d)dB,其中d表示发射机到接收机之间的距离,单位是km。本专利设定σ2=-114dBm。由于前端动态范围的实际限制,设定信噪比的上限为30dBm。
该面向多信道D2D网络基于深度强化学习联合无监督学习的D2D网络分布式资源分配方法,详细实施步骤如下:
S100、构建信道分配神经网络,在发射机智能体上分布式执行;所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集,所述信道分配神经网络的输出为M个适应值,将最大适应值所对应的信道确定为信道分配方案;在S100中,所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层,所述一个输入层、多个全连接隐层和一个输出层依次连接,其中所述输入层的维度为M×Q,其中M为D2D用户对所共享的正交信道数量,Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数;所述的本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰等,共有M×Q个元素;每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;所述输出层的输出维度为M。
基于发射机智能体本地信息集的收集方法如下步骤:
令每一条链路为n,链路n分别由发射机n和接收机n组成,在每个时隙t处,每个发射机智能体n通过收集自身发射机智能体的信息集和附近发射机智能体的信息集组成来决策动作
对于链路n,设置两个邻域集,第一个邻域集表示在上一个时隙t-1处附近发射机对链路n干扰的干扰机集合,用来表示。为了对是否使用信道m的发射机进行优先排序,将发射机n附近的发射机分为两组,分别为在时隙t处占用信道m和不占用信道m。将接收机n处收到的干扰强度进行降序排列表示为以便优先考虑对链路n干扰影响最严重的发射机邻居。其中,是基于构成的集合。
第二个邻域集是被干扰机集合,表示在前一个时隙t-1处发射机n对附近链路干扰的被干扰集合,定义为同样,为了对是否使用信道m的接收机进行优先排序,将附近接收机分为两组,按照干扰强度进行降序排列表示为以便优先考虑链路n的发射机对附近干扰影响最严重的接收机。其中,是基于构成的集合。
接下来,令表示在时隙t处发射机智能体n的本地信息集,定义三个主要的特征来描述首先,第一个特征组是链路n自身接收机从发射机得到的本地信息集,发射机n可以直接访问接收机n收集到的占用信道m的最新本地信息,例如信道状态信息发射机n在前一个时隙的发射功率传输速率 表示每个时隙的开始处与总干扰功率的比,表示时隙t处链路n对选择信道m,否则 表示时隙t处发射机n在信道m上的信道增益;最后用κn,m来表示本地信息特征组:
第二个特征组是链路n附近发射机对接收机n的干扰信息;同于第一个特征组信息,对于发射机i还有以下信息被保留,即其中为体现分布式方法,按照干扰强度索引出c个元素作为第二个特征组信息集νn,m,νn,m遵循的优先级标准。
最后一个特征组是链路n发射机对其附近接收机的造成的干扰信息。假设被干扰的接受机j与干扰发射机n会进行信息交换,但是由于回程网络传输会延迟一个时隙,例如:同第二个特征组信息,按照干扰强度索引出c个元素作为第三个特征组信息集,用ηn,m来表示,ηn,m必须遵循的优先级标准。
最后,将发射机智能体n在时隙t处使用信道m的本地信息表示为:
对本地信息集的预处理是发射机智能体将收集到所有信道的本地信息集按照干扰强度进行降序排列,为体现分布式方法,从每个发射机智能体索引出c个元素信息作为本地信息集,以便优先考虑到发射机对干扰最严重的接收机邻居,在本次实例中令c=5,每一信道的本地信息集元素个数Q=9×c+5=50;根据假定的多信道D2D网络模型可知,M=2,本地信息集张量形状为(1,2×50);根据假定的多信道D2D网络模型可知,M=2,神经网络模型的输入层的维度为2×50;神经网络模型的输出层的维度为2;将所述信道分配神经网络模型的输出层看作是一条链路在所有信道上的适应值,选出最大适应值所对应的信道即为该链路的信道分配方案。
图4是本专利实施例所设计的信道分配神经网络,该模型包含1个输入层、3个全连接隐层和1个输出层。输入层是发射机智能体收集到所有信道的本地信息集;其中3个全连接隐层包括1个全连接层、1个标准化层和一个RELU激活层;根据假定的多信道D2D网络模型可知,N=20,M=2,输入到该网络的本地信息集张量的形状为(1,100)、输入层的神经元维度为100、输出层神经元的维度为2;全连接隐层全连接层神经元的维度从左到右依次为80、50和50。
S200、构建信道功率控制神经网络,在发射机智能体上分布式执行;根据S100的信道分配方案,确定此信道分配方案所对应的一组本地信息集;所述信道功率控制神经网络的输入为所述确定的一组本地信息集,通过对所述信道功率控制神经网络输出层的输出进行约束,得到功率控制方案;在S200中,所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层,所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接,其中所述一个输入层的维度为Q;所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集,包含Q个元素;每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层;所述输出层的输出维度为1;所述约束层,用于对所述输出层的输出进行处理以满足约束;所述的将输出进行约束处理的方法为,用Pmax乘以信道功率控制神经网络输出层的输出,最后得到约束处理后的功率控制。
图5是本专利实施例所设计的信道功率控制神经网络,该模型包含1个输入层、3个全连接隐层、1个输出层和1个输出约束层。输入层是信道分配神经网络输出的信道分配方案确定的一组本地信息集;3个全连接隐层包括1个全连接层、1个标准化层和1个RELU激活层;输出层包括1个全连接层、1个标准化层和一个Sigmoid激活层。其中,所述输出约束层对输出层的输出进行处理以满足约束。根据假定的多信道D2D网络模型可知,N=20,M=2,输入到该网络的本地信息集张量的形状为(1,50)、输入层的神经元维度为50、输出层神经元的维度为1;全连接隐层全连接层神经元的维度从左到右依次为200、200和100。
由信道分配神经网络输出的信道分配方案确定一组本地信息集,信道功率控制神经网络输入层的维度为1×50;由约束层输出优化的信道功率,信道功率控制神经网络输出层的维度为1。设发射机最大发射功率Pmax=6.3W,信道功率控制神经网络的输出约束层将输出进行约束处理的方法为,用Pmax乘以信道功率控制神经网络输出,最后得到约束处理后的功率控制。
S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练,将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行;在S300中,所述信道分配神经网络采用基于深度强化学习的集中式训练,具体的,首先为信道分配神经网络设定经验池,假设回程占用一个时隙延迟,则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1、t-1时隙信道分配神经网络的输出at-1、t时隙奖励rt和t时隙发射机智能体所收集到的所有M个信道的本地信息集st,当经验池信息数量满足训练要求后,信道分配神经网络开始集中训练;将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1作为信道分配神经网络的输入,t时隙发射机智能体所收集到的所有M个信道的本地信息集st作为信道分配神经网络目标网络的输入,在训练时采用均方误差损失函数,以最大化传输速率,所采用的损失函数L(θ)表示为:
y(st,rt)=rt+γmaxa′Qtarget(st,a′;θtarget) (26)
θtarget=τθ+(1-τ)θ (27)
其中表示期望,a′为信道分配神经网络目标网络的输出,y(st,rt)为信道分配神经网络的目标输出值;Q(st-1,at-1;θ)为信道分配神经网络的实际输出值,Qtarget(st,a′;θtarget)为信道分配神经网络目标网络的实际输出值,γ为折扣因子,θ为信道分配神经网络的参数,θtarget为信道分配神经网络目标网络的参数;通过神经网络反向传播更新信道分配神经网络的参数θ,并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θtarget,τ为小于1的正数;奖励rt表示为:
其中为t时隙发射机n的奖励值;为t-1时隙发射机n的下行链路传输速率;惩罚项表示t-1时隙发射机n对所有接收机造成的干扰;为t-1时隙发射机n在信道m上的下行链路传输速率;是t时隙被干扰机集合;表示t-1时隙处链路n选择信道m,否则 表示由信道功率控制网络输出约束层得到的在t-1时隙处发射机n发射功率;σ2表示高斯噪声;表示t-1时隙处发射机n在信道m上的信道增益;βk→n表示发射机k到接收机n的路径损耗;表示t-1时隙处在信道m上发射机k到接收机n的小尺度瑞利衰落。
具体的,采用深度强化学习的方法对信道分配神经网络进行集中式训练,为信道分配神经网络设定经验池,存放t-1时隙的发射机智能体收集到所有信道的本地信息集、t-1时隙所有信道分配神经网络的输出、t时隙的奖励和t时隙的发射机智能体收集到所有信道的本地信息集。当经验池信息数量满足训练要求后,信道分配神经网络开始集中式训练;将经验池里t-1时隙的发射机智能体收集到所有信道的本地信息集作为信道分配神经网络的输入,t时隙的发射机智能体收集到所有信道的本地信息集作为信道分配神经网络目标网络的输入。
在训练时采用均方误差损失函数,以最大化传输速率。所采用的损失函数表示为:
y(st,rt)=rt+γmaxa′Qtarget(st,a′;θtarget) (35)
θtarget=τθ+(1-τ)θ (36)
式中各符号的意义同上,其中设定γ=0.25。通过神经网络反向传播更新信道分配神经网络的参数θ,并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θtarget。将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行。
S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练,将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行;在S400中,所述信道功率控制神经网络采用基于深度无监督学习的集中式训练,具体的,在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数,通过神经网络反向传播更新信道功率控制神经网络的参数,以最大化信道传输速率;所述的损失函数表示为:
其中φ为信道功率控制神经网络的参数,
具体的采用深度无监督学习的方法对信道功率控制神经网络进行集中式训练,在训练时采用信道传输速率的负期望作为损失函数,更新信道功率控制神经网络参数φ,以最大化信道传输速率;所采用的损失函数可以表示为:
式中各符号意义同上。将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。
本专利的资源分配方法先进行线下的分布式执行集中式训练后,再进行线上计算。信道分配神经网络和信道功率控制神经网络训练完成后,就可利用信道分配神经网络和信道功率控制神经网络进行线上计算。计算过程是:先将本地信息集输入到信道分配神经网络中,再将信道分配神经网络模型输出的信道分配方案确定的一组本地信息集输入到信道功率控制分神经网络中,再根据信道分配神经网络输出的信道分配方案和信道功率控制神经网络输出的信道功率计算信道传输速率。
在线下训练中,设定一轮训练为4个时段,每个时段由5000个时隙组成。此外,信道分配神经网络的学习率设置为0.001,信道功率控制神经网络的学习率设置为0.0001。图6给出了在本实施例2信道,20链路上本发明方法与其他基准算法的信道平均传输速率比较曲线。为方便起见,本发明提出的方法被表示为“Proposed DRLDNN-CA+ULDNN-PC”。第一个基准算法为的“Joint DQN+DDPG”。第二种为“Joint DQN”。第三种和第四种是最优分数规划(FP)算法不同变体。第三种被称为“Ideal FP”,它需要瞬时的信道状态信息实行分数规划算法,且忽略执行集中优化和将优化结果传递给发射机之间的延迟。第四种称为“DelayedFP”,表示执行分数规划算法延迟一个时隙。最后一种是随机分配算法,称为“Random”。图6说明本专利提出的方法优于“Joint DQN”与“Joint DQN+DDPG”方法。
图7、图8表示分别在本实施例上4信道,20链路和10信道,50链路的信道平均传输速率,比较了本发明提出的方法与其他基准算法在不同信道与链路上的性能表现。图7、图8说明随着信道与链路数的增加本专利提出的方法得到的信道平均传输速率明显优于其他方法,这表明本专利所提出的方法要比其他已提出方法在更多信道更多链路上可以获得更高的信道平均传输速率。
实验仿真结果表明,本发明所提出的多信道D2D网络基于深度强化学习联合无监督学习的D2D网络分布式资源分配方法随着D2D网络中链路和信道数量的增加越来越优于其他基准算法。与其他基准算法相比,经过良好训练的信道分配神经网络模型和信道功率控制网络模型在随机生成部署的信道平均传输速率方面更具可好的扩展性。
Claims (1)
1.一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,其特征在于,所述深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤:
S100、构建信道分配神经网络,在发射机智能体上分布式执行;所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集,所述信道分配神经网络的输出为M个适应值,将最大适应值所对应的信道确定为信道分配方案;
S200、构建信道功率控制神经网络,在发射机智能体上分布式执行;根据S100的信道分配方案,确定此信道分配方案所对应的一组本地信息集;所述信道功率控制神经网络的输入为所述确定的一组本地信息集,通过对所述信道功率控制神经网络输出层的输出进行约束,得到功率控制方案;
S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练,将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行;
S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练,将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行;
在S100中,所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层,所述一个输入层、多个全连接隐层和一个输出层依次连接,其中,
所述输入层的维度为M×Q,其中M为D2D用户对所共享的正交信道数量,Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数;所述的本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰,共有M×Q个元素;
每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;
所述输出层的输出维度为M;
在S200中,所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层,所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接,其中,
所述一个输入层的维度为Q;所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集,包含Q个元素;
每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;
所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层;
所述输出层的输出维度为1;
所述约束层,用于对所述输出层的输出进行处理以满足约束;所述的将输出进行约束处理的方法为,用Pmax乘以信道功率控制神经网络输出层的输出,最后得到约束处理后的功率控制;
在S300中,所述信道分配神经网络采用基于深度强化学习的集中式训练,具体的,
首先为信道分配神经网络设定经验池,假设回程占用一个时隙延迟,则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1、t-1时隙信道分配神经网络的输出at-1、t时隙奖励rt和t时隙发射机智能体所收集到的所有M个信道的本地信息集st,当经验池信息数量满足训练要求后,信道分配神经网络开始集中训练;将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集st-1作为信道分配神经网络的输入,t时隙发射机智能体所收集到的所有M个信道的本地信息集st作为信道分配神经网络目标网络的输入,
在训练时采用均方误差损失函数,以最大化传输速率,所采用的损失函数L(θ)表示为:
y(st,rt)=rt+γmaxa′Qtarget(st,a′;θtarget) (2)
θtarget=τθ+(1-τ)θ (3)
其中表示期望,a′为信道分配神经网络目标网络的输出,y(st,rt)为信道分配神经网络的目标输出值;Q(st-1,at-1;θ)为信道分配神经网络的实际输出值,Qtarget(st,a′;θtarget)为信道分配神经网络目标网络的实际输出值,γ为折扣因子,θ为信道分配神经网络的参数,θtarget为信道分配神经网络目标网络的参数;通过神经网络反向传播更新信道分配神经网络的参数θ,并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θtarget,τ为小于1的正数;
奖励rt表示为:
其中为t时隙发射机n的奖励值;为t-1时隙发射机n的下行链路传输速率;惩罚项表示t-1时隙发射机n对所有接收机造成的干扰;为t-1时隙发射机n在信道m上的下行链路传输速率;是t时隙被干扰机集合;表示t-1时隙处链路n选择信道m,否则 表示由信道功率控制网络输出约束层得到的在t-1时隙处发射机n发射功率;σ2表示高斯噪声;表示t-1时隙处发射机n在信道m上的信道增益;βk→n表示发射机k到接收机n的路径损耗;表示t-1时隙处在信道m上发射机k到接收机n的小尺度瑞利衰落;
在S400中,所述信道功率控制神经网络采用基于深度无监督学习的集中式训练,具体的,
在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数,通过神经网络反向传播更新信道功率控制神经网络的参数,以最大化信道传输速率;所述的损失函数表示为:
其中φ为信道功率控制神经网络的参数,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211475457.9A CN115811788B (zh) | 2022-11-23 | 2022-11-23 | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211475457.9A CN115811788B (zh) | 2022-11-23 | 2022-11-23 | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115811788A CN115811788A (zh) | 2023-03-17 |
CN115811788B true CN115811788B (zh) | 2023-07-18 |
Family
ID=85483960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211475457.9A Active CN115811788B (zh) | 2022-11-23 | 2022-11-23 | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115811788B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117119486B (zh) * | 2023-08-16 | 2024-04-05 | 齐齐哈尔大学 | 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954651A (zh) * | 2021-03-12 | 2021-06-11 | 南京航空航天大学 | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109729528B (zh) * | 2018-12-21 | 2020-08-18 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN110958680B (zh) * | 2019-12-09 | 2022-09-13 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN111526592B (zh) * | 2020-04-14 | 2022-04-08 | 电子科技大学 | 一种用于无线干扰信道中的非协作多智能体功率控制方法 |
US11968541B2 (en) * | 2020-09-08 | 2024-04-23 | Qualcomm Incorporated | Spectrum sharing with deep reinforcement learning (RL) |
CN112188503B (zh) * | 2020-09-30 | 2021-06-22 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
-
2022
- 2022-11-23 CN CN202211475457.9A patent/CN115811788B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954651A (zh) * | 2021-03-12 | 2021-06-11 | 南京航空航天大学 | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115811788A (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | Spatial deep learning for wireless scheduling | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN109302262B (zh) | 一种基于深度确定梯度强化学习的通信抗干扰方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN113316154B (zh) | 一种授权和免授权d2d通信资源联合智能分配方法 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
CN113490219B (zh) | 一种面向超密集组网的动态资源分配方法 | |
CN113596785B (zh) | 基于深度q网络的d2d-noma通信系统资源分配方法 | |
CN115811788B (zh) | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 | |
CN114828018A (zh) | 一种基于深度确定性策略梯度的多用户移动边缘计算卸载方法 | |
CN113423110A (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN115103372A (zh) | 一种基于深度强化学习的多用户mimo系统用户调度方法 | |
CN116963034A (zh) | 一种面向应急场景的空地网络分布式资源调度方法 | |
CN114885340A (zh) | 一种基于深度迁移学习的超密集无线网络功率分配方法 | |
CN114423070A (zh) | 一种基于d2d的异构无线网络功率分配方法及系统 | |
CN113055229B (zh) | 一种基于ddqn的无线网络自选择协议的方法 | |
CN117715219A (zh) | 基于深度强化学习的空时域资源分配方法 | |
CN113115355A (zh) | 一种d2d系统中基于深度强化学习的功率分配方法 | |
CN110149608B (zh) | 一种基于dai的光学无线传感器网络的资源分配方法 | |
CN105072687A (zh) | 基于人工蜂群算法的wlan信道分配方法 | |
Zhang et al. | A convolutional neural network based resource management algorithm for NOMA enhanced D2D and cellular hybrid networks | |
CN113890653B (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
Jiang et al. | Dynamic spectrum access for femtocell networks: A graph neural network based learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |