CN115811788B

CN115811788B - 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法

Info

Publication number: CN115811788B
Application number: CN202211475457.9A
Authority: CN
Inventors: 孙明; 金彦辉; 王淑梅; 梅二壮; 蔚丽杰
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-07-18
Anticipated expiration: 2042-11-23
Also published as: CN115811788A

Abstract

本发明公开了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，属于无线通信技术领域。构建信道分配神经网络，在发射机智能体上分布式执行，其输入为发射机智能体收集到的所有信道的本地信息集、输出为信道分配方案；构建信道功率控制神经网络，在发射机智能体上分布式执行，其输入为由信道分配神经网络输出的信道分配方案所确定的一组本地信息集、输出为优化的信道功率；利用深度强化学习和深度无监督学习分别对信道分配神经网络和信道功率控制神经网络进行集中式训练；训练完成后对发射机智能体上的网络进行更新并继续分布式执行。本发明与传统的集中式和分布式算法相比，能够有效地提高收敛速度，并最大化传输速率。

Description

一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法

技术领域

本发明涉及一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，属于无线通信技术领域。

背景技术

在当今的无线网络中，随着移动设备的日益增多，用户对高数据传输服务需求不断增加。大量的数据流量需要通过网络传输，导致无线网络出现了流量过载等问题。为了提高无线网络的性能，运营商通常在多频段部署更多基站，以缓解移动通信阻塞问题，但这也导致了巨大的成本支出。Device-to-device(D2D)技术的提出，实现了设备之间的直接通信，以低成本为基站卸载繁重的移动通信量。通常，D2D用户可以在覆盖模式下共享蜂窝网络的频谱资源，虽然D2D用户不会对蜂窝设备造成干扰，但D2D用户对之间会造成严重的干扰。

为了降低D2D用户对信道间的相互干扰，研究者对基于信道的选择和功率分配问题开展了广泛的研究。通过获取全局信道状态信息(CSI)的不同，可以分为集中式与分布式的两类模型。集中式模型需要瞬时全局的CSI，而分布式只需要少部分的CSI。在诸多集中式与分布式模型方法中，由于深度学习技术较传统算法计算复杂度较低，已被广泛用于解决D2D网络中的资源分配问题。

当前D2D网络无线资源分配研究现状如下：

(1)集中式模型：目前集中式D2D网络无线资源分配已提出了诸多算法和理论，其中最先进的优化算法有分数规划算法(FP)、加权最小均方误差(WMMSE)算法和基于深度学习的无线资源分配优化算法。但在实际中，信道状态信息是实时改变的，获取完整的瞬时全局状态信息需要实施大规模的信息交换，对于当前的设备而言是一个巨大的挑战。故集中式模型中的大多数算法都不适用于实际的大型网络场景中。

(2)分布式模型：分布式模型的提出能够更好的考虑实际无线网络信息中的及时性和相关性。在分布式模型中，令每一个发射机为一个智能体，通过智能体与智能体之间的信息交互，做出决策。在强化学习中，状态、行为和奖励都需要满足马尔可夫决策过程，状态会根据奖励回报迭代更新。在当前基于深度强化学习的分布式D2D网络无线资源分配中，一般会将信道分配和功率控制作为行为，将智能体之间交互的信息例如信道增益、干扰等作为状态，将优化的目标作为奖励。在当前应用场景中通常会使用强化学习方法深度Q-learning(DQN)或者深度确定性策略梯度(DDPG)。在使用DQN在信道选择和功率控制中，DQN很难适用于既包含离散变量又包含连续变量的问题。而使用DDPG在信道选择和功率控制中，DDPG的确定性策略高度依赖于Q值预估的准确性，当神经网络开始学习时，由于网络权重初始化，导致Q值的预估值不理想，并且随着神经网络规模的增加，DDPG训练效果变差。以上两方面的缺陷降低了DDPG的确定性策略在动作探索上的效率，从而在采用DDPG进行物理层的连续功率分配中，无法有效和快速地提高频谱利用率。

综上所述，在实现D2D网络最大化传输速率上，现有的集中式与分布式方法不能够有效的降低D2D用户对之间的干扰，提高网络性能。

发明内容

本发明提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，通过使用强化学习进行信道分配，深度无监督学习进行信道功率控制，以最大化传输速率、有效增加网络容量、提升D2D网络性能，从而解决现有技术中收敛速度低、传输速率小的问题。

一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤：

S100、构建信道分配神经网络，在发射机智能体上分布式执行；信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集，信道分配神经网络的输出为M个适应值，将最大适应值所对应的信道确定为信道分配方案；

S200、构建信道功率控制神经网络，在发射机智能体上分布式执行；根据S100的信道分配方案，确定此信道分配方案所对应的一组本地信息集；信道功率控制神经网络的输入为确定的一组本地信息集，通过对信道功率控制神经网络输出层的输出进行约束，得到功率控制方案；

S300、对S100中信道分配神经网络进行基于深度强化学习的集中式训练，将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络，对各个发射机中的信道分配神经网络的参数进行更新，使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行；

S400、对S200中信道功率控制神经网络进行基于深度无监督学习的集中式训练，将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络，对各个发射机中的信道功率控制神经网络的参数进行更新，使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。

进一步的，在S100中，信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层，一个输入层、多个全连接隐层和一个输出层依次连接，其中，

输入层的维度为M×Q，其中M为D2D用户对所共享的正交信道数量，Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数；本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰等，共有M×Q个元素；

每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；

输出层的输出维度为M。

进一步的，在S200中，信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层，一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接，其中，

一个输入层的维度为Q；输入层的输入是由S100中信道分配神经网络所决定的信道分配方案而确定的一组本地信息集，包含Q个元素；

信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层；

输出层的输出维度为1；

约束层，用于对输出层的输出进行处理以满足约束；将输出进行约束处理的方法为，用P_max乘以信道功率控制神经网络输出层的输出，最后得到约束处理后的功率控制。

进一步的，在S300中，信道分配神经网络采用基于深度强化学习的集中式训练，具体的，

首先为信道分配神经网络设定经验池，假设回程占用一个时隙延迟，则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集s_t-1、t-1时隙信道分配神经网络的输出a_t-1、t时隙奖励r_t和t时隙发射机智能体所收集到的所有M个信道的本地信息集s_t，当经验池信息数量满足训练要求后，信道分配神经网络开始集中训练；将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集s_t-1作为信道分配神经网络的输入，t时隙发射机智能体所收集到的所有M个信道的本地信息集s_t作为信道分配神经网络目标网络的输入，

在训练时采用均方误差损失函数，以最大化传输速率，所采用的损失函数L(θ)表示为：

y(s_t,r_t)＝r_t+γmax_a′Q_target(s_t,a′；θ_target) (2)

θ_target＝τθ+(1-τ)θ (3)

其中表示期望，a′为信道分配神经网络目标网络的输出，y(s_t,r_t)为信道分配神经网络的目标输出值；Q(s_t-1,a_t-1；θ)为信道分配神经网络的实际输出值，Q_target(s_t,a′；θ_target)为信道分配神经网络目标网络的实际输出值，γ为折扣因子，θ为信道分配神经网络的参数，θ_target为信道分配神经网络目标网络的参数；通过神经网络反向传播更新信道分配神经网络的参数θ，并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θ_target，τ为小于1的正数；

奖励r_t表示为：

其中为t时隙发射机n的奖励值；为t-1时隙发射机n的下行链路传输速率；惩罚项表示t-1时隙发射机n对所有接收机造成的干扰；为t-1时隙发射机n在信道m上的下行链路传输速率；是t时隙被干扰机集合；表示t-1时隙处链路n选择信道m，否则表示由信道功率控制网络输出约束层得到的在t-1时隙处发射机n发射功率；σ²表示高斯噪声；表示t-1时隙处发射机n在信道m上的信道增益；β_k→n表示发射机k到接收机n的路径损耗；表示t-1时隙处在信道m上发射机k到接收机n的小尺度瑞利衰落。

进一步的，在S400中，信道功率控制神经网络采用基于深度无监督学习的集中式训练，具体的，

在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数，通过神经网络反向传播更新信道功率控制神经网络的参数，以最大化信道传输速率；损失函数表示为：

其中φ为信道功率控制神经网络的参数，

本发明的有益效果：本发明提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，避免了集中式收集瞬时全局信道状态信息方法的缺点，该方法将深度强化学习和深度无监督学习相结合，研究多信道D2D网络的信道分配和功率控制，以最大化信道传输速率。

附图说明

图1是本发明的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法的实施框架图；

图2是本发明中的多信道D2D网络模型；

图3是本发明实施例中链路N＝20的D2D网络拓扑图；

图4是本发明实施例中所设计的信道分配神经网络；

图5是本发明实施例中所设计的功率控制神经网络；

图6是信道数量为2时本发明方法与其他基准算法的信道平均传输速率比较曲线；

图7是信道数量为4时本发明方法与其他基准算法的信道平均传输速率比较曲线；

图8是信道数量为10时本发明方法与其他基准算法的信道平均传输速率比较曲线。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，通过使用强化学习进行信道分配，深度无监督学习进行信道功率控制，以最大化传输速率、有效增加网络容量、提升D2D网络性能，所述无线资源分配方法包括以下步骤：

为了实现分布式执行，本发明将每个发射机设置为单独的智能体，每个发射机智能体收集到的局部的信道状态信息作为本地信息集，不再是仅有单个智能体收集全局的信道状态信息，避免了集中式执行类似的缺点。

S100、构建信道分配神经网络，在发射机智能体上分布式执行；所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集，所述信道分配神经网络的输出为M个适应值，将最大适应值所对应的信道确定为信道分配方案；

在S100中，所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层，所述一个输入层、多个全连接隐层和一个输出层依次连接，其中，所述输入层的维度为M×Q，其中M为D2D用户对所共享的正交信道数量，Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数；所述的本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰等，共有M×Q个元素；每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；所述输出层的输出维度为M。

S200、构建信道功率控制神经网络，在发射机智能体上分布式执行；根据S100的信道分配方案，确定此信道分配方案所对应的一组本地信息集；所述信道功率控制神经网络的输入为所述确定的一组本地信息集，通过对所述信道功率控制神经网络输出层的输出进行约束，得到功率控制方案；

在S200中，所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层，所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接，其中，所述一个输入层的维度为Q；所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集，包含Q个元素；每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层；所述输出层的输出维度为1；所述约束层，用于对所述输出层的输出进行处理以满足约束；所述的将输出进行约束处理的方法为，用P_max乘以信道功率控制神经网络输出层的输出，最后得到约束处理后的功率控制。

S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练，将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络，对各个发射机中的信道分配神经网络的参数进行更新，使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行；

在S300中，所述信道分配神经网络采用基于深度强化学习的集中式训练，具体的，首先为信道分配神经网络设定经验池，假设回程占用一个时隙延迟，则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集s_t-1、t-1时隙信道分配神经网络的输出a_t-1、t时隙奖励r_t和t时隙发射机智能体所收集到的所有M个信道的本地信息集s_t，当经验池信息数量满足训练要求后，信道分配神经网络开始集中训练；将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集s_t-1作为信道分配神经网络的输入，t时隙发射机智能体所收集到的所有M个信道的本地信息集s_t作为信道分配神经网络目标网络的输入，在训练时采用均方误差损失函数，以最大化传输速率，所采用的损失函数L(θ)表示为：

y(s_t,r_t)＝r_t+γmax_a′Q_target(s_t,a′；θ_target) (12)

θ_target＝τθ+(1-τ)θ (13)

其中表示期望，a′为信道分配神经网络目标网络的输出，y(s_t,r_t)为信道分配神经网络的目标输出值；Q(s_t-1,a_t-1；θ)为信道分配神经网络的实际输出值，Q_target(s_t,a′；θ_target)为信道分配神经网络目标网络的实际输出值，γ为折扣因子，θ为信道分配神经网络的参数，θ_target为信道分配神经网络目标网络的参数；通过神经网络反向传播更新信道分配神经网络的参数θ，并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θ_target，τ为小于1的正数；奖励r_t表示为：

S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练，将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络，对各个发射机中的信道功率控制神经网络的参数进行更新，使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行；

在S400中，所述信道功率控制神经网络采用基于深度无监督学习的集中式训练，具体的，在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数，通过神经网络反向传播更新信道功率控制神经网络的参数，以最大化信道传输速率；所述的损失函数表示为：

其中φ为信道功率控制神经网络的参数，

下面提供一个具体实施例：

该面向多信道D2D网络基于深度强化学习联合无监督学习的D2D网络分布式资源分配方法，实施框架图如图1所示，其中图中分别表示t-1时隙的发射机智能体收集到所有信道的本地信息集、t-1时隙所有信道分配神经网络的输出、t时隙的奖励和t时隙的发射机智能体收集到所有信道的本地信息集。表示t时隙信道分配神经网络输出的信道分配方案，表示为t时隙信道分配神经网络输出的信道分配方案所确定的一组本地信息集，表示t时隙信道功率神经网络输出的信道功率方案。

以下结合实施流程、实施例、附图对本专利的实施做详细说明。

图2是多信道D2D网络系统模型。在实施例中，假定每一个D2D对被随机放置在面积为500m×500m的场景中，其接收器随机放置在10米到100米之间的发射机周围，D2D对为20，信道数量为2。图3是本发明实施例中链路N＝20的D2D网络拓扑图。按照LTE标准，路径损耗由128.1+37.6log₁₀(d)dB，其中d表示发射机到接收机之间的距离，单位是km。本专利设定σ²＝-114dBm。由于前端动态范围的实际限制，设定信噪比的上限为30dBm。

该面向多信道D2D网络基于深度强化学习联合无监督学习的D2D网络分布式资源分配方法，详细实施步骤如下：

S100、构建信道分配神经网络，在发射机智能体上分布式执行；所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集，所述信道分配神经网络的输出为M个适应值，将最大适应值所对应的信道确定为信道分配方案；在S100中，所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层，所述一个输入层、多个全连接隐层和一个输出层依次连接，其中所述输入层的维度为M×Q，其中M为D2D用户对所共享的正交信道数量，Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数；所述的本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰等，共有M×Q个元素；每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；所述输出层的输出维度为M。

基于发射机智能体本地信息集的收集方法如下步骤：

令每一条链路为n，链路n分别由发射机n和接收机n组成，在每个时隙t处，每个发射机智能体n通过收集自身发射机智能体的信息集和附近发射机智能体的信息集组成来决策动作

对于链路n，设置两个邻域集，第一个邻域集表示在上一个时隙t-1处附近发射机对链路n干扰的干扰机集合，用来表示。为了对是否使用信道m的发射机进行优先排序，将发射机n附近的发射机分为两组，分别为在时隙t处占用信道m和不占用信道m。将接收机n处收到的干扰强度进行降序排列表示为以便优先考虑对链路n干扰影响最严重的发射机邻居。其中，是基于构成的集合。

第二个邻域集是被干扰机集合，表示在前一个时隙t-1处发射机n对附近链路干扰的被干扰集合，定义为同样，为了对是否使用信道m的接收机进行优先排序，将附近接收机分为两组，按照干扰强度进行降序排列表示为以便优先考虑链路n的发射机对附近干扰影响最严重的接收机。其中，是基于构成的集合。

接下来，令表示在时隙t处发射机智能体n的本地信息集，定义三个主要的特征来描述首先，第一个特征组是链路n自身接收机从发射机得到的本地信息集，发射机n可以直接访问接收机n收集到的占用信道m的最新本地信息，例如信道状态信息发射机n在前一个时隙的发射功率传输速率表示每个时隙的开始处与总干扰功率的比，表示时隙t处链路n对选择信道m，否则表示时隙t处发射机n在信道m上的信道增益；最后用κ_n,m来表示本地信息特征组：

第二个特征组是链路n附近发射机对接收机n的干扰信息；同于第一个特征组信息，对于发射机i还有以下信息被保留，即其中为体现分布式方法，按照干扰强度索引出c个元素作为第二个特征组信息集ν_n,m，ν_n,m遵循的优先级标准。

最后一个特征组是链路n发射机对其附近接收机的造成的干扰信息。假设被干扰的接受机j与干扰发射机n会进行信息交换，但是由于回程网络传输会延迟一个时隙，例如：同第二个特征组信息，按照干扰强度索引出c个元素作为第三个特征组信息集，用η_n,m来表示，η_n,m必须遵循的优先级标准。

最后，将发射机智能体n在时隙t处使用信道m的本地信息表示为：

对本地信息集的预处理是发射机智能体将收集到所有信道的本地信息集按照干扰强度进行降序排列，为体现分布式方法，从每个发射机智能体索引出c个元素信息作为本地信息集，以便优先考虑到发射机对干扰最严重的接收机邻居，在本次实例中令c＝5，每一信道的本地信息集元素个数Q＝9×c+5＝50；根据假定的多信道D2D网络模型可知，M＝2，本地信息集张量形状为(1，2×50)；根据假定的多信道D2D网络模型可知，M＝2，神经网络模型的输入层的维度为2×50；神经网络模型的输出层的维度为2；将所述信道分配神经网络模型的输出层看作是一条链路在所有信道上的适应值，选出最大适应值所对应的信道即为该链路的信道分配方案。

图4是本专利实施例所设计的信道分配神经网络,该模型包含1个输入层、3个全连接隐层和1个输出层。输入层是发射机智能体收集到所有信道的本地信息集；其中3个全连接隐层包括1个全连接层、1个标准化层和一个RELU激活层；根据假定的多信道D2D网络模型可知，N＝20，M＝2，输入到该网络的本地信息集张量的形状为(1，100)、输入层的神经元维度为100、输出层神经元的维度为2；全连接隐层全连接层神经元的维度从左到右依次为80、50和50。

S200、构建信道功率控制神经网络，在发射机智能体上分布式执行；根据S100的信道分配方案，确定此信道分配方案所对应的一组本地信息集；所述信道功率控制神经网络的输入为所述确定的一组本地信息集，通过对所述信道功率控制神经网络输出层的输出进行约束，得到功率控制方案；在S200中，所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层，所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接，其中所述一个输入层的维度为Q；所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集，包含Q个元素；每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层；所述输出层的输出维度为1；所述约束层，用于对所述输出层的输出进行处理以满足约束；所述的将输出进行约束处理的方法为，用P_max乘以信道功率控制神经网络输出层的输出，最后得到约束处理后的功率控制。

图5是本专利实施例所设计的信道功率控制神经网络，该模型包含1个输入层、3个全连接隐层、1个输出层和1个输出约束层。输入层是信道分配神经网络输出的信道分配方案确定的一组本地信息集；3个全连接隐层包括1个全连接层、1个标准化层和1个RELU激活层；输出层包括1个全连接层、1个标准化层和一个Sigmoid激活层。其中，所述输出约束层对输出层的输出进行处理以满足约束。根据假定的多信道D2D网络模型可知，N＝20，M＝2，输入到该网络的本地信息集张量的形状为(1,50)、输入层的神经元维度为50、输出层神经元的维度为1；全连接隐层全连接层神经元的维度从左到右依次为200、200和100。

由信道分配神经网络输出的信道分配方案确定一组本地信息集，信道功率控制神经网络输入层的维度为1×50；由约束层输出优化的信道功率，信道功率控制神经网络输出层的维度为1。设发射机最大发射功率P_max＝6.3W，信道功率控制神经网络的输出约束层将输出进行约束处理的方法为，用P_max乘以信道功率控制神经网络输出，最后得到约束处理后的功率控制。

S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练，将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络，对各个发射机中的信道分配神经网络的参数进行更新，使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行；在S300中，所述信道分配神经网络采用基于深度强化学习的集中式训练，具体的，首先为信道分配神经网络设定经验池，假设回程占用一个时隙延迟，则经验池将存放t-1时隙发射机智能体所收集到的所有M个信道的本地信息集s_t-1、t-1时隙信道分配神经网络的输出a_t-1、t时隙奖励r_t和t时隙发射机智能体所收集到的所有M个信道的本地信息集s_t，当经验池信息数量满足训练要求后，信道分配神经网络开始集中训练；将经验池里t-1时隙发射机智能体所收集到的所有M个信道的本地信息集s_t-1作为信道分配神经网络的输入，t时隙发射机智能体所收集到的所有M个信道的本地信息集s_t作为信道分配神经网络目标网络的输入，在训练时采用均方误差损失函数，以最大化传输速率，所采用的损失函数L(θ)表示为：

y(s_t,r_t)＝r_t+γmax_a′Q_target(s_t,a′；θ_target) (26)

θ_target＝τθ+(1-τ)θ (27)

具体的，采用深度强化学习的方法对信道分配神经网络进行集中式训练，为信道分配神经网络设定经验池，存放t-1时隙的发射机智能体收集到所有信道的本地信息集、t-1时隙所有信道分配神经网络的输出、t时隙的奖励和t时隙的发射机智能体收集到所有信道的本地信息集。当经验池信息数量满足训练要求后，信道分配神经网络开始集中式训练；将经验池里t-1时隙的发射机智能体收集到所有信道的本地信息集作为信道分配神经网络的输入，t时隙的发射机智能体收集到所有信道的本地信息集作为信道分配神经网络目标网络的输入。

在训练时采用均方误差损失函数，以最大化传输速率。所采用的损失函数表示为：

y(s_t,r_t)＝r_t+γmax_a′Q_target(s_t,a′；θ_target) (35)

θ_target＝τθ+(1-τ)θ (36)

式中各符号的意义同上，其中设定γ＝0.25。通过神经网络反向传播更新信道分配神经网络的参数θ，并利用信道分配神经网络的参数θ更新信道分配神经网络目标网络的参数θ_target。将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络，对各个发射机中的信道分配神经网络的参数进行更新，使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行。

S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练，将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络，对各个发射机中的信道功率控制神经网络的参数进行更新，使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行；在S400中，所述信道功率控制神经网络采用基于深度无监督学习的集中式训练，具体的，在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数，通过神经网络反向传播更新信道功率控制神经网络的参数，以最大化信道传输速率；所述的损失函数表示为：

其中φ为信道功率控制神经网络的参数，

具体的采用深度无监督学习的方法对信道功率控制神经网络进行集中式训练，在训练时采用信道传输速率的负期望作为损失函数，更新信道功率控制神经网络参数φ，以最大化信道传输速率；所采用的损失函数可以表示为：

式中各符号意义同上。将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络，对各个发射机中的信道功率控制神经网络的参数进行更新，使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。

本专利的资源分配方法先进行线下的分布式执行集中式训练后,再进行线上计算。信道分配神经网络和信道功率控制神经网络训练完成后,就可利用信道分配神经网络和信道功率控制神经网络进行线上计算。计算过程是:先将本地信息集输入到信道分配神经网络中，再将信道分配神经网络模型输出的信道分配方案确定的一组本地信息集输入到信道功率控制分神经网络中,再根据信道分配神经网络输出的信道分配方案和信道功率控制神经网络输出的信道功率计算信道传输速率。

在线下训练中,设定一轮训练为4个时段,每个时段由5000个时隙组成。此外，信道分配神经网络的学习率设置为0.001，信道功率控制神经网络的学习率设置为0.0001。图6给出了在本实施例2信道，20链路上本发明方法与其他基准算法的信道平均传输速率比较曲线。为方便起见，本发明提出的方法被表示为“Proposed DRLDNN-CA+ULDNN-PC”。第一个基准算法为的“Joint DQN+DDPG”。第二种为“Joint DQN”。第三种和第四种是最优分数规划(FP)算法不同变体。第三种被称为“Ideal FP”，它需要瞬时的信道状态信息实行分数规划算法，且忽略执行集中优化和将优化结果传递给发射机之间的延迟。第四种称为“DelayedFP”，表示执行分数规划算法延迟一个时隙。最后一种是随机分配算法，称为“Random”。图6说明本专利提出的方法优于“Joint DQN”与“Joint DQN+DDPG”方法。

图7、图8表示分别在本实施例上4信道，20链路和10信道，50链路的信道平均传输速率，比较了本发明提出的方法与其他基准算法在不同信道与链路上的性能表现。图7、图8说明随着信道与链路数的增加本专利提出的方法得到的信道平均传输速率明显优于其他方法，这表明本专利所提出的方法要比其他已提出方法在更多信道更多链路上可以获得更高的信道平均传输速率。

实验仿真结果表明，本发明所提出的多信道D2D网络基于深度强化学习联合无监督学习的D2D网络分布式资源分配方法随着D2D网络中链路和信道数量的增加越来越优于其他基准算法。与其他基准算法相比，经过良好训练的信道分配神经网络模型和信道功率控制网络模型在随机生成部署的信道平均传输速率方面更具可好的扩展性。

Claims

1.一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，其特征在于，所述深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤：

在S100中，所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层，所述一个输入层、多个全连接隐层和一个输出层依次连接，其中，

所述输入层的维度为M×Q，其中M为D2D用户对所共享的正交信道数量，Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数；所述的本地信息集包括t时隙所有M个信道的信道增益和t-1时隙发射机在所有M个信道对其所有干扰邻居的干扰，共有M×Q个元素；

所述输出层的输出维度为M；

在S200中，所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层，所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接，其中，

所述一个输入层的维度为Q；所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集，包含Q个元素；

所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层；

所述输出层的输出维度为1；

所述约束层，用于对所述输出层的输出进行处理以满足约束；所述的将输出进行约束处理的方法为，用P_max乘以信道功率控制神经网络输出层的输出，最后得到约束处理后的功率控制；

在S300中，所述信道分配神经网络采用基于深度强化学习的集中式训练，具体的，

y(s_t,r_t)＝r_t+γmax_a′Q_target(s_t,a′；θ_target) (2)

θ_target＝τθ+(1-τ)θ (3)

奖励r_t表示为：

其中为t时隙发射机n的奖励值；为t-1时隙发射机n的下行链路传输速率；惩罚项表示t-1时隙发射机n对所有接收机造成的干扰；为t-1时隙发射机n在信道m上的下行链路传输速率；是t时隙被干扰机集合；表示t-1时隙处链路n选择信道m，否则表示由信道功率控制网络输出约束层得到的在t-1时隙处发射机n发射功率；σ²表示高斯噪声；表示t-1时隙处发射机n在信道m上的信道增益；β_k→n表示发射机k到接收机n的路径损耗；表示t-1时隙处在信道m上发射机k到接收机n的小尺度瑞利衰落；

在S400中，所述信道功率控制神经网络采用基于深度无监督学习的集中式训练，具体的，

在集中式训练时采用信道传输速率的负期望作为信道功率控制神经网络的损失函数，通过神经网络反向传播更新信道功率控制神经网络的参数，以最大化信道传输速率；所述的损失函数表示为：

其中φ为信道功率控制神经网络的参数，