CN111885720B

CN111885720B - 基于深度强化学习的多用户子载波功率分配方法

Info

Publication number: CN111885720B
Application number: CN202010579195.5A
Authority: CN
Inventors: 古博; 林梓淇; 张旭; 丁北辰; 韩瑜
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-06-08
Filing date: 2020-06-23
Publication date: 2021-05-28
Anticipated expiration: 2040-06-23
Also published as: CN111885720A

Abstract

一种多用户子载波功率分配方法、电子设备及存储介质，一个实施例的方法包括：获取当前环境状态，当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态；基于用来进行动作选择的第一神经网络对所述当前环境状态进行处理，获得当前功率分配方案，所述第一神经网络包括动作选择参数；所述当前功率分配方案包括：各可用子载波，以及各可用子载波对应的发射功率等级。本实施例最大限度保证信息传输的安全性，实现了子载波的复用，可以有效克服频谱资源短缺的问题。

Description

基于深度强化学习的多用户子载波功率分配方法

技术领域

本申请涉及通信技术领域，特别是涉及一种基于深度强化学习的多用户子载波功率分配方法、电子设备及存储介质。

背景技术

随着通信网络的发展和物联网时代的到来，接入通信网络的终端数量呈指数级增长，据估计，将有超过500亿台设备相互连接和交换信息，在此情况下，随着接入通信网络的设备数量的增加，对通信资源的需求是巨大的。然而，能够进行分配的频谱资源有限，难以满足通信网络发展所面临的频谱资源的需求，因此，频谱资源的短缺成为通信过程中的发展瓶颈。

发明内容

基于此，有必要提供一种基于深度强化学习的多用户子载波功率分配方法、电子设备及存储介质，以解决资源短缺的问题。

一种基于深度强化学习的多用户子载波功率分配方法，所述方法包括：

获取当前环境状态，当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态；

基于用来进行动作选择的第一神经网络对所述当前环境状态进行处理，获得当前功率分配方案，所述第一神经网络包括动作选择参数；所述当前功率分配方案包括：各可用子载波，以及各可用子载波对应的发射功率等级。

一种基于深度强化学习的多用户子载波功率分配方法，包括步骤：

获取预定数量的经验回放样本，所述经验回放样本包括对应的当前环境状态，所述当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态；

采用所述经验回放样本对用来评估动作的第二神经网络进行训练，获得训练后的第二神经网络，所述训练后的第二神经网络中包括最优动作值评估参数；

在满足参数更新条件时，将所述最优动作值评估参数发送给发射机，以使得所述发射机采用所述最优动作值评估参数更新用来进行动作选择的第一神经网络，所述第一神经网络用于发射机进行当前功率分配方案的确定，所述第二神经网络与所述第一神经网络的结构相同。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现控制执行如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现控制执行如上所述的方法的步骤。

基于如上所述的实施例方案，其在进行子载波功率分配时，不仅获取发射机本地状态，基站状态，还包括干扰邻居状态以及被干扰邻居状态，并在此基础上进行功率分配，从而信息交换仅限于选定的相邻设备之间，因此可以显著降低信令开销，同时最大限度保证信息传输的安全性，同时通过将子载波划分为不同的发射功率等级，从而不同的发射机可以在各子载波的不同的发射功率等级上进行通信传输，实现了子载波的复用，可以有效克服频谱资源短缺的问题。

附图说明

图1为一个实施例中的应用场景示意图；

图2为一个实施例中的多用户子载波功率分配方法的流程示意图；

图3为另一个实施例中的多用户子载波功率分配方法的流程示意图；

图4为一个实施例中的多用户子载波功率分配方法的流程示意图；

图5为一个实施例中的原理架构示意图；

图6为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1示出了本申请实施例的一个应用场景的示意图，其是一个蜂窝网络下的D2D(Device-to-Device，设备到设备通信，是由3GPP(3rd Generation Partnership Project，第三代合作伙伴计划)组织提出的一种在通信系统的控制下，允许LTE(Long TermEvolution，长期演进)终端之间在没有基础网络设施的情况下，利用小区资源直接进行通信的新技术)通信的应用场景示意图。在基站(BS)的覆盖范围内，存在多个D2D对，每个D2D对包含一个发射机和一个接收机，如图1所示，基站覆盖范围内的发射机TX i和接收机RX i构成第i个D2D对，发射机TXj和接收机RXj构成第j个D2D对。

本申请实施例中，研究了N个D2D对位于基站(BS)覆盖范围内的单小区蜂窝网络的上行链路传输，并复用了许可的蜂窝用户(CUs)频谱，将可用频谱划分为M个正交子载波。此外，还考虑了一般的“多对多”情形，即每个子载波可以被分配给多个D2D对，并且每个D2D对可以复用多个子载波。

其中，每个D2D对的发射机在需要发射数据时，基于本申请实施例方案中涉及的用来进行动作选择的神经网络(为了便于记录，本申请实施例中也称为第一神经网络)，确定出当前功率分配方案，并基于当前功率分配方案执行发射动作。存在一个神经网络训练端，该神经网络训练端用以训练用来评估动作的神经网络(为了便于记录，本申请实施例中也称为第二神经网络)，训练用来评估动作的第二神经网络的结构与发射机的用来进行动作选择的第一神经网络的结构相同，神经网络训练端训练第二神经网络获得的最优动作值评估参数，可用以更新到发射机的第一神经网络，以实现第一神经网络的更新。其中，神经网络训练端可以是任何可以进行模型训练，且能够与发射机进行通信的设备，如基站、服务器、每个发射机自身以及基站覆盖范围内的其中一个或多个发射机等等。本申请实施例涉及D2D对的发射机进行多用户子载波功率分配过程中的方案。

如图2、图3所示，一个实施例中的多用户子载波功率分配方法，是以发射机的处理过程为例进行说明，包括如下步骤S201和步骤S202。

步骤S201：获取当前环境状态，当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态。

其中，发射机在获取当前环境状态之前，还可以包括步骤：将发射功率离散为预定数目个功率等级，每个功率等级对应一个发射功率。

其中，一个实施例中的发射机本地状态具体可以包括：发射机前一时刻在各子载波上的先前传输功率，发射机前一时刻在各子载波上的先前频谱效益，发射机的直接增益，所述发射机对应的接收机接收到的总干扰，可以理解，接收机接收到的总干扰会包含有环境噪声。其中，所述发射机的直接增益包括：所述发射机在当前时刻的发射机当前增益，以及所述发射机在至少一个历史回退时刻的发射机先前增益。从而，通过考虑发射机的先前传输功率、先前频谱效益和先前增益，可以考虑更多的状态信息，可以更好地追踪环境的变化，拥有更多过去的信息有助于每个智能体做出更好的决策。可以理解，在下述实施例中，只回退一步，在其他实施例中，在发射机的处理能力足够强的情况下，也可以回退多步，包括更多时刻的先前传输功率、先前频谱效益和先前增益。

一个实施例中的基站状态包括：在当前时刻观测到的在至少两个历史回退时刻，所述发射机向对应的接收机传输时，对基站造成的干扰状态。

一个实施例中，干扰邻居状态包括：发射机对应的接收机接收到的来自邻居用户的干扰，以及干扰邻居的频谱效益，其中，干扰邻居是指对发射机对应的接收机造成干扰的邻居用户。具体地，干扰邻居状态可以包括：当前时刻发射机对应的接收机接收到的来自邻居用户的当前干扰邻居状态，以及干扰邻居对应的频谱效益；以及至少一个历史回退时刻，所述发射机对应的接收机接收到的来自邻居用户的先前干扰邻居状态，以及所述干扰邻居对应的频谱效益；

一个实施例中的被干扰邻居状态包括：在当前时刻观测到的在至少两个历史回退时刻，发射机对邻居用户的干扰状态，以及对应的被干扰邻居的频谱效益。

步骤S202：基于用来进行动作选择的第一神经网络对所述当前环境状态进行处理，获得当前功率分配方案，所述第一神经网络包括动作选择参数；所述当前功率分配方案包括：各可用子载波，以及各可用子载波对应的发射功率等级。

如图3，一个实施例中的多用户子载波功率分配方法还可以进一步包括步骤S203至S205。

步骤S203：观测执行所述当前功率分配方案之后的动作执行后状态。

步骤S204：基于所述动作执行后状态，计算执行所述当前功率分配方案之后的动作执行回报。

一个实施例中，可以采用下述方式计算动作执行回报：

获取所述发射机所在D2D对的频谱效用，由于所述发射机引起的干扰造成的总降低频谱效用，对基站造成的干扰所产生的惩罚；

基于所述频谱效用、所述总降低频谱效用、以及所述惩罚，确定所述动作执行回报。一些实施例中，具体可以是将频谱效用减去总降低频谱效用和所述惩罚的差值，作为动作执行回报。

步骤S205：将所述当前环境状态、当前功率分配方案、动作执行后状态、动作执行后回报发送给神经网络训练端。

如图3，一个实施例中的多用户子载波功率分配方法还可以进一步包括步骤S206。

步骤S206：获取神经网络训练端发送的最优动作值评估参数，所述神经网络训练端训练的用来评估动作的第二神经网络的结构与所述第一神经网络的结构相同，所述第二神经网络包括所述最优动作值评估参数；采用所述最优动作值评估参数更新所述第一神经网络中的所述动作选择参数。

如图4所示，一个实施例中的多用户子载波功率分配方法，以神经网络训练端的处理过程为例进行说明，包括步骤S401至步骤S403。

步骤S401：获取预定数量的经验回放样本，所述经验回放样本包括对应的当前环境状态，所述当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态。

一个实施例中，经验回放样本还可以包括：与对应的当前环境状态对应的当前功率分配方案、动作执行后状态、以及动作执行后回报。

其中，一个实施例中的发射机本地状态具体可以包括：发射机前一时刻在各子载波上的先前传输功率，发射机前一时刻在各子载波上的先前频谱效益，发射机的直接增益，所述发射机对应的接收机收到的总干扰。其中，所述发射机的直接增益包括：所述发射机在当前时刻的发射机当前增益，以及所述发射机在至少一个历史回退时刻的发射机先前增益。从而，通过考虑发射机的先前传输功率、先前频谱效益和先前增益，可以考虑更多的状态信息，可以更好地追踪环境的变化，拥有更多过去的信息有助于每个发射机做出更好的决策。可以理解，在下述实施例中，只回退一步，在其他实施例中，在发射机的处理能力足够强的情况下，也可以回退多步，包括更多时刻的先前传输功率、先前频谱效益和先前增益。

一个实施例中的干扰邻居状态包括：所述发射机对应的接收机接收到的来自邻居用户的当前干扰邻居状态，以及干扰邻居对应的频谱效益；以及至少一个历史回退时刻，所述发射机对应的接收机接收到的来自邻居用户的先前干扰邻居状态，以及干扰邻居的频谱效益。

步骤S402：采用所述经验回放样本对用来评估动作的第二神经网络进行训练，获得训练后的第二神经网络，所述训练后的第二神经网络中包括最优动作值评估参数。

一个实施例中的采用所述经验回放样本对用来评估动作的第二神经网络进行训练，获得训练后的第二神经网络，包括：

将所述经验回放样本对应的当前环境状态输入所述用来评估动作的第二神经网络，获得对应的输出值，所述输出值表示在所述当前环境状态下，第二神经网络在当前的最优动作值评估参数下输出的动作所获得的期望回报；

基于所述输出值和所述动作执行后回报计算目标回报值；

基于所述输出值和所述目标回报值计算损失函数；

若所述损失函数未收敛到最小值，通过梯度下降的方式更新所述最优动作值评估参数，并返回将所述经验回放样本对应的当前环境状态输入所述用来评估动作的第二神经网络的步骤。

步骤S403：在满足参数更新条件时，将所述最优动作值评估参数发送给发射机，以使得所述发射机采用所述最优动作值评估参数更新用来进行动作选择的第一神经网络，所述第一神经网络用于发射机进行当前功率分配方案的确定，所述第二神经网络与所述第一神经网络的结构相同。

一个实施例中，可以是在上一次将最优动作值评估参数发送给发射机之后，模型训练次数达到预定训练次数时，判定达到参数更新条件。

以下结合一个具体应用示例进行详细举例说明。

本申请实施例方案，提出了蜂窝网络下的D2D通信的系统模型，其中，重点研究了N个D2D对位于基站(BS)覆盖范围内的单小区蜂窝网络的上行链路传输，并复用了许可的蜂窝用户(CUs)频谱。本申请实施例中，将可用频谱划分为M个正交子载波。此外，还考虑了一般的“多对多”情形，即每个子载波可以被分配给多个D2D对，并且每个D2D对可以复用多个子载波。

将D2D对的集合用

表示，子载波的集合用

表示。本申请方案在实施时，需要将发射功率离散为预定数目个功率等级，每个功率等级对应一个发射功率。记预设数目为V，即发射功率被离散成V个等级，则发射机i离散后的功率等级可以表示为：

对应地，发射机i最终确定的动作(确定的功率分配方案)可以表示为：

其中，t表示时隙，

表示在时隙t下，发射机i在第1个子载波上的发射功率，类似地，

表示在时隙t下，发射机i在第M个子载波上的发射功率。

结合图5所示，本申请实施例提供的解决方案，通过搭建两个结构相同的神经网络：用来评估动作的神经网络(如上所述，本申请实施例中也称为第二神经网络，在下述各实施例中记为trainDQN)和用来进行动作选择的神经网络(如上所述，本申请实施例中也称为第一神经网络，在下述各实施例中记为targetDQN)，其中trainDQN和targetDQN的结构相同，且targetDQN的参数是从trainDQN中按照一定频率复制而来。每个神经网络均由一个输入层、三个隐藏层和一个输出层组成，并以ReLU函数作为所有隐藏层的激活函数，利用softmax函数生成Q值。

将每个D2D发射机看成是一个智能体，将发射机观测到的当前环境状态s输入到targetDQN，选择输出动作a，具体的，可以通过ε-贪婪算法选择出输出的动作a，为D2D用户在合适的子载波上分配功率。然后，根据在合适的子载波上分配的功率计算频谱效用，确定采用该动作a所得到的回报r，并将新的观测的环境状态s′输入到targetDQN中，并利用回报r来计算损失函数loss，进而通过反向梯度传递的方式对trainDQN中的参数进行更新；将上述过程反复迭代，当回报收敛并趋近最大化时，则当前的动作为最优动作。

考虑到D2D用户既要满足自身的数据传输需求，又不能因为自身发射功率过大而对其他D2D用户以及基站造成过大干扰，因此，我们的目标是最大化蜂窝网络中的D2D对的频谱效用，第i个D2D对的频谱效用函数表示为：

其中，

表示发射机i在时刻t在子载波m上的传输功率，

表示发射机j在时刻t在子载波m上的传输功率，

表示第i个D2D对的发射机i在t时刻向接收机i发送信息时，占用了第m个子载波时的对应增益，

表示t时刻第j个D2D对的发射机向接收机发送信息时，在第m个子载波上对第i个D2D对的信道干扰的增益，σ²表示高斯白噪声。同时要满足三个条件：

条件1：在第m个子载波上，所有用户对基站的干扰总和不能超过阈值Q，用公式可表示为

其中，

表示t时刻发射机i在向接收机发送信息时，在第m个子载波上对基站的信道干扰的增益；

条件2：D2D发射机i分配在子载波上的功率总和不能超过自身可发射的最大功率，用公式可表示为

其中，

表示发射机i自身可发射的最大功率；

条件3：D2D发射机i分配在子载波上的功率不能小于0，用公式可表示为

本申请实施例中，targetDQN和trainDQN具体可以是基于深度强化学习的模型DDQN。首先可以在各发射机上部署targetDQN，并在神经网络训练端(例如服务器)上部署用以进行训练的模型trainDQN，然后服务器会执行对模型trainDQN的训练过程，模型trainDQN训练完毕后，将训练获得的最优动作值评估参数θ^train发送给各发射机，以使得各发射机采用最优动作值评估参数θ^train，对自身网络中的动作选择参数θ^target进行更新，然后进行具体的动作决策。最优动作值评估参数θ^train用于评估最优动作的Q值(期望回报)，动作选择参数θ^target用于选择对应最大Q值的动作。通过将targetDQN和trainDQN选用基于深度强化学习的模型DDQN，选用最优动作值评估参数θ^train和动作选择参数θ^target这两组参数将动作选择和策略评估分离，解耦了目标Q值动作的选择和目标Q值的计算，解决了Q值过估计的问题。

可以理解，在其他实施例中，也可以是在服务器上对trainDQN训练完毕，用最优动作值评估参数θ^train更新了targetDQN中的动作选择参数θ^target之后，再将确定的targetDQN发送给各发射机，在后续使用过程中，再基于一定的频率将后续重新训练获得的最优动作值评估参数θ^train发送给各发射机，对动作选择参数θ^target进行更新即可。在下述实施例中，是以服务器将训练获得的最优动作值评估参数θ^train发送给各发射机为例进行说明。

一个实施例中，神经网络训练端训练trainDQN的模型训练过程可以包括如下步骤511至514：

步骤511：初始化经验回放池，以及trainDQN中的参数(最优动作值评估参数)θ^train。

其中，经验回放池中存有经验值(经验回放样本)，每个经验回放样本包含四个参数：该样本对应的当前环境状态(动作执行前状态)

对状态

进行处理输出的当前功率分配方案(动作)

执行动作

后的状态(动作执行后状态)

以及执行动作

后的动作执行后回报

其中，在初始训练状态下，经验回放池中的经验回放样本，可以是基于已有的发射机之前的操作获得，或者是通过仿真环境仿真获得，在后续收集获得实际动作得到的经验回放样本后，再重新训练trainDQN时，初始训练状态下的初始化的经验回放样本，可以保留也可以替换或者删除，可以基于实际技术的需要进行选择，本申请实施例不做具体限定。在一些实施例中，为了避免经验回放池中的样本数量过多，也为了使得后续的训练样本能够更贴合对应时间的实际情况，也可以在经验回放池中的样本数量达到一定值时，在接收到新的经验回放样本时，直接用该新的经验回放样本直接替代时间最早样本。

步骤512：从经验回放池中随机选取K个经验值(经验回放样本)组成的小批量D作为trainDQN的输入。K的取值可以基于实际技术需要进行选择，本申请实施例不做具体限定。

步骤513：将经验值中的动作执行前状态

输入trainDQN，trainDQN对动作执行前状态

进行处理，获得trainDQN的输出值q(s，a|θ^train)，并结合trainDQN的输出值q(s，a|θ^train)计算目标回报值y_i，其中：

r′_i为动作对应的回报值，μ∈(0，1)表示折扣系数，

表示选取使q值最大的动作a′_i；输出值q(s，a|θ^train)表示在环境状态s下，trainDQN在当前的最优动作值评估参数θ^train下输出的动作所获得的期望回报。

步骤514：基于输出值q(s，a|θ^train)和目标回报值y_i计算损失函数。

一个实施例中，可通过均方误差(MSE)计算损失函数

若计算获得的损失函数未收敛到最小值，则通过梯度下降的方式更新θ^train：

其中，ρ是每次调整的非负步长。

然后返回步骤512重新进行训练，直至计算获得的损失函数收敛到最小值。

若计算获得的损失函数收敛到最小值(或者连续多次满足该条件)，则结束初始的初始训练过程。

初始训练过程结束后，服务器将训练获得的θ^train发送给各D2D对中的发射机，以使得发射机对其自身使用的targetDQN中的θ^target进行更新，即使得布设在发射机的targetDQN中的θ^target等于服务器发送过来的θ^train，进行后续的功率分配过程。

在后续过程中，用以训练trainDQN的神经网络训练端，每间隔预定时间，或者是每收到一定数量的经验值后，执行上述步骤512-514的模型训练过程，以更新trainDQN模型中的最优动作值评估参数θ^train。然后在训练预定次数之后，服务器将最新更新的trainDQN模型中的θ^train发送给对应的各发射机，发射机用最新的θ^train赋值给targetDQN中的θ^target，实现targetDQN模型的更新，更新后的targetDQN可用于后续分配过程。这里的训练预定次数的具体数值，可以结合实际技术需要进行设定，本申请实施例不做具体限制。

发射机在基于获得的targetDQN，或者更新后的targetDQN进行子载波功率分配时，一个具体的功率分配过程可以包括如下步骤521至步骤524。

步骤521：在时隙t，发射机观察获取当前环境状态，当前环境状态包括：本地状态，基站状态，干扰邻居状态，被干扰邻居状态。

其中，本地状态一共6M个输入端口，具体包括：

发射机i的先前传输功率

具体包括发射机前一时刻在各子载波上的先前传输功率，其中，

表示发射机i在时刻t-1在子载波m上的先前传输功率；

发射机i的先前频谱效益

具体包括发射机前一时刻在各子载波上的先前频谱效益，其中，

表示发射机i在时刻t-1在子载波m上的先前频谱效益；

发射机i的直接增益，具体包括发射机i的当前增益

其中，h_i→i，m表示第i个D2D对的发射机i向接收机i发送信息时，占用了第m个子载波时的对应增益。在一些实施例中，发射机i的直接增益还可以包括发射机i的先前增益

其中，

表示第i个D2D对的发射机i在t-1时刻向接收机i发送信息时，占用了第m个子载波时的对应增益。从而，通过考虑发射机的先前增益和当前增益，可以考虑更多的状态信息，可以更好地追踪环境的变化，拥有更多过去的信息有助于每个智能体做出更好的决策。可以理解，这里只回退一步，只示出了t-1时刻的先前增益，在其他实施例中，在发射机的处理能力足够强的情况下，也可以回退多步，包括更多时刻的先前增益；

在发射机i对应的接收机i处接收到的总干扰(本申请实施例中称为接收机总干扰)，具体包括：接收机i在t时刻收到的总干扰

以及接收机i在t-1时刻收到的总干扰

其中，

表示t-1时刻发射机j在子载波m上的先前传输功率，

表示t时刻第j个D2D对的发射机向接收机发送信息时，在第m个子载波上对第i个D2D对的信道干扰的增益；

表示t-2时刻发射机j在子载波m上的先前传输功率，

表示t-1时刻第j个D2D对的发射机向接收机发送信息时，在第m个子载波上对第i个D2D对的信道干扰的增益，σ²表示高斯白噪声。

信道增益

可以通过下式表示：

其中X是路径损耗常数，β_j→i，m是服从指数分布的快衰落增益，γ_j→i，m是服从对数正态分布的慢衰落增益，L_j→i表示第j个发射机TXj到第i个接收机RX i的距离，τ是路径损耗指数。

γ_j→i，m表示在t时刻，当第i个发射机TX i在第m个子载波上传输数据时，第i个发射机TX i到第i个接收机RX i的信干噪比(SINR)，用公式可表示为：

其中

和

分别表示TX i和TX j在子载波m上的传输功率，

表示t时刻第j个D2D对的发射机向接收机发送信息时，在第m个子载波上对第i个D2D对的信道干扰的增益，σ²表示高斯白噪声。

基站状态，一共包含2M个输入端口，具体包括：

发射机i向接收机i传输时对基站造成的干扰状态，具体可以包括：在当前时刻观测到的在至少两个历史回退时刻，发射机i向接收机i传输时，对基站造成的干扰状态。以回退两个历史步长为例，则可以包括：

以及

其中，

表示t-1时刻发射机i在子载波m上的先前传输功率，

表示t-2时刻发射机i在子载波m上的先前传输功率，

表示t-1时刻发射机i在向接收机发送信息时，在第m个子载波上对基站的信道干扰的增益，

表示t-2时刻发射机i在向接收机发送信息时，在第m个子载波上对基站的信道干扰的增益。

其中，在本示例中，

表示t时刻观测到的t-1时刻发射机i向接收机i发送信息对基站造成的干扰状态，

表示t时刻观测到的t-2时刻发射机i向接收机i发送信息对基站造成的干扰状态。由于在t开始时，智能体还未做出动作，功率p此时是不知道的，而增益g是基站拥有的信息，所以t时刻的g也是无法知道的，因此，本实施例中，采用前一步t-1时刻和前两步t-2时刻时刻的数据，来表示t时刻观测到的两个历史时刻的数据。

干扰邻居状态，该组参数一共包括

个输入端口)，具体包括接收机i收到来自邻居的干扰和干扰邻居的频谱效益。其中，

表示在过去的时隙t-1中，TX j对D2D i的干扰高于某一阈值η的发射机的集合(干扰D2Di的邻居集合)，可以表示为

干扰邻居状态，具体可以包括：

(1)在当前时刻发射机对应的接收机收到的来自邻居用户的干扰(本申请实施例中称为当前干扰邻居状态)，本申请实施例中将对接收机造成干扰的邻居用户称之为干扰邻居。记当前时刻为t时刻，则可以记为t时刻接收机i收到来自邻居的干扰

其中，

表示t-1时刻发射机j在子载波m上的先前传输功率，

表示t时刻第j个D2D对的发射机向接收机发送信息时，在第m个子载波上对第i个D2D对的信道干扰的增益，

(2)在至少一个历史回退时刻，发射机对应的接收机接收到的来自邻居用户的干扰(本申请实施例中称为先前干扰邻居状态)，记回退一个历史步长，则是t时刻可观测到的接收机i在t-1时刻收到来自邻居的干扰

表示t-2时刻发射机j在子载波m上的先前传输功率，

表示t-1时刻第j个D2D对的发射机向接收机发送信息时，在第m个子载波上对第i个D2D对的信道干扰的增益。

其中，在本示例中，用

表示t时刻可观测到的接收机i收到来自邻居的干扰(即当前干扰邻居状态)，用

定示t时刻可观测到的t-1时刻接收机i收到来自邻居的干扰(即先前干扰邻居状态)。这是因为在t开始时，接收机i可以获得邻居D2D发射机对接收机i的增益h，而此时邻居D2D发射机发射功率还无法得知，所以t时刻，只能观测到邻居D2D发射机上一时刻(即t-1)的功率p。

(3)干扰邻居的频谱效益，具体可以包括：

当前时刻的干扰邻居的频谱效益，即干扰当前D2Di的邻居用户的频谱效益(如t时刻观测到的t-1时刻的干扰邻居的频谱效益

)，以及

与历史回退时刻对应的干扰邻居的频谱效益(如t时刻观测到的在t-2时刻的干扰邻居的频谱效益

)。

被干扰邻居状态(该组一共

个输入端口)，包括发射机i对邻居的干扰和被干扰邻居的频谱效益。其中，

表示TX i对邻居用户RX_k的干扰高于某一阈值η的接收机集合(也可称之为被D2D i干扰的邻居集合)表示为：

其中，被干扰邻居状态具体可以包括：

(1)在当前时刻观测到的发射机在回退一个历史步长时对邻居用户的干扰，记当前时刻为t时刻，则可以记为t时刻观测到的发射机i在t-1时刻对邻居的干扰：

(2)在当前时刻观测到的，在回退两个历史步长时，发射机对邻居用户的干扰，记当前时刻为t时刻，则是t时刻观测到的发射机i在t一2时刻对邻居的干扰

其中，在本示例中，用

表示t时刻观测到的发射机i在t-1时刻对邻居的干扰，也即t时刻观测到的邻居接收机在t-1时刻接收到的来自发射机i的干扰，用

表示t时刻观测到的发射机i在t-2时刻对邻居的干扰，也即t时刻观测到的邻居接收机在t-2时刻接收到的来自发射机i的干扰，是因为在t开始时，发射机i还未发射功率p，而且无法获得相邻D2D接收机t时刻的来自发射机i的增益h，所以在t时刻得用t-1时刻自身的发射功率p以及对相邻D2D接收机增益h，所以在t-1时刻也是一样，要用到t-2时刻的信息。

(3)被干扰邻居的频谱效益，具体可以包括：

回退一个历史步长时的被干扰邻居的频谱效益，即被当前发射机i干扰的邻居用户的频谱效益，具体可以是t时刻可观测到的t-1时刻被干扰邻居的频谱效益

以及

回退两个历史步长时的被干扰邻居的频谱效益，具体可以是t时刻可观测到的t-2时刻被干扰邻居的频谱效益

如上所述，基于当前环境状态确定的深度神经网络的输入端口的个数为：

步骤522：将获取的当前环境状态输入到targetDQN网络，获得targetDQN网络对当前环境状态进行处理输出的最大Q值，并选用与最大Q值对应的功率分配方案作为选择的当前功率分配方案。具体地，将当前环境状态输入到targetDQN网络之后，可以结合ε-贪婪算法选择出功率分配方案。

由于targetDQN与trainDQN结构相同，结合上述训练过程所述，targetDQN输出的Q值，表示在当前环境状态下，targetDQN输出的动作所获得的期望回报。

步骤523：发射机执行步骤522中选择的当前功率分配方案。

具体地，发射机基于选择的当前功率分配方案，为用户分配可用的子载波以及各子载波对应的发射功率等级，并采用可用的子载波以及各子载波对应的发射功率等级进行信号发射。

步骤524：观测执行目标动作后的动作执行后状态，并计算执行待执行动作后的回报。并将此次动作的相关参数(当前环境状态、目标动作、动作执行后状态、回报)作为经验值发送给服务器，服务器将收到的经验值存放到经验回访池，以执行后续的训练过程。

可以理解，一个实施例中，动作执行后状态为执行上述当前功率分配方案之后的环境状态，即包括执行上述当前功率分配方案之后的发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态。

然后基于观测到的动作执行后状态，计算执行所述当前功率分配方案之后的动作执行回报。计算动作执行回报的过程具体可以包括如下步骤1和步骤2。

步骤1：获取所述发射机所在D2D对的频谱效用，由于所述发射机引起的干扰造成的总降低频谱效用，对基站造成的干扰所产生的惩罚。

发射机所在D2D对的频谱效用，可以表示为：

受干扰邻居的频谱效用降低。令

定示智能体k的频谱效用，而不计算智能体i引起的干扰：

由于D2Di引起的干扰而导致的总降低频谱效用

由于基站产生的干扰而导致的惩罚，这可能会降低用户的服务质量。如果所有D2D发射机引起的总干扰超过BS侧允许的最大干扰Q，则应根据其对干扰的程度对智能体i进行惩罚π_i，m：

其中，

表示D2D i对基站造成的干扰，在所有D2D用户中所占的比例，max()取括号内数值大的数，基于所有D2D用户对基站的干扰是否会超过阈值Q进行判断，若超过了阈值Q，则

会大于0，则表示对D2D用户自身对基站造成的干扰进行相应比例的惩罚。若总干扰不超过阈值Q，则

会小于0，则max()＝0，这个式子的值便为0，即没有对基站干扰的惩罚。

步骤2：基于所述频谱效用、所述总降低频谱效用、以及所述惩罚，确定所述动作执行回报。

一个实施例中，动作执行回报可以是频谱效用与总降低频谱效用、惩罚的差值，具体的，在时隙t+1时，D2D

的回报函数可以用公式表示为：

其中ω表示非负权重。

在计算获得动作执行回报，发射机将将此次动作的相关参数(当前环境状态、目标动作、动作执行后状态、回报)作为经验值发送给服务器，服务器将收到的经验值存放到经验回访池，以执行后续的训练过程。

本领域普通技术人员可以理解，上述实施例中涉及的方法，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可实现如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

因此，在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的方法的步骤。

相应地，本申请实施例还提供一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现如上所述的由神经网络训练端执行的方法的步骤。其中，该电子设备的具体产品形式，可以是一个发射机，例如上述各实施例中具体进行多用户子载波功率分配的发射机，也可以是执行如上所述的各实施例中的对用来评估动作的第二神经网络进行训练的神经网络训练端，该神经网络训练端的具体产品形式，也可以是一个发射机，也可以是基站覆盖范围内的其他通信设备，如接收机、基站等等，也可以是其他的能够对用来评估动作的第二神经网络进行训练且能够与发射机进行通信的设备，本申请实施例不做具体限定。

一个实施例中的电子设备的内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器，还可以包括通过系统总线连接的网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信，一些实施例中，该网络接口的形式可以是天线，从而可以与接收机、发射机、神经网络训练端等进行通信，还可以包含有其他类型的通信接口。该计算机程序被处理器执行时以实现如上所述的方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的多用户子载波功率分配方法，其特征在于，所述方法包括：

基于用来进行动作选择的第一神经网络对所述当前环境状态进行处理，获得当前功率分配方案，所述第一神经网络包括动作选择参数；所述当前功率分配方案包括：各可用子载波，以及各可用子载波对应的发射功率等级；

还包括步骤：

获取神经网络训练端发送的最优动作值评估参数，并采用所述最优动作值评估参数更新所述第一神经网络中的所述动作选择参数；其中，所述神经网络训练端获取预定数量的经验回放样本，所述经验回放样本包括对应的当前环境状态，所述当前环境状态包括：发射机本地状态，基站状态，干扰邻居状态以及被干扰邻居状态；并采用所述经验回放样本对用来评估动作的第二神经网络进行训练，获得训练后的第二神经网络，所述训练后的第二神经网络中包括最优动作值评估参数，所述第二神经网络与所述第一神经网络的结构相同。

2.根据权利要求1所述的方法，其特征在于，包括：

所述发射机本地状态包括：发射机前一时刻在各子载波上的先前传输功率，发射机前一时刻在各子载波上的先前频谱效益，发射机的直接增益，所述发射机对应的接收机收到的总干扰。

3.根据权利要求1所述的方法，其特征在于，包括：

所述基站状态包括：在当前时刻观测到的在至少两个历史回退时刻，所述发射机向对应的接收机传输时，对基站造成的干扰状态。

4.根据权利要求1所述的方法，其特征在于，包括：

状态包括：所述发射机对应的接收机接收到的来自邻居用户的当前干扰邻居状态，以及干扰邻居对应的频谱效益；以及至少一个历史回退时刻，所述发射机对应的接收机接收到的来自邻居用户的先前干扰邻居状态，以及干扰邻居的频谱效益。

5.根据权利要求1所述的方法，其特征在于，包括：

所述被干扰邻居状态包括：在当前时刻观测到的在至少两个历史回退时刻，发射机对邻居用户的干扰状态，以及对应的被干扰邻居的频谱效益。

6.根据权利要求2至5任意一项所述的方法，其特征在于，所述发射机的直接增益包括：所述发射机在当前时刻的发射机当前增益，以及所述发射机在至少一个历史回退时刻的发射机先前增益。

7.根据权利要求1所述的方法，其特征在于，还包括步骤：

观测执行所述当前功率分配方案之后的动作执行后状态；

基于所述动作执行后状态，计算执行所述当前功率分配方案之后的动作执行回报；

将所述当前环境状态、当前功率分配方案、动作执行后状态、动作执行后回报发送给神经网络训练端。

8.根据权利要求7所述的方法，其特征在于，基于所述动作执行后状态，计算执行所述当前功率分配方案之后的动作执行回报，包括：

基于所述频谱效用、所述总降低频谱效用、以及所述惩罚，确定所述动作执行回报。

9.一种基于深度强化学习的多用户子载波功率分配方法，其特征在于，包括步骤：

10.根据权利要求9所述的方法，其特征在于，所述经验回放样本还包括：与对应的当前环境状态对应的当前功率分配方案、动作执行后状态、以及动作执行后回报。

11.根据权利要求10所述的方法，其特征在于，所述发射机本地状态包括：发射机前一时刻在各子载波上的先前传输功率，发射机前一时刻在各子载波上的先前频谱效益，发射机的直接增益，所述发射机对应的接收机收到的总干扰。

12.根据权利要求10所述的方法，其特征在于，所述基站状态包括：在当前时刻观测到的在至少两个历史回退时刻，所述发射机向对应的接收机传输时，对基站造成的干扰状态。

13.根据权利要求10所述的方法，其特征在于，所述干扰邻居状态包括：所述发射机对应的接收机接收到的来自邻居用户的当前干扰邻居状态，以及干扰邻居对应的频谱效益；以及至少一个历史回退时刻，所述发射机对应的接收机接收到的来自邻居用户的先前干扰邻居状态，以及干扰邻居的频谱效益。

14.根据权利要求10所述的方法，其特征在于，所述被干扰邻居状态包括：在当前时刻观测到的在至少两个历史回退时刻，发射机对邻居用户的干扰状态，以及对应的被干扰邻居的频谱效益。

15.根据权利要求10所述的方法，其特征在于，采用所述经验回放样本对用来评估动作的第二神经网络进行训练，获得训练后的第二神经网络，包括：

基于所述输出值和所述动作执行后回报计算目标回报值；

基于所述输出值和所述目标回报值计算损失函数；

16.根据权利要求9所述的方法，其特征在于，在上一次将最优动作值评估参数发送给发射机之后，模型训练次数达到预定训练次数时，判定达到参数更新条件。

17.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现控制执行权利要求1至16中任一项所述方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现控制执行权利要求1至16中任一项所述的方法的步骤。