CN114928549A

CN114928549A - 基于强化学习的非授权频段的通信资源分配方法及装置

Info

Publication number: CN114928549A
Application number: CN202210416662.1A
Authority: CN
Inventors: 潘长勇; 刘思壮; 杨昉; 宋健
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-08-19

Abstract

本申请涉及通信技术领域，特别涉及一种基于强化学习的非授权频段的通信资源分配方法及装置，其中，方法包括：根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数，并确定人工神经网络，进而更新算法；基于上述通信系统中非授权用户确定的各种目标数据，通过预设的深度强化学习算法对非授权用户进行训练，根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此，可有效解决非授权频段通信系统中频谱接入与功率控制问题，使非授权用户可以合理选取所要接入的频道以及接入功率，从而有效提升通信性能，提升通信资源的利用率。

Description

基于强化学习的非授权频段的通信资源分配方法及装置

技术领域

本申请涉及通信技术领域，特别涉及一种基于强化学习的非授权频段的通信资源分配方法及装置。

背景技术

近年来，随着通信技术的高速发展，数据流量业务规模持续增长。但是，在通信技术大环境下的授权频段资源较为稀缺，且当前的利用率较低，难以支持多样的业务，由此导致授权频段的数据流量趋向饱和。在当前授权频段资源稀缺的困境下，非授权频段的技术可用于缓解授权频段上的负载压力，提升通信资源利用率和网络容量。

相关技术中，进行通信系统资源分配时大多应用于单个非授权用户或单一种类资源的分配，无法满足多样化通信业务需求，对于多个非授权频段通信系统的多种资源分配问题仍需解决。

发明内容

本申请提供一种基于强化学习的非授权频段的通信资源分配方法及装置，通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计，可有效解决非授权频段通信系统中频谱接入与功率控制问题，使非授权用户可以合理选取所要接入的频道以及接入功率，从而有效提升通信性能，提升通信资源的利用率。

本申请第一方面实施例提供一种基于强化学习的非授权频段的通信资源分配方法，包括以下步骤：

根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数；

根据所述通信系统的组成结构确定人工神经网络，并根据所述人工神经网络确定网络更新算法；以及

基于所述智能体、所述行动参数、所述环境参数、所述回报函数、所述人工神经网络和网络更新算法，通过预设的深度强化学习算法对所述非授权用户进行训练，并根据训练结果确定所述通信系统和所述非授权用户的资源分配策略，以利用所述资源分配策略分配通信资源。

根据本申请的一个实施例，所述根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数，包括：

获取所述通信系统中非授权用户的通信状态，以及所述非授权用户与授权用户的碰撞状态；

获取所述非授权用户的通信信号、干扰加噪声比和所述非授权用户所占用的通信系统资源；

根据所述通信状态、所述碰撞状态、所述通信信号、所述干扰加噪声比和所述非授权用户所占用的通信系统资源确定所述非授权用户的回报函数。

根据本申请的一个实施例，所述根据所述通信系统的组成结构确定人工神经网络，包括：

将所述环境参数作为所述人工神经网络的输入，所述人工神经网络的输入层神经元数量等于环境参数数量，所述人工神经网络的输出层神经元数量等于所述行动参数中可选行动参数数量。

根据本申请的一个实施例，所述人工神经网络的隐藏层，包括：

全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。

根据本申请的一个实施例，所述人工神经网络的激活函数选择，包括：

线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。

根据本申请的一个实施例，所述网络更新算法，包括：

梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。

根据本申请的一个实施例，所述预设的深度强化学习算法，包括：

深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。

根据本申请的一个实施例，所述根据训练结果确定所述通信系统和所述非授权用户的资源分配策略，包括：

在每个时隙将所述环境参数输入至所述人工神经网络，得到输出结果；

基于所述输出结果中的最大值确定所述通信系统和所述非授权用户的资源分配策略。

根据本申请实施例的基于强化学习的非授权频段的通信资源分配方法，根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数，并确定人工神经网络，进而更新算法；基于上述通信系统中非授权用户确定的各种目标数据，通过预设的深度强化学习算法对非授权用户进行训练，根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此，通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计，可有效解决非授权频段通信系统中频谱接入与功率控制问题，使非授权用户可以合理选取所要接入的频道以及接入功率，从而有效提升通信性能，提升通信资源的利用率。

本申请第二方面实施例提供一种基于强化学习的非授权频段的通信资源分配装置，包括：

获取模块，用于根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数；

更新模块，用于根据所述通信系统的组成结构确定人工神经网络，并根据所述人工神经网络确定网络更新算法；以及

分配模块，用于基于所述智能体、所述行动参数、所述环境参数、所述回报函数、所述人工神经网络和网络更新算法，通过预设的深度强化学习算法对所述非授权用户进行训练，并根据训练结果确定所述通信系统和所述非授权用户的资源分配策略，以利用所述资源分配策略分配通信资源。

根据本申请的一个实施例，所述获取模块，具体用于：

根据本申请的一个实施例，所述更新模块，具体用于：

根据本申请的一个实施例，所述网络更新算法，包括：

根据本申请的一个实施例，所述分配模块，具体用于：

根据本申请实施例的基于强化学习的非授权频段的通信资源分配装置，根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数，并确定人工神经网络，进而更新算法；基于上述通信系统中非授权用户确定的各种目标数据，通过预设的深度强化学习算法对非授权用户进行训练，根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此，通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计，可有效解决非授权频段通信系统中频谱接入与功率控制问题，使非授权用户可以合理选取所要接入的频道以及接入功率，从而有效提升通信性能，提升通信资源的利用率。

本申请第三方面实施例提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行如上述实施例所述的基于强化学习的非授权频段的通信资源分配方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的基于强化学习的非授权频段的通信资源分配方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于强化学习的非授权频段的通信资源分配方法的流程图；

图2为根据本申请一个实施例提供的人工神经网络结构示意图；

图3为根据本申请一个实施例的非授权频段通信资源分配的设计装置的示例图；

图4为根据本申请一个实施例的通信系统整体结构示意图；

图5为根据本申请一个实施例的基于强化学习的非授权频段的通信资源分配方法的流程图；

图6为根据本申请另一个实施例的基于强化学习的非授权频段的通信资源分配方法的流程图；

图7为根据本申请一个实施例的基于非授权频段通信资源分配的设计装置的方框示意图；

图8为根据本申请另一个实施例的基于非授权频段通信资源分配的设计装置的方框示意图；

图9为根据本申请实施例的基于强化学习的非授权频段的通信资源分配装置的示例图；

图10为申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于强化学习的非授权频段的通信资源分配方法及装置。针对上述背景技术中心提到的单个非授权用户或单一种类资源在分配时所产生的资源消耗等问题的问题，本申请提供了一种基于强化学习的非授权频段的通信资源分配方法，在该方法中，根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数，并确定人工神经网络，进而更新算法；基于上述通信系统中非授权用户确定的各种目标数据，通过预设的深度强化学习算法对非授权用户进行训练，根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此，通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计，可有效解决非授权频段通信系统中频谱接入与功率控制问题，使非授权用户可以合理选取所要接入的频道以及接入功率，从而有效提升通信性能，提升通信资源的利用率。

具体而言，图1为本申请实施例所提供的一种基于强化学习的非授权频段的通信资源分配方法的流程示意图。

如图1所示，该基于强化学习的非授权频段的通信资源分配方法包括以下步骤：

在步骤S101中，根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数。

进一步地，在一些实施例中，根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数，包括：获取通信系统中非授权用户的通信状态，以及非授权用户与授权用户的碰撞状态；获取非授权用户的通信信号、干扰加噪声比和非授权用户所占用的通信系统资源；根据通信状态、碰撞状态、通信信号、干扰加噪声比和非授权用户所占用的通信系统资源确定非授权用户的回报函数。

具体的，本申请实施例可以将非授权用户定义为智能体，将用户所要接入的信道与选取的接入功率定义为行动参数，将上一时隙各信道的占用情况或是过去一段时间内各信道的历史占用情况定义为环境参数，并分别确定强化学习所需的智能体、行动参数与环境参数。

举例而言，在环境参数中，可以将“0”表示为从未被占用，将“1”表示为始终被占用；在行动参数中，用户所要接入的信道与选取的接入功率可以看作是一种行动参数，可以理解的是，用户不接入信道也可以看作是一种行动参数，如：若通信系统中有M个信道，每个非授权用户有P种发射功率可以选择，则对于每个非授权用户而言就有M*P+1种行动，即有M个环境参数。

进一步地，本申请实施例根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数时，可以根据通信系统中非授权用户的通信状态以及碰撞状态，获取非授权用户的通信信号、干扰加噪声比(Signal to Interference plusNoise Ratio，SINR)和非授权用户所占用的通信系统资源确定非授权用户的回报函数。可以理解的是，为了满足非授权用户通信需求的同时消耗最少的通信资源，回报函数应与干扰加噪声比呈正相关，而与消耗的通信资源呈负相关。

举例而言，在非授权用户的发射功率固定时，设计的回报函数可以表示为：

而在非授权用户有多种可以选择的功率时，设计的回报函数可以表示为：

其中，C、C₁、C₂均为正实数，P为功率，f₁和f₂为单调递增函数，例如，本申请实施例可以将f₁和f₂定义如下：

f₁(x)＝log₂(1+x),f₂(x)＝log₂(x)； (3)

在步骤S102中，根据通信系统的组成结构确定人工神经网络，并根据人工神经网络确定网络更新算法。

进一步地，在一些实施例中，根据通信系统的组成结构确定人工神经网络，包括：将环境参数作为人工神经网络的输入，人工神经网络的输入层神经元数量等于环境参数数量，人工神经网络的输出层神经元数量等于行动参数中可选行动参数数量。

进一步地，在一些实施例中，人工神经网络的隐藏层，包括：全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。

进一步地，在一些实施例中，人工神经网络的激活函数选择，包括：线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。

进一步地，在一些实施例中，网络更新算法，包括：梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。

可选地，在本申请实施例中，人工神经网络的隐藏层包括但不限于全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种；人工神经网络的激活函数选择包括但不限于以下任意一种或多种函数：线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数。可选地，通过人工神经网络所确定的网络更新算法主要是以梯度下降算法为基础的算法，其中，算法的选择包括但不限于以下任意一种或多种算法：梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法。

其中，需要说明的是，上述人工神经网络的模型、激活函数选择以及网络更新算法仅为示例性的，本领域技术人员可以根据实际情况，选择适合的人工神经网络模型、激活函数以及网络更新算法，在此不做具体限制。

在步骤S103中，基于智能体、行动参数、环境参数、回报函数、人工神经网络和网络更新算法，通过预设的深度强化学习算法对非授权用户进行训练，并根据训练结果确定通信系统和非授权用户的资源分配策略，以利用资源分配策略分配通信资源。

进一步地，在一些实施例中，预设的深度强化学习算法，包括：深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。

进一步地，在一些实施例中，根据训练结果确定通信系统和非授权用户的资源分配策略，包括：在每个时隙将环境参数输入至人工神经网络，得到输出结果；基于输出结果中的最大值确定通信系统和非授权用户的资源分配策略。

可选地，本申请实施例通过预设的深度强化学习算法对非授权用户进行训练，其中，预设的深度强化学习算法为基于值函数或基于策略梯度或基于搜索与监督的深度强化学习算法，主要包括：深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。

需要说明的是，在深度强化学习算法中，本领域技术人员同样可以根据实际情况，选择适合的训练算法，在此不做具体限制。

具体而言，本申请实施例可以选择使用深度Q网络与深度递归Q网络对非授权用户进行训练。可以理解的是，不同非授权用户所需要的策略可能是不同的，因此为每个非授权用户生成一个DQN(Deep Q Network，深度强化学习网络)网络。在数据产生的过程中，对于每个DQN网络，在每个时隙将将环境参数输入至人工神经网络，得到输出结果，并将网络输出中最大一项的序号作为备选行动，进而根据∈-greedy方法进行决策。例如，智能体以1-ε的概率选择作为备选行动，以ε的概率随机选取一种行动。其中，ε的数值在训练过程中逐渐变小。可以理解的是，∈-greedy方法的好处在于，使智能体在训练初期能够探索更多未知策略，从而尽可能寻找出全局最优的策略。在网络参数更新的过程中，用户将训练过程产生的数据输入网络，并根据上述网络更新算法计算新的网络参数。

进一步地，当通过预设的深度强化学习算法对非授权用户进行训练时，作为一种可实现的方式，本申请实施例可以选择通过使用固定Q目标技术用于提升训练效果。

具体而言，在使用固定Q目标技术的DQN算法中，存在目标网络和预测网络两个神经网络，分别用于计算Q值的真实值和估计值，用于计算损失函数。应当理解的是，固定Q目标的好处在于，可以在一定程度上减弱数据相关性，避免迭代过程中产生振荡，提升训练效果。

进一步地，当通过预设的深度强化学习算法对非授权用户进行训练时，作为另一种可实现的方式，本申请实施例可以选择通过使用经验回放技术用于提升训练效果。

具体而言，在使用经验回放技术的DQN算法中，训练时产生的数据会被存储于内存中，在更新神经网络参数时，智能体将内存数据打乱顺序并从中随机抽取一部分用于训练。应当理解的是，经验回放的好处在于，其会消除数据间的相关性，同时提升数据利用率和训练效率。需要说明的是，在使用深度递归Q网络时，循环神经网络的训练需要以一定长度的序列为样本，参数更新过程需要按特定时间顺序迭代计算，因此，在基于深度递归Q网络的算法中不打乱内存数据顺序。

进一步地，通过预设的深度强化学习算法对非授权用户进行训练后，本申请实施例可以根据训练结果确定通信系统和非授权用户的资源分配策略，如在每个时隙将环境参数输入至人工神经网络，得到输出结果并基于输出结果中的最大值确定通信系统和非授权用户的资源分配策略。

具体而言，非授权用户根据t时刻系统状态s(t)、神经网络输入s(t)时输出的行动a所对应的值Q(s(t),a)，完成训练后非授权用户的接入策略为：

a_t+1＝arg max_aQ(s(t),a)； (4)

其中，a_t+1为下一时隙该用户选择的行动。

由此，通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计，运用深度强化学习技术，可有效解决非授权频段通信系统中频谱共享与资源分配问题，使非授权用户可以合理选取所占用的通信资源，从而有效提升通信性能，提升通信资源的利用率，具有良好的应用前景。

为使得本领域技术人员进一步了解本申请实施例的非授权频段通信系统的通信资源分配的设计方法，下面结合具体实施例进行详细说明。

如图2的(a)和图2的(b)所示，图2的(a)和图2的(b)为本申请一个实施例的人工神经网络的结构示意图，分别所展示的是全连接神经网络和含门控循环单元的神经网络两种人工神经网络结构。其中，环境参数输入网络后，经过三个隐藏层之后输出，隐藏层为全连接层或门控循环单元。其中，使用全连接层的好处在于，网络实现较为简单，训练的运算量不大；使用门控循环单元的好处在于，允许用户获取一段时间内的信息，使智能体拥有记忆能力。

进一步地，基于本申请实施例的非授权频段通信系统的通信资源分配的设计方法，如图3所示，图3为本申请一个实施例的非授权频段通信资源分配的设计装置的方框示例图，该非授权频段通信资源分配的设计装置10包括：感知模块100、网络计算模块200、数据产生模块300、内存模块400、参数更新模块500。

其中，感知模块100用于帮助非授权用户感知环境信息，获取环境参数并用于训练与决策；网络计算模块200用于根据用户的神经网络模型与输入的参数计算网络的输出结果；数据产生模块300用于在每个时隙将系统状态输入网络，将网络输出中最大一项的序号作为备选行动，根据网络输出与∈-greedy方法决策，产生训练数据；内存模块400用于保存感知模块与数据产生模块产生的数据并打乱内存中数据的顺序；参数更新模块500用于根据内存模块400中保存的数据进行训练，更新网络参数并计算新的网络参数。

进一步地，如图4所示，图4为通信系统整体结构图，展示了通信系统中各个组件的关系与各模块的功能。非授权用户通过感知模块100从环境中获取信息，通过网络计算模块200与数据产生模块300决策产生行动作用于系统。非授权用户将系统的反馈与其它信息一同保存与内存模块400，并通过参数更新模块500(中途需要调用网络计算模块200进行计算)更新用户的接入策略，完成训练过程。

综合上述理论数据的分析，下面通过两个方面的两个具体的实施例进行详细说明。

第一方面实施例1：

具体的，如图5所示，根据通信系统的组成结构与资源类型和优化目标，确定通信系统中各非授权用户的回报函数，定义强化学习中需要的智能体、行动参数与环境参数。其中，将非授权用户定义为智能体；将用户所要接入的信道定义为行动参数，其中，选择接入某一信道时，行动值为信道编号，不接入任何信道时，行动值为0；上一时隙各信道的占用情况定义为环境参数，其中“0”表示未被占用，“1”表示被占用。因此，其回报函数可表示为：

进一步地，根据通信系统的组成结构，选择三层全连接网络作为深度学习的人工神经网络结构，激活函数选用线性整流函数；根据人工神经网络结构，确定梯度下降法为网络更新算法。

根据定义的智能体、行动参数、环境参数、回报函数与采用的人工神经网络与更新算法，通过深度Q网络算法对非授权用户进行训练。训练过程中为每个非授权用户生成一个DQN网络。在数据产生的过程中，对于每个DQN网络，在每个时隙将将环境参数输入至人工神经网络，得到输出结果，并将网络输出中最大一项的序号作为备选行动，根据∈-greedy方法进行决策。同时，在训练过程中使用固定Q目标与经验回放技术提升训练效果，并在训练时打乱内存中数据顺序。

训练完成后，在每个时隙将环境参数输入训练好的网络，根据网络输出结果进行决策，执行将网络输出中最大一项对应的行动。该实施例参数列表如表1所示：

表1

第一方面实施例2：

具体的，如图6所示，在定义强化学习中需要的智能体、行动参数与环境参数时，将用户所要接入的信道与功率定义为行动参数，并列举所有可能的信道与功率的组合并进行编码。以某一功率接入信道时，行动值即为对应的编码值；不接入任何信道时，行动值为0；各信道的历史占用率定义为环境参数，其中“0”表示从未被占用，“1”表示始终被占用。因此，其回报函数可表示为：

进一步地，根据通信系统的组成结构，选择的人工神经网络结构有三个隐藏层，其中第一个隐藏层为门控循环单元，后两个隐藏层为全连接层；门控循环单元的激活函数选用双曲正切函数，全连接层的激活函数选用线性整流函数。

进一步地，根据人工神经网络结构，确定带动量的梯度下降法为网络更新算法；根据定义的智能体、行动、环境、回报函数与采用的人工神经网络与更新算法，通过深度递归Q网络算法对非授权用户进行训练。训练过程中为每个非授权用户生成一个DRQN网络。在数据产生的过程中，对每个DRQN网络，在每个时隙将将环境参数输入至人工神经网络，得到输出结果，并将网络输出中最大一项的序号作为备选行动，根据∈-greedy方法进行决策。同时，在训练过程中使用固定Q目标与经验回放技术提升训练效果，但在训练时不打乱内存中数据顺序。

训练完成后，在每个时隙将环境参数输入训练好的网络，根据网络输出结果进行决策。执行将网络输出中最大一项对应的行动，以该行动对应的功率接入该行动对应的信道。该实施例参数列表如表2所示：

表2

参数	参数值
		授权用户数	8
授权用户占用频道概率	服从均匀分布U(0.05,0.2)
		非授权用户数	3
频道数	8
		可选功率数	3
可选功率	1mW，10mW，100mW
		学习率	10^(-6)
训练步数	400000
		动量	0.9

第二方面实施例1：

如图7所示，本申请一个实施例的基于非授权频段通信资源分配的设计装置包括：

感知模块100用于帮助非授权用户感知环境信息，获取该时隙各信道的占用情况并用于决策，其中“0”表示未被占用，“1”表示被占用；网络计算模块200用于根据用户的神经网络模型与输入的参数计算网络的输出结果，其中神经网络模型为三层全连接网络，激活函数选用线性整流函数；数据产生模块300在每个时隙将系统状态输入网络，网络输出中最大一项的序号为0时，备选行动为不接入，输出中最大一项的序号不为0时，备选行动为接入该序号对应的信道，根据∈-greedy方法选择备选行动或随机行动，进行决策；内存模块400负责保存感知模块接收的信道占用情况，保存数据产生模块产生的数据，并会自动打乱内存中数据的顺序；参数更新模块500随机从内存模块400抽取数据，根据DQN算法，使用梯度下降法更新网络参数。

其中，具体实施例的相关参数同第一方面实施例1，为避免冗余，在此不做具体赘述。

第二方面实施例2：

如图8所示，本申请另一个实施例的基于非授权频段通信资源分配的设计装置包括：

感知模块100用于帮助非授权用户感知环境信息，获取该时隙各信道的占用情况，统计各信道的历史占用率并用于决策，其中“0”表示从未被占用，“1”表示一直被占用；网络计算模块200用于根据用户的神经网络模型与输入的参数计算网络的输出结果，选择的人工神经网络结构有三个隐藏层，其中第一个隐藏层为门控循环单元，后两个隐藏层为全连接层；门控循环单元的激活函数选用双曲正切函数，全连接层的激活函数选用线性整流函数；数据产生模块300在每个时隙将系统状态输入网络，网络输出中最大一项的序号为0时，备选行动为不接入，输出中最大一项的序号不为0时，备选行动为以该序号对应的功率接入该序号对应的信道，根据∈-greedy方法选择备选行动或随机行动，进行决策；内存模块400负责保存感知模块接收的信道占用情况，保存数据产生模块产生的数据；参数更新模块500随机从内存模块400抽取一段序列的数据，根据DRQN算法，使用带动量的梯度下降法更新网络参数。

其中，具体实施例的相关参数同第一方面实施例2，为避免冗余，在此不做具体赘述。

其次参照附图描述根据本申请实施例提出的基于强化学习的非授权频段的通信资源分配装置。

图9是本申请实施例的基于强化学习的非授权频段的通信资源分配装置的方框示意图。

如图9所示，该基于强化学习的非授权频段的通信资源分配装置20包括：获取模块201、更新模块202和分配模块203。

其中，获取模块201用于根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数；

更新模块202用于根据通信系统的组成结构确定人工神经网络，并根据人工神经网络确定网络更新算法；以及

分配模块203用于基于智能体、行动参数、环境参数、回报函数、人工神经网络和网络更新算法，通过预设的深度强化学习算法对非授权用户进行训练，并根据训练结果确定通信系统和非授权用户的资源分配策略，以利用资源分配策略分配通信资源。

进一步地，在一些实施例中，获取模块201，具体用于：

获取通信系统中非授权用户的通信状态，以及非授权用户与授权用户的碰撞状态；

获取非授权用户的通信信号、干扰加噪声比和非授权用户所占用的通信系统资源；

根据通信状态、碰撞状态、通信信号、干扰加噪声比和非授权用户所占用的通信系统资源确定非授权用户的回报函数。

进一步地，在一些实施例中，更新模块202，具体用于：

将环境参数作为人工神经网络的输入，人工神经网络的输入层神经元数量等于环境参数数量，人工神经网络的输出层神经元数量等于行动参数中可选行动参数数量。

进一步地，在一些实施例中，人工神经网络的隐藏层，包括：

进一步地，在一些实施例中，人工神经网络的激活函数选择，包括：

进一步地，在一些实施例中，网络更新算法，包括：

进一步地，在一些实施例中，预设的深度强化学习算法，包括：

进一步地，在一些实施例中，分配模块203，具体用于：

在每个时隙将环境参数输入至人工神经网络，得到输出结果；

基于输出结果中的最大值确定通信系统和非授权用户的资源分配策略。

图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行程序时实现上述实施例中提供的基于强化学习的非授权频段的通信资源分配方法。

进一步地，电子设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上的基于强化学习的非授权频段的通信资源分配方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种基于强化学习的非授权频段的通信资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述通信系统的组成结构确定人工神经网络，包括：

4.根据权利要求3所述的方法，其特征在于，所述人工神经网络的隐藏层，包括：

5.根据权利要求3所述的方法，其特征在于，所述人工神经网络的激活函数选择，包括：

6.根据权利要求1所述的方法，其特征在于，所述网络更新算法，包括：梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。

7.根据权利要求1所述的方法，其特征在于，所述预设的深度强化学习算法，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据训练结果确定所述通信系统和所述非授权用户的资源分配策略，包括：

9.一种基于强化学习的非授权频段的通信资源分配装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-8任一项所述的基于强化学习的非授权频段的通信资源分配方法。