CN113543065A

CN113543065A - 一种基于强化学习的通信资源分配方法及其相关设备

Info

Publication number: CN113543065A
Application number: CN202110605101.1A
Authority: CN
Inventors: 李斌; 蒋丽萍; 赵成林; 许方敏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-22
Anticipated expiration: 2041-05-31
Also published as: CN113543065B

Abstract

本公开提供一种基于强化学习的通信资源分配方法及其相关设备，所述方法包括：综合考虑目标用户和非目标用户的位置、目标用户的Q值和回报函数，通过生成随机数，根据生成的随机数和ε贪婪算法，确定目标用户的信道选择策略和功率选择策略，进一步根据各个参数、信道选择策略和功率选择策略计算下一时刻的各个参数并更新目标用户的Q值，最后循环迭代直到满足预设的迭代时间或预设条件，得到目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。使得信令开销降低，实现不同类型用户之间频谱资源的共享，提高频谱资源的利用率，缓解当前频谱资源短缺的问题。

Description

一种基于强化学习的通信资源分配方法及其相关设备

技术领域

本公开涉及通信技术领域，尤其涉及一种基于强化学习的通信资源分配方法及其相关设备。

背景技术

在信息社会时代，汽车是极为重要的移动信息载体。为了解决车辆的辅助驾驶、车载娱乐等多场景业务需求，汽车需要与外界实现交互，这个互联和数据传输过程通常称为车联网(Vehicle-to-Everything,V2X)。V2X通信因其在提高道路安全和交通效率以及提供更丰富的信息娱乐体验方面的潜力而备受关注。近年来，智能交通的快速发展对车联网的质量和速率提出了更高的要求，使得车联网面临着通讯需求的爆发式增长以及频谱资源的严重短缺。

发明内容

有鉴于此，本公开的目的在于提出一种基于强化学习的通信资源分配方法及其相关设备。

基于上述目的，本公开提供了基于强化学习的通信资源分配方法，包括：

S1、获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；

S2、生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略；

S3、根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配，计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值；

S4、返回步骤S2循环迭代，直到满足预设的迭代时间或满足预设条件，得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。

进一步，所述生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略，包括：

响应于确定所述随机数小于ε，选择使动作策略概率最大的动作策略；

响应于确定所述随机数大于等于ε，选择使所述Q值最大的动作策略。

进一步，所述状态信息包括：目标用户链路的发送端到接收端的信道增益，来自其他目标用户链路发送端的干扰增益，目标用户链路发送端到基站的干扰增益，非目标用户到目标用户链路接收端的干扰增益，每个信道上的所述目标用户和非目标用户数目，所述目标用户和非目标用户的通信服务质量。

进一步，所述回报函数与所述目标用户和非目标用户的通信质量、所述目标用户和非目标用户的总的吞吐量有关；

当所述目标用户和非目标用户的通信质量满足最低通信门限要求时，所述回报函数大于0；

当所述目标用户和/或非目标用户的通信质量不满足最低通信门限要求时，所述回报函数小于0。

进一步，所述回报函数表示为：

其中，λ_m和λ_n分别是平衡所述目标用户链路和所述非目标用户链路的权重，0≤λ_m≤1，0≤λ_n≤1，β_m,k表示所述非目标用户的通信质量，γ_n,k表示所述目标用户的通信质量，β₀表示所述非目标用户的最低通信门限要求，γ₀表示所述目标用户的最低通信门限要求，r_m表示所述非目标用户可实现的最大通信速率，r_n表示所述目标用户可实现的最大通信速率，R₀＜0。

进一步，所述更新所述目标用户的Q值通过下述公式更新：

其中，s_t表示状态信息，a_t表示动作策略，

表示下一时刻状态s_t+1下所有可能动作策略的最大Q值，γ为折扣因子,0≤γ≤1,α表示t时刻下的学习因子。

进一步，所述目标用户和非目标用户都不少于一个。

基于同一发明构思，本说明书一个或多个实施例还提供了一种基于强化学习的通信资源分配装置，包括：

初始化模块，被配置为获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；

迭代模块，被配置为：

生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略；

根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配，计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值；

返回迭代模块最开始进行循环迭代，直到满足预设的迭代时间或满足预设条件，得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

基于同一发明构思，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。

从上面所述可以看出，本公开提供的基于强化学习的通信资源分配方法及其相关设备，基于强化学习，综合考虑了目标用户和非目标用户的位置、目标用户的Q值和回报函数，通过生成随机数，根据生成的随机数和ε贪婪算法，确定目标用户的信道选择策略和功率选择策略，进一步根据各个参数、信道选择策略和功率选择策略计算下一时刻的各个参数并更新目标用户的Q值，最后循环迭代直到满足预设的迭代时间或预设条件，得到目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。使得信令开销降低，实现不同类型用户之间频谱资源的共享，提高频谱资源的利用率，缓解当前频谱资源短缺的问题。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的基于强化学习的通信资源分配方法流程图；

图2为本公开实施例的具体场景示意图；

图3为本公开实施例的不同算法下V2V用户对与总的系统容量关系示意图；

图4为本公开实施例的基于强化学习的通信资源分配装置结构示意图；

图5为本公开实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如背景技术部分所述，现有的通信资源分配方案还难以满足频谱资源的需求。申请人在实现本公开的过程中发现当前智能交通系统应用的无线通信技术主要有基于IEEE802.11p的专用短距离无线通信(Dedicated Short Range Communications，DSRC)技术和基于蜂窝网络的蜂窝车联网(Cellular-V2X，C-V2X)无线接入技术。DSRC技术由于其性能不稳定，具有局限性，只适用于低速度、短距离无线通信场景。与DSRC技术相比，C-V2X将蜂窝通信技术与端到端直接通信技术进行了结合，可以有效实现具有低时延、高可靠性要求的车车通信，具有覆盖范围广、灵活性高、传输速率快等优点。但由于车联网通信中车辆时刻处于移动中，网络拓扑结构快速变化，周围的信道环境也在不断发生变化，因此信道增益衰减严重，容易导致接收信号不理想，而车联网通信相比传统蜂窝用户有更高的可靠性要求和时延要求。因此，如何结合车联网通信性质设计高效的资源分配方案以解决当前频谱资源匮乏问题同时满足V2X通信高可靠性、低时延的要求，是一个需求急切且潜力巨大的发展方向。

有鉴于此，本说明书一个或多个实施例提供了一种基于强化学习的通信资源分配方案，具体的，首先初始化当前时刻的目标用户和非目标用户的位置、目标用户的Q值和回报函数，然后生成随机数，根据生成的随机数和ε贪婪算法，确定目标用户的信道选择策略和功率选择策略，进一步根据各个参数、信道选择策略和功率选择策略计算下一时刻的各个参数并更新目标用户的Q值，最后循环迭代直到满足预设的迭代时间或预设条件，得到目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。

可见，本说明书一个或多个实施例提供了一种基于强化学习的通信资源分配方案，基于强化学习，通过生成随机数和ε贪婪算法综合考虑信道选择策略和功率选择策略，将当前时刻各个参数和选择策略计算并更新迭代，使得最终得到的选择策略能够提高频谱资源的利用率，实现不同类型用户之间频谱资源的共享，缓解当前频谱资源短缺的问题。

以下，通过具体的实施例来详细说明本说明书一个或多个实施例的技术方案。

参考图1，本说明书一个实施例的基于强化学习的通信资源分配方法，包括以下步骤：

步骤S101、获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；

本实施例中，将博弈论与Q-learning方法结合，以保证非目标用户和目标用户的通信质量为前提条件，以最大化非目标用户和目标用户的系统总容量为优化目标，将每个目标用户对看作Q-learning中的智能体，智能体即目标用户可以通过多次感知环境、获取环境的回报函数来更新信道选择策略和功率选择策略以解决频谱分配与功率控制问题；将多个目标用户之间的竞争过程建模为非合作博弈，通过寻找纳什均衡状态实现通信资源分配的最优策略。

状态信息s_t包括全局的信道状态信息和所有智能体的动作行为。本公开中使用分布式资源分配方法，因此每个V2V用户只能知道自己的动作行为，且只能通过观察来获取关于外界环境的相关知识。每个V2V用户n的观测空间有本地信道信息，包括：V2V链路的发送端到接收端的信道增益

来自其他V2V链路发送端的干扰增益

V2V链路发送端到基站的干扰增益

蜂窝用户m到V2V链路接收端的干扰增益

除

之外，其他的信道增益信息可以在第n个V2V链路的接收端在每个时隙t开始时准确估计，并且我们假设它也可以无延迟反馈到V2V链路的发送端处。干扰增益

可以在每个时隙t开始时在基站处估计，然后广播到其覆盖范围内的所有V2V用户，由此会产生较小的信令开销。除了信道状态信息外，环境状态信息s_t还包括t时刻每个信道上的用户数目N_k，以及系统中蜂窝用户的通信服务质量β_m,k和V2V用户的通信服务质量γ_n,k。因此，t时刻状态信息s_t的表达式如下：

本实施例可以对应多种应用场景，适用于车联网通信、物联网通信和其他联网通信环境中。本实施例中以车联网通信为例，目标用户为多个车辆用户(Vehicle-to-Vehicle,V2V)，非目标用户为多个蜂窝用户。

步骤S102、生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略；

本步骤中，每个V2V用户要选择的动作包括功率等级选择和复用的信道资源选择，且每个V2V用户至多只能复用一个蜂窝用户的信道资源。V2V用户的动作用a_t＝(b_t,p_t)表示，b_t为t时刻V2V用户的信道选择策略，p_t为t时刻V2V用户的功率选择策略。为了便于使用强化学习方法进行研究，本实施例中将功率设定为离散值，将所有的功率划分为N_p个等级，即

假设V2V用户可选择的信道资源共有K个，功率有N_p个等级，那么V2V用户可选择的动作空间的维数为K×N_p，且每个动作对应于信道和功率选择的一个特定组合。

在贪婪算法中，ε一般取0.01，随机数选择可以采用：random[0,1]；当随机数小于ε时，选择使动作策略概率最大的动作策略；当随机数大于等于于ε时，选择使Q值最大的动作策略，因此V2V用户在状态s_t下将以较大的概率(1-ε)根据Q值选择动作，以较小的概率ε根据玻尔兹曼分布策略π(s_t,a_t)选取动作。

其中，V2V用户在状态s_t下选择动作a_t的概率可表示为：

其中ρ为玻尔兹曼温度参数：

ρ₀是初始温度，t是资源分配过程的持续时间。ρ用于控制用户的“探索”程度，ρ越大，各动作的概率分布越均匀，被选择的可能性越接近，探索的范围越大；当ρ趋于0时,每个状态趋向于选择最大Q值对应的动作。π(s_t,a_t)越大，动作a_t越容易被用户选择。

步骤S103、根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配，计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值；

本实施例中，回报函数表示为：

其中λ_m和λ_n分别是平衡蜂窝链路和V2V链路目标的权重，0≤λ_m≤1，0≤λ_n≤1。该回报函数可以保证蜂窝用户和V2V用户的通信质量，提升车联网系统蜂窝用户和V2V用户的总容量。

本实施例中，回报函数与蜂窝用户的通信质量β_m,k、V2V用户的通信质量γ_n,k和蜂窝用户与V2V用户总的吞吐量有关。蜂窝用户与V2V用户总的吞吐量的目标函数表示为：

其约束条件为：

β_m,k≥β₀

用于保证系统中蜂窝用户的通信质量，β₀代表蜂窝链路最低通信质量要求；

γ_n,k≥γ₀

用于保证V2V用户的通信质量，γ₀代表V2V链路最低通信质量要求；

表示每个V2V用户对至多同时复用一个信道；

0＜P_n≤P_max

表示所有V2V用户的发射功率均不能超过最大发射功率门限P_max。

如果蜂窝用户的通信质量能够满足最低通信门限要求即β_m,k≥β₀且V2V用户的通信质量也能够满足最低通信门限要求即γ_n,k≥γ₀，那么系统会获得蜂窝链路和V2V链路的信道容量的组合这样一个正向的回报函数作为对此次动作选择的奖励；反之，若是二者中有一个无法满足最低通信质量要求，那么系统将会获得一个负向的回报函数R₀(R₀＜0)作为对此次动作选择的惩罚。

本实施例中，Q值更新公式表示为：

式中

表示下一状态s_t+1下所有可能动作的最大Q值。γ为折扣因子,0≤γ≤1,γ越接近0表示Q-learning越关注当下的回报，γ越接近1表示Q-learning越关注未来回报的影响。α是在t时刻智能体的学习因子，当α＝0时表示当前系统不学习任何内容，状态信息不会改变系统的决策；当α＝1时表示系统只关注最新的状态信息。

步骤S104、返回步骤S102循环迭代，直到满足预设的迭代时间或满足预设条件，得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。

本实施例中，对所有目标用户进行预设迭代时间的步骤S102-S104的循环强化学习，由于Q-learning算法中初始信道选择策略和功率选择策略是随机的，因此理论上来说学习过程中会探索到所有的信道选择策略和功率选择策略。预设条件为：所有的目标用户均满足，当其他目标用户的动作策略(信道选择策略和功率选择策略)不改变时，该目标用户的动作策略是最优的，即满足博弈论的收敛条件，达到纳什均衡状态，找到最优信道选择策略和功率选择策略。

下面，给出本实施例的基于强化学习的通信资源分配方法的一个具体的应用场景。参考图2，通信环境为城市街区场景下单个蜂窝小区中多个蜂窝用户和V2V用户同时通信的情况，在基站的覆盖范围内有多个蜂窝用户V2V用户对，信道的数量与蜂窝用户的数量相同，蜂窝用户随机分布在小区覆盖范围内，车辆用户在距离基站一定距离的道路上。随着迭代次数的增加，回报函数的值整体处于增加趋势。本实施例所考虑的区域为单个蜂窝小区，小区中包含基站、随机分布的蜂窝用户和正在道路上行驶的V2V用户。在图1所示的车联网通信系统模型当中，假设系统中存在M个蜂窝用户

N个V2V用户对

K个可用的正交频谱资源

本实施例中，系统中蜂窝用户的数量与信道的数量相等，即M＝K，每个正在通信的蜂窝用户都被分配了相互正交的频谱资源，V2V用户可以复用蜂窝用户的频谱资源，且一个频段可以同时被多个V2V用户对复用。在此基础上，在时域维度对频谱共享优化，即，各用户以时分的方式共享频谱资源，当多个共享用户在同一时间接入相同的信道频段时会产生干扰。

需要注意的是，虽然本实施例在单一频谱接入维度进行分析，但是该方法可方便的扩展至多维域频谱共享。

参考图3，展示了蜂窝用户和V2V用户对的系统总容量随着V2V用户对数量变化的曲线。从图中可以看出，本实施例所提方法的性能接近集中式算法。集中式最优资源分配算法中基站可以获取到系统全部的信息从而作出最优的决策，但同时也会有更多的信令开销。而本实施例所提的基于强化学习的通信资源分配方法，各V2V用户对依据局部观测进行分散决策，极大地减小了信令开销，能够在减小系统开销的同时作出较优决策。

可见，本实施例的基于强化学习的通信资源分配方法。降低了信令开销，实现蜂窝用户与V2V用户之间频谱资源的共享，提高频谱资源的利用率，缓解当前频谱资源短缺的问题；同时本实施例将博弈论与Q学习相结合，在保证蜂窝用户和V2V用户的通信质量的前提下，使V2V用户通过自适应学习收敛到最优策略，保证了车联网通信的高可靠性和低延迟要求，而且可以提升系统总的吞吐容量。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种基于强化学习的通信资源分配装置。

参考图4，所述基于强化学习的通信资源分配装置，包括：

初始化模块401，被配置为获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；

迭代模块402，被配置为：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于强化学习的通信资源分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于强化学习的通信资源分配方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于强化学习的通信资源分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于强化学习的通信资源分配方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于强化学习的通信资源分配方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

需要说明的是，本公开的实施例还可以以下方式进一步描述：

一种基于强化学习的通信资源分配方法，包括：

进一步，所述回报函数表示为：

进一步，所述更新所述目标用户的Q值通过下述公式更新：

其中，s_t表示状态信息，a_t表示动作策略，

进一步，所述目标用户和非目标用户都不少于一个。

进一步，一种基于强化学习的通信资源分配装置，包括：

迭代模块，被配置为：

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于强化学习的通信资源分配方法，包括：

2.根据权利要求1所述的方法，其中，所述生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略，包括：

3.根据权利要求1所述的方法，其中，所述状态信息包括：目标用户链路的发送端到接收端的信道增益，来自其他目标用户链路发送端的干扰增益，目标用户链路发送端到基站的干扰增益，非目标用户到目标用户链路接收端的干扰增益，每个信道上的所述目标用户和非目标用户数目，所述目标用户和非目标用户的通信服务质量。

4.根据权利要求1所述的方法，其中，所述回报函数与所述目标用户和非目标用户的通信质量、所述目标用户和非目标用户的总的吞吐量有关；

5.根据权利要求4所述的方法，其中，所述回报函数表示为：

6.根据权利要求1所述的方法，其中，所述更新所述目标用户的Q值通过下述公式更新：

其中，s_t表示状态信息，a_t表示动作策略，

7.根据权利要求1所述的方法，其中，所述目标用户和非目标用户都不少于一个。

8.一种基于强化学习的通信资源分配装置，包括：

迭代模块，被配置为：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。