CN112822781A

CN112822781A - 一种基于q学习的资源分配方法

Info

Publication number: CN112822781A
Application number: CN202110075181.4A
Authority: CN
Inventors: 裴二荣; 朱冰冰; 杨光财; 荆玉琪; 王振民; 张茹; 周礼能
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-18
Anticipated expiration: 2041-01-20
Also published as: CN112822781B

Abstract

本发明涉及一种基于Q学习的资源分配方法，属于通信技术领域。在该方法中，工作在免授权频谱的蜂窝小基站根据网络流量的实时情况，动态地为D2D‑U用户分配发射功率和时间资源，在保证同一频段上蜂窝用户的通信质量的条件下，使得D2D‑U系统与WiFi系统公平共存，同时最大化共存系统的吞吐量。在该方法下，蜂窝小基站充当智能体，智能体的动作定义为发射功率和免授权信道占空比的不同组合，智能体的状态由蜂窝用户的信噪比、共存系统的吞吐量和公平性的不同组合所组成。本发明能够提升用户的通信质量，提高异构系统在免授权频段上的公平性，同时获得较高的共存系统吞吐量。

Description

一种基于Q学习的资源分配方法

技术领域

本发明属于通信技术领域，涉及一种基于Q学习的资源分配方法。

背景技术

随着智能终端的快速普及，使得无线通信技术演进的需求更为迫切。为了在一定程度上缓解数据流量的增长，D2D(Device to Device)通信被提出。D2D通信是邻近通信，相比于传统的蜂窝通信的上下行传输，D2D通信不需要经过小基站而直接进行数据传输，具有邻近增益，传播时延低。此外D2D通信可以复用蜂窝系统的频谱资源，具有复用增益，有效地提升了系统的频谱效率。但是随着移动流量急速增长，授权频段资源日益紧张，再将D2D通信部署到授权频段，无疑会增加授权网络的压力。为了寻求更多的频谱资源，一些研究人员提出将D2D部署在免授权频段(D2D Communication in Unlicensed Spectrum，D2D-U)，辅助授权频段进行数据传输。

考虑到5G免授权频谱段更加干净，D2D-U被建议部署在5G频段。在5G免授权频段，WiFi是主要玩家。WiFi系统是采用自适应分布式控制(Distributed CoordinationFunction，DCF)机制，该机制是带有冲突避免的载波监听多路访问机制(Carrier SensingMultiple Access with Collision Avoidance，CSMA/CA)的多址接入方式，WiFi用户在传输前需要对信道进行侦测。而在蜂窝网络中是小基站直接分配信道资源给D2D用户。从而将D2D直接部署在免授权频段，而不对接入方式做出改变会严重影响免授权频段已有WiFi系统的性能。目前D2D-U与WiFi共存的机制主要有两种：“先听后说”(Listen before Talk，LBT)机制和占空比(Duty-Cycle)机制。LBT机制采用CSMA/CA机制来避免与WiFi用户潜在的传输冲突。在Duty-Cycle机制中，两个系统之间并没有信息的交互，而是D2D-U系统根据某种特定的时分模式周期性的打开或关闭自己的数据发送，不进行数据传输的时间让出信道资源给WiFi用户使用。

免授权频段更适合短距离通信，主要有以下两点原因：1)免授权频段主要考虑5GHz，5GHz频率高，信道衰落大；2)免授权频段有发射功率限制。由于D2D通信是两个终端设备的邻近通信，发射功率低，非常适合部署在免授权频段。现有5GHz频段已部署LTE-U和WiFi系统，在其上部署D2D系统，如果没有一种合适的共存方式，会严重影响LTE-U和WiFi系统的通信质量。因此提出一种公平的资源分配机制来保证同一免授权频段上的LTE-U、D2D和WiFi系统和谐共存具有重要意义。

发明内容

鉴于此，本发明提供了基于Q学习的资源分配方法，该方法使得工作在免授权频段的小基站能够根据实时的网络流量情况，动态地为D2D用户分配发射功率和时间资源，在保证同一频段上蜂窝用户的通信质量的条件下，使得D2D-U系统与WiFi系统公平共存，同时最大化共存系统的吞吐量。在该方法下，蜂窝小基站充当智能体，智能体的动作定义为发射功率和占空比的不同组合，智能体的状态由蜂窝用户的信噪比、共存系统的吞吐量和公平性的不同组合所组成。本发明能够提升用户的通信质量，提高异构系统在免授权频段上的公平性，同时获得较高的共存系统吞吐量。

为达到上述目的，本发明提供如下技术方案：

一种基于Q学习的资源分配方法，包括以下步骤：

S1：初始化参数，如Q表、α、γ、

R_th、R_min、F_th、F_min、P_min、P_max；

S2：设置小基站智能体的动作和状态空间；

S3：在t时刻，初始化小基站的状态s_t；

S4：小基站根据公式定义的动作选择策略选择动作a_t，并执行该动作；

S5：小基站根据公式获取当前动作所对应的环境奖励值r_t，并根据公式确定下一状态s_t+1；

S6：小基站根据公式更新当前状态和动作所对应的Q值函数，并进入下一状态；

S7：直到达到目标状态，否则跳转步骤S4；

S8：t←t+1，跳转至步骤S3；

进一步，在步骤S1中，设置Q表为零矩阵，初始化学习率α、折扣率γ、蜂窝用户信噪比阈值

蜂窝用户信噪比最低要求

共存系统吞吐量阈值R_th、共存系统吞吐量最小值要求R_min、共存系统公平性阈值R_th、共存系统公平性最小值要求F_min、D2D用户最小发射功率要求P_min、D2D用户最大发射功率要求P_max。

进一步，在步骤S2中，小基站的动作集合定义为D2D用户的发射功率和占空比的不同组合，a_t＝{P_1，t，P_2，t，…P_k，t，φ_t}。其中P_k，t是在t时刻智能体给D2D用户对k分配的发射功率，且P_k，t∈[P_min，P_max]。φ_t是在t时刻小基站分配给D2D-U系统的时间比例，且φ_t∈(0，1)。小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合，即

其中

是t时刻蜂窝用户的信噪比，R_t是t时刻是D2D-U系统与WiFi系统的总体吞吐量，定义如下所示：

R_t＝φ_tR_D2D-U(t)+(1-φ_t)R_WiFi(t)，

F_t是t时刻共存系统的公平性，定义如下所示：

其中φ_tR_D2D-U(t)/K表示每个D2D-U用户的平均吞吐量，(1-φ_t)R_WiFi(t)/N表示每个WiFi用户的平均吞吐量。根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值，可以将智能体的状态分为8种：低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性，即

进一步，在步骤S3中，小基站从状态集合里面首先随机选择一个状态作为初始状态。

进一步，在步骤S4中，智能体采用ε-greedy动作选择策略。ε-greedy策略基于一个概率对探索与利用进行折中：每次尝试以ε的概率进行探索，以1-ε的概率进行利用。其定义如下所示：

其中小基站以ε的概率随机选择动作，以1-ε的概率选择Q表中Q值最大所对应的动作。

进一步，在步骤S5中，小基站根据动作选择策略选择动作后，根据奖励函数获得环境奖励。本发明的目标是为了实现高蜂窝用户的信噪比、高共存系统的吞吐量和公平性，因此奖励函数的设置中考虑了这三个要素，其定义如下：

其中η、λ、μ分别表示蜂窝用户信噪比、共存系统总体吞吐量和公平性的权衡因子。

进一步，在步骤S6中，小基站在获得环境奖励后，需要更新Q值，Q值更新公式如下所示：

其中α是学习速率且0＜α＜1，它是更新Q值的速率。α值越高意味着Q值的大小将快速更新，并且需要较少的迭代学习。较低的α值将缓慢更新Q值，并需要更多的迭代来学习。γ是折扣率且0＜γ＜1，γ表示对未来奖励的重视程度。较高的γ值可以捕获长期有效奖励，而较低的γ值使得智能体更关注即时奖励。

进一步，在步骤S7中，小基站不断地与环境进行交互，通过选择动作直到达到高信噪比高吞吐量高公平性的目标。

本发明的有益效果在于：通过一种基于Q学习的资源分配方法，小基站能够根据不同的网络流量情况动态的为D2D-U系统分配发射功率和时间资源，提升了用户的通信质量，提高了系统容量的同时保证了用户之间的公平性。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明的D2D-U与WiFi系统共存的网络模型图；

图2为本发明的Q学习算法的过程示意图；

图3为本发明实施例的流程示意图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明针对D2D-U与WiFi在免授权频段基于公平性共存问题，提出了一种基于Q学习的资源分配方法。与传统资源分配算法相比，本发明能够根据网络流量情况动态的分配频谱资源给D2D-U系统，提高共存系统在免授权频段上的公平性，同时能够提升系统容量。

本发明模型中考虑了一个单小区多用户蜂窝网络的上行链路，包括一个小基站、一个WiFi AP、M个LTE-U用户、K对D2D用户、N个WiFi终端。将免授权频段划分若干个子信道，每个LTE-U用户占用一个子信道，LTE-U用户之间没有干扰。为了提高频谱效率，D2D-U用户复用LTE-U用户的上行信道进行直连通信，且每个D2D-U用户对只能复用一个LTE-U用户的链路，每个LTE-U用户的链路能够被多对D2D-U用户复用。在本发明中，主要关注D2D-U系统跟WiFi系统在某一个免授权信道上的共存性能，其网络模型如图1所示。

D2D-U用户和WiFi用户采用Duty-Cycle的方式共享信道，假设Duty-Cycle机制的时间周期T由10个长度为1ms的子帧组成(类似LTE标准的子帧1ms)。在本发明中，小基站作为智能体，假设WiFi AP在所有决策时刻广播其本地信息(包括即时吞吐量以及服务用户的数量)。所以，基于来自附近共存的WiFi AP所广播的即时信息，小基站总能在一定选择策略上做出合理决策。

本发明采用的Q学习算法过程如图2所示。其中小基站充当智能体，首先小基站在某个状态下根据动作选择策略选择一个动作，然后观察环境获得奖励值，接着根据Q值更新公式更新Q矩阵，并且转移到下一个状态，不断重复上述过程直至Q表实现收敛。

如图3所示，基于Q学习的资源分配算法，该方法包括以下步骤：

S1：初始化参数，如Q表、α、γ、

R_th、R_min、F_th、F_min、P_min、P_max；

S2：设置小基站智能体的动作和状态空间；

S3：在t时刻，初始化小基站的状态s_t；

S7：直到达到目标状态，否则跳转步骤S4；

S8：t←t+1，跳转至步骤S3；

其中小基站的动作集合定义为D2D用户的发射功率和占空比的不同组合，a_t＝{P_1，t，P_2，t，…P_k，t，φ_t}。P_k，t是在t时刻智能体给D2D用户对k分配的发射功率，且P_k，t∈[P_min，P_max]。φ_t是在t时刻小基站分配给D2D-U系统的时间比例，且φ_t∈(0，1)。小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合，即

其中

R_t＝φ_tR_D2D-U(t)+(1-φ_t)R_WiFi(t)，

F_t是t时刻共存系统的公平性，定义如下所示：

在本发明中，小基站采用采用ε-greedy动作选择策略。ε-greedy策略基于一个概率对探索与利用进行折中：每次尝试以ε的概率进行探索，以1-ε的概率进行利用。其定义如下所示：

小基站根据动作选择策略选择动作后，根据奖励函数获得环境奖励。本发明的目标是为了实现高蜂窝用户的信噪比、高共存系统的吞吐量和公平性，因此奖励函数的设置中考虑了这三个要素，其定义如下：

小基站在获得环境奖励后，需要更新Q值，Q值更新公式如下所示：

小基站不断地与环境进行交互，通过选择动作直到达到高信噪比高吞吐量高公平性的目标。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于Q学习的资源分配方法，其特征在于：该方法具体步骤如下：

S1：初始化参数，如Q表、α、γ、

R_th、R_min、F_th、F_min、P_min、P_max；

S2：设置小基站智能体的动作和状态空间；

S3：在t时刻，初始化小基站的状态s_t；

S7：直到达到目标状态，否则跳转步骤S4；

S8：t←t+1，跳转至步骤S3。

2.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S1中，设置Q表为零矩阵，初始化学习率α、折扣率γ、蜂窝用户信噪比阈值

蜂窝用户信噪比最低要求

共存系统吞吐量阈值R_in、共存系统吞吐量最小值要求R_min、共存系统公平性阈值R_in、共存系统公平性最小值要求F_min、D2D用户最小发射功率要求P_min、D2D用户最大发射功率要求P_max。

3.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S2中，小基站的动作集合定义为D2D用户的发射功率和免授权频段的占空比的不同组合，a_t＝{P_1，t，P_2，t，…P_k，t，φ_t}。其中P_k，t是在t时刻智能体给D2D用户对k分配的发射功率，且P_k，t∈[P_min，P_max]。φ_t是在t时刻小基站分配给D2D-U系统的占空比，且φ_t∈(0，1)。小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合，即

其中SNR_t是t时刻蜂窝用户的信噪比，R_t是t时刻是D2D-U系统与WiFi系统的总体吞吐量，定义如下所示：

R_t＝φ_tR_D2D-U(t)+(1-φ_t)R_WiFi(t)，F_t是t时刻共存系统的公平性，定义如下所示：

其中φ_tR_D2D-U(t)/K表示每个D2D-U用户的平均吞吐量，(1-φ_t)R_WiFi(t)/N表示每个WiFi用户的平均吞吐量。根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值，可以将智能体的状态分为8种：低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性。

4.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S3中，小基站从状态集合里面首先随机选择一个状态作为初始状态。

5.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S4中，智能体采用ε-greedy动作选择策略，其定义如下所示：

6.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S5中，小基站根据动作选择策略选择动作后，根据奖励函数获得环境奖励。奖励函数定义如下：

7.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S6中，小基站在获得环境奖励后，需要更新Q值，Q值更新公式如下所示：

8.根据权利要求1所述的一种基于Q学习的资源分配方法，其特征在于：在步骤S7中，小基站不断地与环境进行交互，通过选择动作直到达到高信噪比高吞吐量高公平性的目标。