CN109219025A

CN109219025A - 一种无线终端直连通信资源分配方法及装置

Info

Publication number: CN109219025A
Application number: CN201811136155.2A
Authority: CN
Inventors: 魏翼飞; 赵敏; 宋梅; 张勇; 滕颖蕾; 满毅; 郭达; 王小娟
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-01-15

Abstract

本发明实施例公开了一种为无线终端直连用户(D2D)进行资源分配的方法及装置，该方法包括：根据无线信道状态和状态转移可能性的不确定性，制定增强学习(RL)算法。每对D2D用户可以被视为一个独立的智能体，根据它在本地观察到的信道状态做出决策。为了解决多用户系统中的顺序决策问题，提出了多智能体RL算法。我们假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息，因此该问题被模拟为随机非合作博弈。因此，每个智能体都成为非合作博弈中的一名参与者，所有参与者都一起做出决策，以实现全体的效益最优化。本发明实施例可以减轻负载并提高蜂窝网络的容量，通过有效的能量管理实现最大化系统吞吐量。

Description

一种无线终端直连通信资源分配方法及装置

技术领域

本发明涉及无线通信技术领域，特别涉及一种支持无线终端直连通信(D2D)系统中的通信资源分配的方法及装置。

背景技术

当前阶段，随着智能终端的快速普及以及网络通信容量的爆炸式增长，面向5G的无线通信技术的演进需求也更加明确及迫切。在面向5G的无线通信技术的演进中，一方面，传统的无线通信性能指标，比如网络容量、频谱效率等需要持续提升以进一步提高有限且日益紧张的无线频谱利用率；另一方面，更丰富的通信模式以及由此带来的终端用户体验的提升以及蜂窝通信应用的扩展也是一个需要考虑的演进方向。作为面向5G的关键候选技术，无线终端直连通信(Device-to-Device，D2D)具有潜在的提高系统性能、提升用户体验、扩展蜂窝通信应用的前景，受到广泛关注。

基于蜂窝网络的D2D通信，或称为邻近服务(Proximity Service，ProSe)，是指用户数据可不经网络中转而直接在终端之间传输。关键技术包括：D2D发现技术、D2D同步技术、无线资源管理、通信模式切换、功率控制和干扰协调。

D2D用户能够使用正交模式和复用模式进行通信。当采用正交模式进行通信时，占用蜂窝小区空闲的RB(Resource Block，资源块)传输信号，不会带来干扰，但当D2D用户使用复用模式通信时，与蜂窝用户占用相同的RB传输信号，将会带来严重的干扰，因此如何合理地为D2D用户分配资源以减少干扰成为D2D通信技术中的重点问题。

现阶段国内外对于资源分配算法的研究，主要集中在以吞吐量以及公平性为目标，基本算法主要有:轮询算法、比例公平算法以及最大载干比算法等。上述3种算法计算简单，因此大部分研究者都以上述3种算法为基础进行改进。

发明内容

本发明实施例公开了一种D2D多用户系统资源分配的方法及装置，在保证用户通信服务质量的同时，实现系统吞吐量的最大化。相较于传统的资源分配方法，系统吞吐量更加接近理论值，所述创新的构建了多智能体的增强学习算法，并与博弈论结合，多智能体之间进行非合作博弈，达到纳什均衡。

为达到上述目的，本发明实施例公开了一种D2D多用户系统资源分配的方法及装置，该方法中根据无线信道状态和状态转移可能性的不确定性，制定强化学习(RL)算法。每对D2D用户可以被视为一个独立的智能体，根据它在本地观察到的信道状态做出决策。为了解决多用户系统中的顺序决策问题，提出了多智能体RL算法。我们假设D2D对没有关于要分配的资源块的可用性和质量的任何信息，因此该问题被模拟为随机非合作博弈。因此，每个智能体都成为非合作博弈中的一名参与者，所有参与者都一起做出决策，以实现全体的效益最优化。由于在本发明实施例中利用增强学习算法，以保证主用户和D2D用户的通信服务质量为前提，实现了系统吞吐量最大化的目标。

包括如下步骤：

在所述网络模型中设置D2D用户与蜂窝用户(即主用户)均匀分布，并为每个蜂窝用户预先分配好资源块，每个蜂窝用户占用至多一个资源块，且资源块之间相互正交，即所述蜂窝用户之间不存在干扰。

所述网络模型的优化目标为，在保证主用户和D2D用户的通信服务质量的前提下，实现系统的总吞吐量最大化。

选定所述D2D用户对为增强学习中Q学习算法的一个智能体，为每个D2D用户对选择至多一个主用户进行资源块的复用。

所述每个智能体在Q学习算法中执行的动作为选择在当前时隙下与哪个主用户进行资源块的复用，每一时隙下只可复用至多一个资源块。

所述每个智能体在Q学习算法中所观测的状态为当前时隙下D2D用户与所复用的主用户的通信服务质量是否满足基本质量要求。

所述每个智能体在Q学习算法中执行动作后所收到的奖励信号为所述的优化目标，即系统总吞吐量。

所述每个智能体在Q学习算法中执行动作的策略为总是沿着使Q值最大的路径进行选择，Q值与上述状态与奖励信号有关。

所述由多个D2D用户对组成的网络模型中，每个D2D用户对为Q学习中的一个智能体，所述模型即构成多智能体的Q学习算法，为实现全局的最优化，多智能体共同进行决策，假设D2D对没有关于要分配的资源块的可用性和质量的任何信息，因此该问题被模拟为随机非合作博弈。每个智能体都成为非合作博弈中的一名参与者，以达到纳什均衡为目标。

相比较传统D2D用户资源分配算法，本发明实施例创新的将该通信问题建模为增强学习，并利用增强学习中经典的Q学习算法，将其中传统的单智能体建模改进为多智能体共同决策，并结合博弈论中的非合作博弈进行共同决策，实现全局最优而非局部最优，通过仿真验证了所述实施例的优越性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种D2D多用户系统资源分配过程；

图2为建立的包含多个蜂窝用户与多个D2D用户共存的网络模型示意图；

图3为对本发明实施例仿真智能体进行增强学习的迭代趋势；

图4为对本发明实施例仿真系统总吞吐量与D2D用户数的关系，并与理想情况进行了比较；

图5为对本发明实施例仿真D2D用户总吞吐量与D2D用户数的关系，并与理想情况进行了比较。

具体实施方式

为在D2D用户复用主用户频谱资源并实现系统吞吐量最大化的同时，保证为用户提供的服务质量，本发明实施例提供了一种基于增强学习的D2D用户资源分配的方法及装置。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种D2D多用户系统资源分配过程，该过程包括以下步骤：

S101：所述实施例中的网络模型包含一个基站，包含M对D2D用户对，Ν个蜂窝用户，其中M＝{1，2，……，M}，N＝{1,2,……,N}。在所述网络模型中设置D2D用户与蜂窝用户(即主用户)均匀分布，并为每个蜂窝用户预先分配好资源块，系统中的资源块总数为K，资源块集合表示为RB＝{RB₁，RB₂，……，RB_K}，其中K＝{1,2,……,K}。每个蜂窝用户占用至多一个资源块，且每个蜂窝用户被预先分配好了所占用的资源块，且资源块之间相互正交，即所述蜂窝用户之间不存在干扰。因此有K＝N。

将所述实施例建模为增强学习中的Q学习算法，每对D2D用户对被视为一个独立的智能体，根据它在本地观察到的信道状态与所收到的反馈做出决策。

将增强学习中的Q学习算法引入到D2D用户与蜂窝用户共存的网络中D2D用户的资源分配问题中，在Q学习中包含智能体、动作、状态、反馈等几个要素，其中智能体选定为所述网络中的D2D用户对，即每一个D2D用户对为一个智能体。

对于第m个D2D用户对，构建一个在时隙t的二进制的K维的资源块选择向量β^m(t),其中每对D2D用户至多选择一个资源块进行复用，因此有

假设D2D用户复用的是系统中的上行链路的资源，则第m对D2D用户对在时刻t的信干噪比则定义为:(假设第m对D2D用户对在时刻t复用的是第k个资源块)

其中，是第m对D2D对在时刻t复用资源块k时的传输功率，是第m对D2D用户对在时刻t复用资源块k时的信道连接增益，是复用资源块k的第n个蜂窝用户在时刻t时的传输功率，是第m对D2D用户对与第n个蜂窝用户在时刻t复用资源块k是的信道连接增益，是在t时刻与用户对m共同复用资源块k的除m外的其他D2D用户的传输功率，是在t时刻与用户对m共同复用资源块k的除m外的其他D2D用户与用户对m的信道连接增益，σ²(t)是时刻t时的系统中的高斯白噪声。

类似的，在时刻t时复用资源块k的第n个蜂窝用户的信干噪比的表达式为：

其中，是第n个蜂窝用户在时刻t复用资源块k时与基站之间的信道连接增益，是第m个D2D用户对在时刻t复用资源块k时与基站之间的信道连接增益。

所述实施例的优化目标为在保证蜂窝用户与主用户的通信服务质量的前提下，使得系统的总吞吐量最大化，因此所述实施例的问题建模表示如下：

其中，ω为信道带宽，τ_C为蜂窝用户的最小通信服务质量的要求，τ_D为D2D用户的最小通信服务质量的要求，

强化学习是学习做什么以及如何将情境映射到动作，以便最大化数字奖励信号。强化学习的几个基本概念包括：智能体，状态，动作，奖励和策略。智能体通过观察环境与环境交互并获得正面或负面回报。所述实施例中，所确定的智能体为每个D2D用户对。

所述实施例中，智能体执行的动作为选择进行复用的资源块，在同一时刻同一智能体至多只能选择一个资源块进行复用，并由二进制的K维的资源块选择向量β^m(t)构成，因此在时隙t智能体m的动作可表示为的表达式如下所示：

所述实施例的系统中除智能体m外的其他所有用户执行的动作所构成的动作集合为A^-m，其表示式如下，其中m`表示除m外的集合M中的其他智能体。

所述实施例中，智能体所观察的状态为在某一时刻系统中蜂窝用户与D2D用户的通信服务质量是否达到要求，在时隙t智能体m的状态为其表达式如下所示：

其中，为在时隙t智能体观察到的占用资源块k的D2D用户m的通信服务质量，为在时隙t智能体观察到的占用资源块k的蜂窝用户n的通信服务质量，表达式分别如下所示：

所述实施例中智能体所收到的奖励信号为系统总吞吐量，智能体m在时隙t的奖励信号为增强学习的目标由奖励信号进行反映。所述实施例中共享RB的D2D用户的目标是最大化整个网络的总吞吐量，因此奖励信号的表达式如下所示：

策略是智能体用于根据当前状态确定下一个动作的策略。策略迭代在策略评估和策略改进之间运行循环。基于众所周知的Bellman方程：

v(s)＝E[r_t+λv(S_t+1|S_t＝s)]

其中上式中的E[·]指的是期望值，而λ指折扣因子，S_t为t时刻的状态。在所述实施例中，以Q值的形式重写该方程，可以得到下式：

Q^π(s,a)＝E[r_t+λQ^π(s_t+1,a_t+1|s_t,a_t))]

其中最佳Q值，可以表示为Q^*,表达式为：

在基于动作选择最佳Q值的众多其他方法中，所述实施例使用ε-贪婪策略根据当前估计的Q值采取行动，可以描述如下：

(1)当1-ε<1时，选择最优的动作a^*，使得a^*＝arg maxQ(s,a),a∈A

(2)当ε>0时，随机的进行动作的选择。

S102：

为了解决多用户系统中的顺序决策问题，提出了多智能体RL算法。在所述实施例的网络模型中，存在多D2D用户对，在所构建的Q学习算法中，每个D2D用户对都是一个独立决策的智能体，因此在多用户系统中，多智能体的Q学习算法就得以构建。

在所述实施例中，多智能体Q学习算法采用分布式Q学习算法，此种方法可以将大的Q值表分割成m个较小的Q值表Q_i(s，a)(i＝1,2,…,m)，以减少学习的复杂性。每个智能体在学习过程中反复执行动作，每一次执行动作都会得到新的Q值，只有当新派生的Q值大于上一次的Q值，Q值表中的Q值才会被更新。因此，Q值更新公式如下所示：

其中α_t在时隙t时的是学习因子，它确定新获取的信息会覆盖给定信息的程度。当α_t等于0时，表示智能体什么都不学习。相反，当它接近1时，智能体只关心最新信息。λ为折扣因子，它表示未来奖励的影响。当λ等于0时，智能体仅考虑当前奖励。当λ等于1时，智能体在很大程度上受到长期奖励的影响。

具体步骤为：首先，每个智能体初始化其Q值表，随机选择初始状态，然后我们进行迭代，直到Q值达到收敛。首先，选择使用“ε-贪婪”策略进行下一个动作a_t的选择，智能体在执行完动作后获得即时奖励r_t，然后智能体基于a_t和r_t观察下一个状态s_t+1，最后根据Q值更新公式进行Q表的更新。

S103：

假设D2D对没有关于要分配的资源块的可用性和质量的任何信息，因此该问题被模拟为随机非合作博弈。博弈论中的三元组包括用户，动作集合以及用户效用值集合。表达式如下所示：

其中，M表示用户集合，{A^m}表示动作集合，{u^m}表示效用值集合。u^m的表达式如下所示：

其中是第m个智能体在时隙t的状态，是第m个智能体在时隙t的动作，是在时隙t时除智能体m外其他智能体的动作集合，是第m个智能体在时隙t收到的奖励信号，G^m是智能体m的信道连接增益集合，Gⁿ是蜂窝用户n的信道连接增益集合。

S104：

因此，每个智能体都成为非合作博弈中的一名参与者，所有参与者都一起做出决策，以实现全体的效益最优化。

在非合作博弈中，各个参与者以达到纳什均衡为达到最优。即达到如下表达式的均衡：

由此可以得到每个智能体在进行学习中的最优Q值的表达式如下：

图2为建立的所述实施例的系统模型示意图，如图2所示，所述实施例的系统模型中包含一个基站，若干个蜂窝用户和若干个D2D用户。蜂窝用户与D2D用户共同使用系统中的频谱资源，其中蜂窝用户为主用户，在保证主用户通信资源已被分配完成时，D2D用户才可进行通信资源的复用，并要保证D2D用户和蜂窝用户的通信服务质量均满足所设的要求。在所述实施例的系统模型中，存在几种干扰：D2D用户对基站的干扰、D2D用户对蜂窝用户的干扰以及D2D用户之间的干扰。在进行资源分配时，要对这几种干扰加以考虑。

图3展示了提出的实施例在不同学习速率下的收敛性。设定两个学习率用于比较：α＝0.4和α＝0.5。当学习率较小时，即α＝0.4，收敛速度较慢，并且在超过2500次学习迭代后逐渐实现收敛。然而，当提高学习率，即α＝0.5时，可以从模拟结果中看出收敛速度已经显著提高，并且可以实现大约2000次迭代学习。在增强学习中，学习率影响Q值的收敛速度，但在不同学习率下最终收敛所达到的Q值是相同的。

图4展示了在系统达到收敛之后，将D2D用户数量作为变量的系统总吞吐量的变化趋势。将所提出的实施例与理想情况进行比较，所述实施例为多智能体增强学习算法，以MAQ代表所述实施例所提算法。理想情况即最优集中策略(OCP)：基站使用全局信道系统信息将信道分配给D2D用户，以实现在SINR约束下最大化整体网络吞吐量，这代表最佳信道选择策略。从仿真图4中可以得出结论，随着D2D用户数量的增加，总系统吞吐量呈现出同步增长的趋势。另外，根据图4中不同曲线的趋势，可以看出所提实施例性能较为接近理想情况。

图5展示了在系统达到收敛之后，将D2D用户数量作为变量的D2D用户吞吐量的变化趋势。并将所提出的实施例与理想情况进行比较。从仿真图5中可以得出结论，随着D2D用户数量的增加，D2D用户吞吐量呈现出同步增长的趋势。另外，根据图5中不同曲线的趋势，可以看出所提实施例性能较为接近理想情况。

以上对本发明所提供的蜂窝系统中D2D用户的频谱资源分配方法及其系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.无线终端直连用户对(D2D)可以被视为一个独立的智能体，根据它在本地观察到的信道状态做出决策；为了解决多用户系统中的顺序决策问题，提出了多智能体RL算法；假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息，该问题被模拟为随机非合作博弈；因此，每个智能体都成为非合作博弈中的一名参与者，所有参与者都一起做出决策，以实现全体的效益最优化。

2.如权利要求1所述的方法，其特征在于，所述实施例采用在增强学习中的多智能体Q学习算法，其基本要素包括：智能体、状态、动作、奖励信号以及策略。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：针对所确定的每个智能体，根据其执行当次动作产生的反馈结果以及下一状态进行下一动作的选择，每个智能体进行决策之后都成为非合作博弈中的博弈参与者，共同进行决策。

4.如权利要求2所述的方法，其特征在于，所述确定每个D2D用户对为增强学习中的一个智能体。

5.如权利要求2所述的方法，其特征在于，所述确定系统总吞吐量为增强学习中的奖励信号。

6.如权利要求2所述的方法，其特征在于每个智能体进行增强学习采用的是Q学习算法，在该算法中，智能体在探索和经验中保持平衡，每次迭代都沿当前Q值最高的路径前进。

7.如权利要求3所述的方法，影响当前智能体决策的状态包括：

D2D用户对的服务通信质量是否得到满足；

蜂窝用户(即主用户)的服务通信质量是否得到满足。

8.如权利要求3所述的方法，智能体在增强学习中所执行的动作为选择与主用户复用的资源块。

9.如权利要求3所述的方法，在多用户的系统中进行增强学习即为多用户增强学习方法，多用户共同决策时，假设D2D对没有关于要分配的资源块的可用性和质量的任何信息，则该问题可以被模拟为随机非合作博弈；每个智能体都成为非合作博弈中的一名参与者，所有参与者都一起做出决策。

10.如权利要求9所述的方法，多智能体间进行非合作博弈时以达到纳什均衡为目标。