CN113301639A - 一种基于q学习的蜂窝网络d2d通信功率控制算法 - Google Patents

一种基于q学习的蜂窝网络d2d通信功率控制算法 Download PDF

Info

Publication number
CN113301639A
CN113301639A CN202110555761.3A CN202110555761A CN113301639A CN 113301639 A CN113301639 A CN 113301639A CN 202110555761 A CN202110555761 A CN 202110555761A CN 113301639 A CN113301639 A CN 113301639A
Authority
CN
China
Prior art keywords
user
cellular
resource block
spectrum resource
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110555761.3A
Other languages
English (en)
Inventor
郑军
陈文泰
姜书瑞
张源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110555761.3A priority Critical patent/CN113301639A/zh
Publication of CN113301639A publication Critical patent/CN113301639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/267TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Q学习的蜂窝网络D2D通信功率控制算法,包括如下步骤:步骤1、利用距离信息计算蜂窝链路和D2D链路的信道增益,利用频谱分配信息计算用户链路的信干噪比,根据香农公式计算用户吞吐量;步骤二、根据D2D通信功率控制场景定义Q学习中的智能体、动作、状态、奖励函数等参数;步骤三、在集中式场景下设计并运行Q学习算法;步骤四、在分布式场景下设计并运行Q学习算法。本发明在保证蜂窝用户通信质量的前提下,能够有效提高蜂窝用户、D2D用户共存系统的吞吐量。

Description

一种基于Q学习的蜂窝网络D2D通信功率控制算法
技术领域
本发明属于无线通信技术领域,尤其涉及一种基于Q学习的蜂窝网络D2D通信功率控制算法。
背景技术
由于通信终端的急速增长,无线频谱资源短缺问题日益严重,为缓解频谱资源短缺问题,D2D通信方式被提出并应用于蜂窝网络中,它具有提高频谱利用率、降低通信时延、节约功率能耗等优势。在共享模式中,D2D用户对复用蜂窝用户的频谱资源块,能够有效提高蜂窝网络的频谱利用率,但两者之间的互相干扰无法避免。因此,如何在保证蜂窝用户通信质量的前提下有效缓解D2D链路与蜂窝链路之间的干扰成为D2D通信中的一个重要问题。针对这一问题,目前的解决方法主要包括功率控制、频谱分配和模式选择三种,其中功率控制通过对用户进行合理的功率分配减小链路之间的干扰。针对蜂窝网络D2D通信的功率控制方法已经得到广泛研究。但随着机器学习的广泛应用,有必要探索和研究基于机器学习的D2D通信干扰控制方法,以进一步提升蜂窝网络D2D通信的性能。
发明内容
本发明目的在于提供一种基于Q学习的蜂窝网络D2D通信功率控制算法,以解决在单小区上行链路共享场景中引入D2D通信导致的基站、蜂窝用户、D2D用户对三者之间的干扰问题和提高系统吞吐量的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于Q学习的蜂窝网络D2D通信功率控制算法,包括如下步骤:
步骤1、为蜂窝用户和D2D用户对分配频谱资源,利用基站和用户之间的距离信息计算蜂窝用户与基站之间、D2D用户对与基站之间、蜂窝用户与D2D对之间、D2D用户对之间的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
步骤2、根据D2D通信功率控制的场景定义Q学习中的智能体、动作、状态、奖励函数参数;
步骤3、在集中式场景下设计并运行Q学习算法,在集中式场景中,占用同一个频谱资源块的所有D2D用户对共同维护和更新一个Q值表,Q值表个数与频谱资源块的数目相等,功率分配过程是多个独立的Q学习过程;
步骤4、在分布式场景下设计并运行Q学习算法;在分布式场景中,每个D2D用户对单独维护一张Q值表,Q值表个数与D2D用户对的数目相等。
进一步的,步骤1中蜂窝链路的信干噪比为:
Figure BDA0003077146170000021
其中,Ci表示第i个蜂窝用户(i=1,2,…,M),Dj表示第j个D2D用户对(j=1,2,…,N),r=1,2,…,K表示网络中频谱资源块的编号,M表示蜂窝用户,N表示D2D用户对,K表示频谱资源块的数量;
Figure BDA0003077146170000022
表示共享第r个频谱资源块的所有D2D用户对的集合;
Figure BDA0003077146170000023
表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,
Figure BDA0003077146170000024
表示占用第r个频谱资源块的D2D用户对Dj的发射功率;
Figure BDA0003077146170000025
表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,
Figure BDA0003077146170000026
表示占用第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率;
D2D链路的信干噪比为:
Figure BDA0003077146170000031
其中,
Figure BDA0003077146170000032
表示占用第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,
Figure BDA0003077146170000033
表示占用第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,
Figure BDA0003077146170000034
表示共享第r个频谱资源块的不同D2D用户对Dj'发送端与Dj接收端之间的信道增益。
进一步的,步骤1中网络中蜂窝用户的吞吐量为:
Figure BDA0003077146170000035
其中,W表示网络的频谱带宽;
网络中D2D用户的吞吐量为:
Figure BDA0003077146170000036
其中,
Figure BDA0003077146170000037
表示网络中所有D2D用户对的集合;
网络中所有用户的总吞吐量为:
Figure BDA0003077146170000038
进一步的,所述智能体是蜂窝网络中的D2D用户对;
所述动作是占用同一频谱资源块的每个D2D用户对选择一个发射功率p∈{p1,p2,…,pL},动作用a进行表示,其中,p1,p2,…,pL为可供选择的发射功率;
所述状态是单状态,即学习过程中只有一个状态,用s表示状态;
所述奖励函数是特定频谱资源块上的条件吞吐量:
Figure BDA0003077146170000041
其中,R表示奖励函数,τ0表示蜂窝链路信干噪比的门限值;
上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量,否则,奖励函数为-1,表示惩罚值。
进一步的,步骤3中,在集中式场景下设计并执行Q学习算法包括以下步骤:
步骤3.1、对于K个频谱资源块Br,r∈{1,2,…,K},初始化所有Q值表的值为0;
步骤3.2、选择第r个频谱资源块;
步骤3.3、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤3.4、执行动作a,计算奖励函数R;
步骤3.5、根据公式
Figure BDA0003077146170000042
更新Q值表,其中,Q'(s,a)表示Q值表的更新值,Q(s,a)表示Q值表的当前值,α表示学习率,0≤α≤1,γ表示衰减因子,0≤γ≤1,
Figure BDA0003077146170000043
表示当前Q值表中的最大值;
步骤3.6、重复步骤3.3到步骤3.5,直到Q值表收敛;
步骤3.7、重复步骤,3.2到步骤3.6直到所有频谱资源块均被考虑。
进一步的,步骤4中在分布式场景下设计并执行Q学习算法包括以下步骤:
步骤4.1、对于N个D2D用户对Dj,j∈{1,2,…,N},初始化所有Q值表的值为0;
步骤4.2、选择第r个频谱资源块;
步骤4.3、选择第r个频谱资源块上的第j个D2D用户对;
步骤4.4、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤4.5、执行动作a,计算奖励函数R;
步骤4.6、根据公式
Figure BDA0003077146170000051
更新Q值表;
步骤4.7、重复步骤4.4到步骤4.6直到Q值表收敛;
步骤4.8、重复步骤4.3到步骤4.7直到同一频谱资源块上的D2D用户对均被考虑;
步骤4.9、重复步骤4.2到步骤4.8直到所有频谱资源块均被考虑。
本发明的一种基于Q学习的蜂窝网络D2D通信功率控制算法具有以下优点:在保证蜂窝用户通信质量的前提下,能够有效提高蜂窝用户、D2D用户共存系统的吞吐量。。
附图说明
图1为本发明的蜂窝网络D2D通信上行链路共享系统模型示意图;
图2为本发明的定义Q学习参数步骤流程示意图。
图3为本发明的集中式Q学习算法步骤流程示意图。
图4为本发明的分布式Q学习算法步骤流程示意图。
图5为本发明的算法流程示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于Q学习的蜂窝网络D2D通信功率控制算法
做进一步详细的描述。
本发明实施例公开的一种基于Q学习的蜂窝网络D2D通信功率控制算法,应用于单小区场景中。小区内有一个基站BS、M个蜂窝用户,记为C={C1,C2,…,CM}和N个D2D用户对,记为
Figure BDA0003077146170000061
系统中有K个频谱资源块,记为
Figure BDA0003077146170000062
D2D用户对复用蜂窝用户上行链路的频谱资源块,蜂窝用户和D2D用户对在小区范围内随机均匀分布,基站可以获得所有链路的信道状态信息。小区中存在两种链路模式:基站与蜂窝用户之间的蜂窝链路模式;D2D用户对发送端与接收端之间的直接链路模式。
因为D2D用户复用上行链路的频谱资源,此时系统中存在三种干扰,如图1所示:(1)蜂窝用户发射给基站的信号被D2D用户对接收端接收到,对D2D用户对产生干扰;(2)D2D用户对发送端发射给D2D用户对接收端的信号被基站接收到,对基站产生干扰;(3)D2D用户对发送端发射给D2D用户对接收端的信号被同小区内其他D2D用户对接收端接收到,对其他D2D用户对产生干扰。
本发明实施例的一种基于Q学习的蜂窝网络D2D通信功率控制算法主要包含4个步骤:(1)计算用户信干噪比、吞吐量;(2)定义Q学习参数;(3)在集中式场景下设计并运行Q学习算法;(4)在分布式场景下设计并运行Q学习算法。
首先,为蜂窝用户和D2D用户对随机分配频谱资源,利用基站和用户之间的距离信息计算蜂窝用户与基站之间、D2D用户对与基站之间、蜂窝用户与D2D对之间、D2D用户对之间的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
其次,根据D2D通信功率控制的场景定义Q学习中的智能体、动作、状态、奖励函数等参数;
然后,在集中式场景下设计并运行Q学习算法。在集中式场景中,占用同一个频谱资源块的所有D2D用户对共同维护和更新一个Q值表,Q值表个数与频谱资源块的数目相等;
最后,在分布式场景下设计并运行Q学习算法。在分布式场景中,每个D2D用户对单独维护一张Q值表,Q值表个数与D2D用户对的数目相等,可避免Q值表大小随占用同一频谱资源块的D2D用户对数目的增加呈指数增长。
如图5所示,本发明实施例公开的一种基于Q学习的蜂窝网络D2D通信功率控制算法的实施步骤如下:
(1)计算用户信噪比、吞吐量:
小区内基站与蜂窝用户、基站与D2D用户对接收端、D2D用户对发送端和蜂窝用户之间以及D2D用户对之间的信道增益分别表示为:
Figure BDA0003077146170000071
Figure BDA0003077146170000072
其中,
Figure BDA0003077146170000073
分别表示蜂窝用户Ci与基站、D2D用户对Dj发送端与基站之间的路径损耗,β表示增益指数,μ表示路径损耗指数,
Figure BDA0003077146170000074
表示蜂窝用户Ci与D2D用户对Dj接收端之间的距离,
Figure BDA0003077146170000075
表示D2D用户对Dj发送端与接收端之间的距离,
Figure BDA0003077146170000076
表示不同D2D用户对Dj'发送端与Dj接收端之间的距离。
蜂窝链路的信干噪比为:
Figure BDA0003077146170000081
其中,Ci表示第i个蜂窝用户(i=1,2,…,M),Dj表示第j个D2D用户对(j=1,2,…,N),r=1,2,…,K表示网络中频谱资源块的编号,M、N和K分别表示蜂窝用户、D2D用户对和频谱资源块的数量;
Figure BDA0003077146170000082
表示共享第r个频谱资源块的所有D2D用户对的集合;
Figure BDA0003077146170000083
表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,
Figure BDA0003077146170000084
表示占用第r个频谱资源块的D2D用户对Dj的发射功率;
Figure BDA0003077146170000085
表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,
Figure BDA0003077146170000086
表示占用第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率。
D2D链路的信干噪比为:
Figure BDA0003077146170000087
其中,
Figure BDA0003077146170000088
表示占用第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,
Figure BDA0003077146170000089
表示占用第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,
Figure BDA00030771461700000810
表示共享第r个频谱资源块的不同D2D用户对Dj'发送端与Dj接收端之间的信道增益。
根据香农公式,网络中蜂窝用户的吞吐量为:
Figure BDA00030771461700000811
其中,W表示网络的频谱带宽。网络中D2D用户的吞吐量为:
Figure BDA0003077146170000091
其中,
Figure BDA0003077146170000092
表示网络中所有D2D用户对的集合。因此,网络中所有用户的总吞吐量为:
Figure BDA0003077146170000093
(2)定义Q学习参数:
根据D2D通信功率控制的场景定义Q学习中的智能体、动作、状态、奖励函数等参数的步骤如下:
1)智能体:蜂窝网络中的D2D用户对,一个D2D用户对即为一个智能体,网络中存在N个智能体。
2)动作a:为占用同一频谱资源块的每个D2D用户对选择一个合适的发射功率p∈{p1,p2,…,pL},其中,p1,p2,…,pL为可供选择的发射功率。
3)状态s:单状态,即学习过程中只有一个状态。
4)奖励函数R:特定频谱资源块上的条件吞吐量:
Figure BDA0003077146170000094
其中,τ0表示蜂窝链路信干噪比的门限值。上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量,否则,奖励函数为-1,表示惩罚值。
具体操作详见图2的流程示意图。
(3)在集中式场景下设计并运行Q学习算法:
步骤1、对于K个频谱资源块Br,r∈{1,2,…,K},初始化Q值表的值为0;
步骤2、选择第r个频谱资源块;
步骤3、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤4、执行动作a,计算奖励函数R;
步骤5、根据公式
Figure BDA0003077146170000101
更新Q值表,其中,Q'(s,a)表示Q值表的更新值,Q(s,a)表示Q值表的当前值,α表示学习率,0≤α≤1,γ表示衰减因子,0≤γ≤1,
Figure BDA0003077146170000102
表示当前Q值表中的最大值;
步骤6、重复步骤3到步骤5直到Q值表收敛;
步骤7、重复步2到步骤6直到所有频谱资源块均被考虑。
具体操作详见图3的流程示意图。
(4)在分布式场景下设计并运行Q学习算法:
步骤1、对于N个D2D用户对Dj,j∈{1,2,…,N},初始化Q值表的值为0;
步骤2、选择第r个频谱资源块;
步骤3、选择第r个频谱资源块上的第j个D2D用户对;
步骤4、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤5、执行动作a,计算奖励函数R;
步骤6、根据公式
Figure BDA0003077146170000103
更新Q值表;
步骤7、重复步骤4到步骤6直到Q值表收敛;
步骤8、重复步骤3到步骤7直到同一频谱资源块上的D2D用户对均被考虑;
步骤9、重复步骤2到步骤8直到所有频谱资源块均被考虑。
具体操作详见图4的流程示意图。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (6)

1.一种基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,包括如下步骤:
步骤1、为蜂窝用户和D2D用户对分配频谱资源,利用基站和用户之间的距离信息计算蜂窝用户与基站之间、D2D用户对与基站之间、蜂窝用户与D2D对之间、D2D用户对之间的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
步骤2、根据D2D通信功率控制的场景定义Q学习中的智能体、动作、状态、奖励函数参数;
步骤3、在集中式场景下设计并运行Q学习算法,在集中式场景中,占用同一个频谱资源块的所有D2D用户对共同维护和更新一个Q值表,Q值表个数与频谱资源块的数目相等,功率分配过程是多个独立的Q学习过程;
步骤4、在分布式场景下设计并运行Q学习算法;在分布式场景中,每个D2D用户对单独维护一张Q值表,Q值表个数与D2D用户对的数目相等。
2.根据权利要求1所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,步骤1中蜂窝链路的信干噪比为:
Figure FDA0003077146160000011
其中,Ci表示第i个蜂窝用户(i=1,2,…,M),Dj表示第j个D2D用户对(j=1,2,…,V),r=1,2,…,K表示网络中频谱资源块的编号,M表示蜂窝用户,N表示D2D用户对,K表示频谱资源块的数量;
Figure FDA0003077146160000015
表示共享第r个频谱资源块的所有D2D用户对的集合;
Figure FDA0003077146160000016
表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,
Figure FDA0003077146160000012
表示占用第r个频谱资源块的D2D用户对Dj的发射功率;
Figure FDA0003077146160000013
表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,
Figure FDA0003077146160000014
表示占用第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率;
D2D链路的信干噪比为:
Figure FDA0003077146160000021
其中,
Figure FDA0003077146160000022
表示占用第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,
Figure FDA0003077146160000023
表示占用第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,
Figure FDA0003077146160000024
表示共享第r个频谱资源块的不同D2D用户对Dj′发送端与Dj接收端之间的信道增益。
3.根据权利要求2所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,步骤1中网络中蜂窝用户的吞吐量为:
Figure FDA0003077146160000025
其中,W表示网络的频谱带宽;
网络中D2D用户的吞吐量为:
Figure FDA0003077146160000026
其中,
Figure FDA0003077146160000028
表示网络中所有D2D用户对的集合;
网络中所有用户的总吞吐量为:
Figure FDA0003077146160000027
4.根据权利要求3所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,所述智能体是蜂窝网络中的D2D用户对;
所述动作是占用同一频谱资源块的每个D2D用户对选择一个发射功率p∈{p1,p2,…,pL},动作用a进行表示,其中,p1,p2,…,pL为可供选择的发射功率;
所述状态是单状态,即学习过程中只有一个状态,用s表示状态;
所述奖励函数是特定频谱资源块上的条件吞吐量:
Figure FDA0003077146160000031
其中,R表示奖励函数,τ0表示蜂窝链路信干噪比的门限值;
上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量,否则,奖励函数为-1,表示惩罚值。
5.根据权利要求4所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,步骤3中,在集中式场景下设计并执行Q学习算法包括以下步骤:
步骤3.1、对于K个频谱资源块Br,r∈{1,2,…,K},初始化所有Q值表的值为0;
步骤3.2、选择第r个频谱资源块;
步骤3.3、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤3.4、执行动作a,计算奖励函数R;
步骤3.5、根据公式
Figure FDA0003077146160000032
更新Q值表,其中,Q′(s,a)表示Q值表的更新值,Q(s,a)表示Q值表的当前值,α表示学习率,0≤α≤1,γ表示衰减因子,0≤γ≤1,
Figure FDA0003077146160000041
表示当前Q值表中的最大值;
步骤3.6、重复步骤3.3到步骤3.5,直到Q值表收敛;
步骤3.7、重复步骤,3.2到步骤3.6直到所有频谱资源块均被考虑。
6.根据权利要求5所述的基于Q学习的蜂窝网络D2D通信功率控制算法,其特征在于,步骤4中在分布式场景下设计并执行Q学习算法包括以下步骤:
步骤4.1、对于N个D2D用户对Dj,j∈{1,2,…,N},初始化所有Q值表的值为0;
步骤4.2、选择第r个频谱资源块;
步骤4.3、选择第r个频谱资源块上的第j个D2D用户对;
步骤4.4、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤4.5、执行动作a,计算奖励函数R;
步骤4.6、根据公式
Figure FDA0003077146160000042
更新Q值表;
步骤4.7、重复步骤4.4到步骤4.6直到Q值表收敛;
步骤4.8、重复步骤4.3到步骤4.7直到同一频谱资源块上的D2D用户对均被考虑;
步骤4.9、重复步骤4.2到步骤4.8直到所有频谱资源块均被考虑。
CN202110555761.3A 2021-05-21 2021-05-21 一种基于q学习的蜂窝网络d2d通信功率控制算法 Pending CN113301639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110555761.3A CN113301639A (zh) 2021-05-21 2021-05-21 一种基于q学习的蜂窝网络d2d通信功率控制算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110555761.3A CN113301639A (zh) 2021-05-21 2021-05-21 一种基于q学习的蜂窝网络d2d通信功率控制算法

Publications (1)

Publication Number Publication Date
CN113301639A true CN113301639A (zh) 2021-08-24

Family

ID=77323405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110555761.3A Pending CN113301639A (zh) 2021-05-21 2021-05-21 一种基于q学习的蜂窝网络d2d通信功率控制算法

Country Status (1)

Country Link
CN (1) CN113301639A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484244A (zh) * 2017-08-01 2017-12-15 东南大学 一种QoS感知的蜂窝网络D2D通信频谱资源分配算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484244A (zh) * 2017-08-01 2017-12-15 东南大学 一种QoS感知的蜂窝网络D2D通信频谱资源分配算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈文泰: "《基于机器学习的蜂窝网络D2D通信频谱分配与功率控制算法研究》", 《中国优秀博硕士学位论文》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
CN114363938B (zh) * 2021-12-21 2024-01-26 深圳千通科技有限公司 一种蜂窝网络流量卸载方法

Similar Documents

Publication Publication Date Title
CN104717755A (zh) 一种蜂窝网络中引入d2d技术的下行频谱资源分配方法
CN111884696A (zh) 一种基于多载波的中继协作移动边缘计算方法
CN111586646B (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
CN109861728B (zh) 大规模mimo系统的联合多中继选择与时隙资源配置方法
CN110677175B (zh) 一种子信道调度与功率分配联合优化方法
CN101207621A (zh) Af-dstc协作通信协议中降低中断概率的功率分配方法
CN113301637A (zh) 一种基于q学习和神经网络的d2d通信功率控制算法
CN104918207B (zh) 异构网络中基于频谱资源分配的多d2d通信资源分配方法
CN113891481A (zh) 一种面向吞吐量的蜂窝网络d2d通信动态资源分配方法
CN111542109A (zh) 非正交多址下基于功率分割的用户对等协作方法
CN101711033A (zh) 适合于感知无线电网络的动态信道分配方法及系统
CN112994759B (zh) 一种基于ofdm的协作中继d2d通信方法
CN113301639A (zh) 一种基于q学习的蜂窝网络d2d通信功率控制算法
CN110677176A (zh) 一种基于能量效率与频谱效率的联合折中优化方法
CN113453358A (zh) 一种无线携能d2d网络的联合资源分配方法
CN113301638A (zh) 一种基于q学习的d2d通信频谱分配与功率控制算法
CN103139800A (zh) 中继蜂窝网络的节点调整方法、装置及系统
CN102256301A (zh) 一种同时满足单播及多播业务的用户选择方法
CN110049452A (zh) 基于noma的新型两阶段合作多播方案
Kabilan et al. Empowering Radio Resource Allocation to Multicast Transmission System Using Low Complexity Algorithm in OFDM System
Tao et al. Qos-based channel and power optimization algorithm in D2D system
CN107333319B (zh) 蜂窝下行通信能效优化方法
CN111935829A (zh) 一种基于异构网络d2d通信的资源管理算法
CN111343722A (zh) 边缘计算中基于认知无线电的能效优化方法
CN111314938A (zh) 一种用于单个蜂窝小区的蜂窝网络时频域资源分配的优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824