CN113301637A - 一种基于q学习和神经网络的d2d通信功率控制算法 - Google Patents

一种基于q学习和神经网络的d2d通信功率控制算法 Download PDF

Info

Publication number
CN113301637A
CN113301637A CN202110552966.6A CN202110552966A CN113301637A CN 113301637 A CN113301637 A CN 113301637A CN 202110552966 A CN202110552966 A CN 202110552966A CN 113301637 A CN113301637 A CN 113301637A
Authority
CN
China
Prior art keywords
user
learning
neural network
spectrum resource
resource block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110552966.6A
Other languages
English (en)
Inventor
郑军
姜书瑞
陈文泰
张源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110552966.6A priority Critical patent/CN113301637A/zh
Publication of CN113301637A publication Critical patent/CN113301637A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/267TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Q学习和神经网络的D2D通信功率控制算法,包括如下步骤:步骤1、利用距离信息计算蜂窝链路和D2D链路的信道增益,利用频谱分配信息计算用户链路的信干噪比,根据香农公式计算用户吞吐量;步骤2、根据D2D通信功率控制场景定义Q学习中的智能体、动作、状态、奖励函数等参数;步骤3、运行Q学习算法,实现D2D用户对的功率分配;步骤4、定义神经网络的输入、输出和网络结构;步骤5、运用Q学习获得的数据训练神经网络模型,通过训练好的模型进行D2D用户对的功率分配。本发明在保证蜂窝用户通信质量的前提下,能够有效提高蜂窝用户与D2D用户对共存系统的吞吐量。

Description

一种基于Q学习和神经网络的D2D通信功率控制算法
技术领域
本发明属于无线通信技术领域,尤其涉及一种基于Q学习和神经网络的D2D通信功率控制算法。
背景技术
由于通信终端的急速增长,无线频谱资源短缺问题日益严重,为缓解频谱资源短缺问题,D2D通信方式被提出并应用于蜂窝网络中,这种通信方式具有提高频谱利用率、降低通信时延、节约功率能耗等优势。在共享模式中,D2D用户对复用蜂窝用户的频谱资源块,能够有效提高蜂窝网络的频谱利用率,但两者之间的互相干扰无法避免。因此,如何在保证蜂窝用户通信质量的前提下有效缓解D2D链路与蜂窝链路之间的干扰成为D2D通信中的一个重要问题。针对这一问题,目前的解决方法主要包括功率控制、频谱分配和模式选择三种,其中功率控制通过对用户进行合理的功率分配减小链路之间的干扰。
针对蜂窝网络D2D通信的功率控制方法已经得到广泛研究,但随着机器学习的广泛应用,有必要探索和研究基于机器学习的D2D通信干扰控制方法。机器学习分为监督学习、半监督学习、无监督学习和强化学习,其中强化学习通过与环境之间的交互来指导智能体的行为,监督学习根据现有数据标签来训练一个最优模型。强化学习适用于没有模型先验知识的场景,如本发明中的D2D通信功率控制问题。但强化学习泛化能力较弱,在环境发生变化时需要重新学习,将花费大量的计算资源。因此,本发明将强化学习算法和神经网络相结合,以适应移动场景中的D2D通信功率分配。
发明内容
本发明目的在于提供一种基于Q学习和神经网络的D2D通信功率控制算法,以解决在单小区上行链路共享场景中引入D2D通信导致的基站、蜂窝用户、D2D用户对三者之间的干扰和系统吞吐量低的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于Q学习和神经网络的D2D通信功率控制算法,包括以下步骤:
步骤1、为蜂窝用户和D2D用户对分配频谱资源,利用距离信息计算蜂窝链路和D2D链路的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
步骤2、根据D2D通信功率控制场景定义Q学习中的智能体、动作、状态、奖励函数参数;
步骤3、根据Q学习算法更新Q值表,实现D2D用户对的功率分配;
步骤4、定义神经网络的输入、输出和网络结构;
步骤5、运用Q学习获得的数据训练神经网络模型,通过训练好的模型进行D2D用户对的功率分配。
进一步地,所述步骤1中蜂窝链路的信干噪比为:
Figure BDA0003075974990000021
其中,Ci表示第i个蜂窝用户,其中i=1,2,…,M;Dj表示第j个D2D用户对(j=1,2,…,N),r=1,2,…,K表示系统中频谱资源块的编号,M表示蜂窝用户的数量;N表示D2D用户对的数量;K表示频谱资源块的数量;
Figure BDA0003075974990000022
表示共享第r个频谱资源块的所有D2D用户对的集合;
Figure BDA0003075974990000023
表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,
Figure BDA0003075974990000024
表示共享第r个频谱资源块的D2D用户对Dj的发射功率;
Figure BDA0003075974990000031
表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,
Figure BDA0003075974990000032
表示共享第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率。
3、根据权利要求2所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,所述步骤1中D2D链路的信干噪比为:
Figure BDA0003075974990000033
其中,
Figure BDA0003075974990000034
表示共享第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,
Figure BDA0003075974990000035
表示共享第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,
Figure BDA0003075974990000036
表示共享第r个频谱资源块的不同D2D用户对Dj'发送端与Dj接收端之间的信道增益。
进一步地,系统中蜂窝用户的吞吐量为:
Figure BDA0003075974990000037
其中,W表示频谱带宽;
系统中D2D用户对的吞吐量为:
Figure BDA0003075974990000038
其中,
Figure BDA0003075974990000039
表示系统中所有D2D用户对的集合;
系统中所有用户的总吞吐量为:
Figure BDA00030759749900000310
进一步地,步骤2中所述智能体是通信系统中的D2D用户对,系统中存在N个智能体;
所述动作用a表示,为共享同一频谱资源块的每个D2D用户对选择一个发射功率p∈{p1,p2,…,pL},动作用a表示,其中,p1,p2,…,pL为可供选择的发射功率;
所述状态用s表示,是单状态,即学习过程中只有一个状态;
所述奖励函数用R表示,指特定频谱资源块上的条件吞吐量:
Figure BDA0003075974990000041
其中,τ0表示蜂窝链路信干噪比的门限值;
上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量;否则,奖励函数为-1,表示惩罚值。
进一步地,步骤3中,根据Q学习算法更新Q值表,实现D2D用户对功率分配的步骤包括:
步骤3.1、对于N个D2D用户对Dj,j∈{1,2,…,N},初始化所有Q值表的值为0;
步骤3.2、选择第r个频谱资源块;
步骤3.3、选择第r个频谱资源块上的第j个D2D用户对;
步骤3.4、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤3.5、执行动作a,计算奖励函数R;
步骤3.6、根据公式
Figure BDA0003075974990000042
更新Q值表,其中,Q'(s,a)表示Q值表的更新值,Q(s,a)表示Q值表的当前值,α表示学习率,0≤α≤1,γ表示衰减因子,0≤γ≤1,
Figure BDA0003075974990000043
表示当前Q值表中的最大值;
步骤3.7、重复步骤3.4到步骤3.6直到Q值表收敛;
步骤3.8、重复步骤3.3到步骤3.7直到同一频谱资源块上的D2D用户对均被考虑;
步骤3.9、重复步骤3.2到步骤3.8直到所有频谱资源块均被考虑。
进一步地,步骤4中神经网络的输入数据为蜂窝用户、D2D用户对在小区中分布的距离信息,输出数据为同一频谱资源块中每一个D2D用户对的发射功率;
共有n个D2D用户对共享同一个频谱资源块,输入数据个数为n2+n+1,输出数据个数为n;
神经网络模型结构为一个含有5个全连接层的神经网络,每一层中使用Relu函数作为激活函数;第一层节点个数为n2+n+1,第二层节点个数为2(n2+n+1),第三层节点个数为4(n2+n+1),第四层节点个数为2(n2+n+1),第五层节点个数为n。
进一步地,步骤5中,运用Q学习获得的数据训练神经网络模型,通过训练好的模型进行D2D用户对功率分配的步骤包括:
步骤5.1、对训练数据进行归一化;
步骤5.2、将训练数据输入神经网络模型,根据前向传播获得预测值,通过误差反向传播更新节点参数,当误差小于门限值后停止训练;
步骤5.3、产生新的测试数据,将测试数据预处理后输入训练好的模型得到输出数据,对输出进行反归一化处理得到D2D用户对的功率分配。
本发明的一种基于Q学习和神经网络的D2D通信功率控制算法具有以下优点:在保证蜂窝用户通信质量的前提下,能够有效提高蜂窝用户、D2D用户共存系统的吞吐量。
附图说明
图1为本发明的D2D通信上行链路共享系统模型示意图;
图2为本发明的定义Q学习参数步骤流程示意图;
图3为本发明的Q学习算法步骤流程示意图;
图4位本发明的神经网络算法步骤流程示意图;
图5为本发明的算法流程示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于Q学习和神经网络的D2D通信功率控制算法做进一步详细的描述。
本发明实施例公开的一种基于Q学习和神经网络的D2D通信功率控制算法,应用于单小区场景中。小区内有一个基站BS、M个蜂窝用户,记为C={C1,C2,…,CM}和N个D2D用户对,记为
Figure BDA0003075974990000061
系统中有K个频谱资源块,记为
Figure BDA0003075974990000062
D2D用户对复用蜂窝用户上行链路的频谱资源块,蜂窝用户和D2D用户对在小区范围内随机均匀分布,基站可以获得所有链路的信道状态信息。小区中存在两种链路模式:基站与蜂窝用户之间的蜂窝链路模式;D2D用户对发送端与接收端之间的直接链路模式。
因为D2D用户复用上行链路的频谱资源,此时系统中存在三种干扰,如图1所示:(1)蜂窝用户发射给基站的信号被D2D用户对接收端接收到,对D2D用户对产生干扰;(2)D2D用户对发送端发射给D2D用户对接收端的信号被基站接收到,对基站产生干扰;(3)D2D用户对发送端发射给D2D用户对接收端的信号被同小区内其他D2D用户对接收端接收到,对其他D2D用户对产生干扰。
本发明实施例的一种基于Q学习和神经网络的D2D通信功率控制算法主要包含5个步骤:(1)计算用户信干噪比、吞吐量;(2)定义Q学习参数;(3)运行Q学习算法;(4)定义神经网络的输入、输出和结构;(5)训练神经网络,用训练好的模型实现功率分配。
首先,为蜂窝用户和D2D用户对随机分配频谱资源,利用距离信息计算蜂窝链路和D2D链路的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
其次,根据D2D通信功率控制场景定义Q学习中的智能体、动作、状态、奖励函数等参数;
然后,根据Q学习算法更新Q值表,实现D2D用户对的功率分配;
接着,定义神经网络的输入、输出和网络结构;
最后,运用Q学习获得的数据训练神经网络模型,通过训练好的模型进行D2D用户对的功率分配。
如图5所示,本发明实施例公开的一种基于Q学习和神经网络的D2D通信功率控制算法的实施步骤如下:
步骤1、计算用户信噪比、吞吐量:
小区内基站与蜂窝用户、基站与D2D用户对接收端、D2D用户对发送端和蜂窝用户之间以及D2D用户对之间的信道增益分别表示为:
Figure BDA0003075974990000071
Figure BDA0003075974990000072
其中,
Figure BDA0003075974990000073
Figure BDA0003075974990000074
分别表示蜂窝用户Ci与基站、D2D用户对Dj发送端与基站之间的路径损耗,β表示增益指数,μ表示路径损耗指数,
Figure BDA0003075974990000075
表示蜂窝用户Ci与D2D用户对Dj接收端之间的距离,
Figure BDA0003075974990000076
表示D2D用户对Dj发送端与接收端之间的距离,
Figure BDA0003075974990000077
表示不同D2D用户对Dj'发送端与Dj接收端之间的距离。
蜂窝链路的信干噪比为:
Figure BDA0003075974990000081
其中,Ci表示第i个蜂窝用户(i=1,2,…,M),Dj表示第j个D2D用户对(j=1,2,…,N),r=1,2,…,K表示系统中频谱资源块的编号,M、N和K分别表示蜂窝用户、D2D用户对和频谱资源块的数量;
Figure BDA0003075974990000082
表示共享第r个频谱资源块的所有D2D用户对的集合;
Figure BDA0003075974990000083
表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,
Figure BDA0003075974990000084
表示共享第r个频谱资源块的D2D用户对Dj的发射功率;
Figure BDA0003075974990000085
表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,
Figure BDA0003075974990000086
表示共享第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率。
D2D链路的信干噪比为:
Figure BDA0003075974990000087
其中,
Figure BDA0003075974990000088
表示共享第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,
Figure BDA0003075974990000089
表示共享第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,
Figure BDA00030759749900000810
表示共享第r个频谱资源块的不同D2D用户对Dj'发送端与Dj接收端之间的信道增益。
根据香农公式,系统中蜂窝用户的吞吐量为:
Figure BDA00030759749900000811
其中,W表示频谱带宽。系统中D2D用户的吞吐量为:
Figure BDA0003075974990000091
其中,
Figure BDA0003075974990000092
表示系统中所有D2D用户对的集合。因此,系统中所有用户的总吞吐量为:
Figure BDA0003075974990000093
步骤2、定义Q学习参数:
1)智能体:通信系统中的D2D用户对,一个D2D用户对即为一个智能体,系统中存在N个智能体;
2)动作a:为共享同一频谱资源块的每个D2D用户对选择一个合适的发射功率p∈{p1,p2,…,pL},其中,p1,p2,…,pL为可供选择的发射功率;
3)状态s:单状态,即学习过程中只有一个状态;
4)奖励函数R:特定频谱资源块上的条件吞吐量:
Figure BDA0003075974990000094
其中,τ0表示蜂窝链路信干噪比的门限值。上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量,否则,奖励函数为-1,表示惩罚值。
具体操作详见图2的流程示意图。
步骤3、运行Q学习算法:
步骤3.1、对于N个D2D用户对Dj,j∈{1,2,…,N},初始化所有Q值表的值为0;
步骤3.2、选择第r个频谱资源块;
步骤3.3、选择第r个频谱资源块上的第j个D2D用户对;
步骤3.4、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤3.5、执行动作a,计算奖励函数R;
步骤3.6、根据公式
Figure BDA0003075974990000101
更新Q值表,其中,Q'(s,a)表示Q值表的更新值,Q(s,a)表示Q值表的当前值,α表示学习率,0≤α≤1,γ表示衰减因子,0≤γ≤1,
Figure BDA0003075974990000102
表示当前Q值表中的最大值;
步骤3.7、重复步骤3.4到步骤3.6直到Q值表收敛;
步骤3.8、重复步骤3.3到步骤3.7直到同一频谱资源块上的D2D用户对均被考虑;
步骤3.9、重复步骤3.2到步骤3.8直到所有频谱资源块均被考虑。
具体操作见图3的流程示意图。
步骤4、定义神经网络的输入、输出和结构:
神经网络的输入数据为蜂窝用户、D2D用户对在小区中分布的距离信息,输出数据为同一频谱资源块中每一个D2D用户对的发射功率,假设共有n个D2D用户对共享同一个频谱资源块,则输入数据个数为n2+n+1,输出数据个数为n。
神经网络模型结构为一个含有5个全连接层的神经网络,每一层中使用Relu函数作为激活函数;第一层节点个数为n2+n+1,第二层节点个数为2(n2+n+1),第三层节点个数为4(n2+n+1),第四层节点个数为2(n2+n+1),第五层节点个数为n。
步骤5、训练神经网络,用训练好的模型实现功率分配:
步骤5.1、对训练数据进行归一化;
步骤5.2、将训练数据输入神经网络模型,根据前向传播获得预测值,通过误差反向传播更新节点参数,当误差小于一定门限值后停止训练;
步骤5.3、随机产生新的测试数据,将测试数据预处理后输入训练好的模型得到输出数据,对输出进行反归一化处理得到D2D用户对的功率分配。
具体操作见图4的流程示意图。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (8)

1.一种基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,包括以下步骤:
步骤1、为蜂窝用户和D2D用户对分配频谱资源,利用距离信息计算蜂窝链路和D2D链路的信道增益,利用频谱分配信息计算共享同一频谱资源块的用户链路的信干噪比,根据香农公式计算用户吞吐量;
步骤2、根据D2D通信功率控制场景定义Q学习中的智能体、动作、状态、奖励函数参数;
步骤3、根据Q学习算法更新Q值表,实现D2D用户对的功率分配;
步骤4、定义神经网络的输入、输出和网络结构;
步骤5、运用Q学习获得的数据训练神经网络模型,通过训练好的模型进行D2D用户对的功率分配。
2.根据权利要求1所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,所述步骤1中蜂窝链路的信干噪比为:
Figure FDA0003075974980000011
其中,Ci表示第i个蜂窝用户,其中i=1,2,…,M;Dj表示第j个D2D用户对,其中j=1,2,…,N;r=1,2,…,K表示系统中频谱资源块的编号,M表示蜂窝用户的数量;N表示D2D用户对的数量;K表示频谱资源块的数量;
Figure FDA0003075974980000012
表示共享第r个频谱资源块的所有D2D用户对的集合;
Figure FDA0003075974980000013
表示占用第r个频谱资源块的蜂窝用户Ci的发射功率,
Figure FDA0003075974980000014
表示共享第r个频谱资源块的D2D用户对Dj的发射功率;
Figure FDA0003075974980000015
表示占用第r个频谱资源块的蜂窝用户Ci与基站之间的信道增益,
Figure FDA0003075974980000016
表示共享第r个频谱资源块的D2D用户对Dj发送端与基站之间的信道增益,σ2表示噪声功率。
3.根据权利要求2所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,所述步骤1中D2D链路的信干噪比为:
Figure FDA0003075974980000021
其中,
Figure FDA0003075974980000022
表示共享第r个频谱资源块的D2D用户对Dj发送端与接收端之间的信道增益,
Figure FDA0003075974980000023
表示共享第r个频谱资源块的蜂窝用户Ci和D2D用户对Dj接收端之间的信道增益,
Figure FDA0003075974980000024
表示共享第r个频谱资源块的不同D2D用户对Dj'发送端与Dj接收端之间的信道增益。
4.根据权利要求3所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,系统中蜂窝用户的吞吐量为:
Figure FDA0003075974980000025
其中,W表示频谱带宽;
系统中D2D用户对的吞吐量为:
Figure FDA0003075974980000026
其中,
Figure FDA0003075974980000027
表示系统中所有D2D用户对的集合;
系统中所有用户的总吞吐量为:
Figure FDA0003075974980000028
5.根据权利要求1所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,步骤2中所述智能体是通信系统中的D2D用户对,系统中存在N个智能体;
所述动作用a表示,为共享同一频谱资源块的每个D2D用户对选择一个发射功率p∈{p1,p2,…,pL},其中,p1,p2,…,pL为可供选择的发射功率;
所述状态用s表示,是单状态,即学习过程中只有一个状态;
所述奖励函数用R表示,指特定频谱资源块上的条件吞吐量:
Figure FDA0003075974980000031
其中,τ0表示蜂窝链路信干噪比的门限值;
上式表示当蜂窝链路的信干噪比高于门限值时,奖励函数为该频谱资源块上的总吞吐量;否则,奖励函数为-1,表示惩罚值。
6.根据权利要求1所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,所述步骤3中,根据Q学习算法更新Q值表,实现D2D用户对功率分配的步骤包括:
步骤3.1、对于N个D2D用户对Dj,j∈{1,2,…,N},初始化所有Q值表的值为0;
步骤3.2、选择第r个频谱资源块;
步骤3.3、选择第r个频谱资源块上的第j个D2D用户对;
步骤3.4、基于当前Q值表,根据ε-greedy策略选择一个动作a;
步骤3.5、执行动作a,计算奖励函数R;
步骤3.6、根据公式
Figure FDA0003075974980000032
更新Q值表,其中,Q'(s,a)表示Q值表的更新值,Q(s,a)表示Q值表的当前值,α表示学习率,0≤α≤1,γ表示衰减因子,0≤γ≤1,
Figure FDA0003075974980000033
表示当前Q值表中的最大值;
步骤3.7、重复步骤3.4到步骤3.6直到Q值表收敛;
步骤3.8、重复步骤3.3到步骤3.7直到同一频谱资源块上的D2D用户对均被考虑;
步骤3.9、重复步骤3.2到步骤3.8直到所有频谱资源块均被考虑。
7.根据权利要求1所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,所述步骤4中神经网络的输入数据为蜂窝用户、D2D用户对在小区中分布的距离信息,输出数据为同一频谱资源块中每一个D2D用户对的发射功率;
共有n个D2D用户对共享同一个频谱资源块,输入数据个数为n2+n+1,输出数据个数为n;
神经网络模型结构为一个含有5个全连接层的神经网络,每一层中使用Relu函数作为激活函数;第一层节点个数为n2+n+1,第二层节点个数为2(n2+n+1),第三层节点个数为4(n2+n+1),第四层节点个数为2(n2+n+1),第五层节点个数为n。
8.根据权利要求1所述的基于Q学习和神经网络的D2D通信功率控制算法,其特征在于,所述步骤5中,运用Q学习获得的数据训练神经网络模型,通过训练好的模型进行D2D用户对功率分配的步骤包括:
步骤5.1、对训练数据进行归一化;
步骤5.2、将训练数据输入神经网络模型,根据前向传播获得预测值,通过误差反向传播更新节点参数,当误差小于门限值后停止训练;
步骤5.3、产生新的测试数据,将测试数据预处理后输入训练好的模型得到输出数据,对输出进行反归一化处理得到D2D用户对的功率分配。
CN202110552966.6A 2021-05-20 2021-05-20 一种基于q学习和神经网络的d2d通信功率控制算法 Pending CN113301637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552966.6A CN113301637A (zh) 2021-05-20 2021-05-20 一种基于q学习和神经网络的d2d通信功率控制算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552966.6A CN113301637A (zh) 2021-05-20 2021-05-20 一种基于q学习和神经网络的d2d通信功率控制算法

Publications (1)

Publication Number Publication Date
CN113301637A true CN113301637A (zh) 2021-08-24

Family

ID=77323239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552966.6A Pending CN113301637A (zh) 2021-05-20 2021-05-20 一种基于q学习和神经网络的d2d通信功率控制算法

Country Status (1)

Country Link
CN (1) CN113301637A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
CN116261210A (zh) * 2021-12-10 2023-06-13 诺基亚通信公司 功率控制参数的选择

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484244A (zh) * 2017-08-01 2017-12-15 东南大学 一种QoS感知的蜂窝网络D2D通信频谱资源分配算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484244A (zh) * 2017-08-01 2017-12-15 东南大学 一种QoS感知的蜂窝网络D2D通信频谱资源分配算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈文泰: "《基于机器学习的蜂窝网络D2D通信频谱分配与功率控制算法研究》", 《中国优秀博硕士学位论文》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116261210A (zh) * 2021-12-10 2023-06-13 诺基亚通信公司 功率控制参数的选择
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
CN114363938B (zh) * 2021-12-21 2024-01-26 深圳千通科技有限公司 一种蜂窝网络流量卸载方法

Similar Documents

Publication Publication Date Title
CN111884696B (zh) 一种基于多载波的中继协作移动边缘计算方法
Wang et al. A distributed joint scheduling and power control algorithm for multicasting in wireless ad hoc networks
CN108600999B (zh) Fd-d2d基于信道分配与功率控制联合优化方法
CN110493804B (zh) 一种毫米波系统的波束和功率分配方法
CN104717755A (zh) 一种蜂窝网络中引入d2d技术的下行频谱资源分配方法
CN113301637A (zh) 一种基于q学习和神经网络的d2d通信功率控制算法
CN112601284A (zh) 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
CN112994776B (zh) 一种适于高通量卫星通信的信关站抗雨衰切换方法及装置
CN111314935A (zh) 基于noma-mec系统的下行传输时延最小化的方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN113301638A (zh) 一种基于q学习的d2d通信频谱分配与功率控制算法
CN113891481A (zh) 一种面向吞吐量的蜂窝网络d2d通信动态资源分配方法
CN101711033A (zh) 适合于感知无线电网络的动态信道分配方法及系统
CN111787543A (zh) 一种基于改进灰狼优化算法的5g通信系统资源分配方法
CN111465108B (zh) 一种能量获取d2d异构网络中频效能效优化方法
CN110677176A (zh) 一种基于能量效率与频谱效率的联合折中优化方法
CN113301639A (zh) 一种基于q学习的蜂窝网络d2d通信功率控制算法
CN109618350B (zh) 一种基于信号重传的频谱共享方法和系统
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
Yang et al. Optimal spectrum reuse of V2V communications for maximizing average throughput in vehicular ad hoc networks
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
Siddig et al. Optimum resource allocation for full-duplex vehicular communication networks
Fischione et al. Power and rate control with outage constraints in CDMA wireless networks
CN111343722B (zh) 边缘计算中基于认知无线电的能效优化方法
Wang et al. Traffic offloading and resource allocation for PDMA-based integrated satellite/terrestrial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824

RJ01 Rejection of invention patent application after publication