CN110505604B - 一种d2d通信系统接入频谱的方法 - Google Patents

一种d2d通信系统接入频谱的方法 Download PDF

Info

Publication number
CN110505604B
CN110505604B CN201910778087.8A CN201910778087A CN110505604B CN 110505604 B CN110505604 B CN 110505604B CN 201910778087 A CN201910778087 A CN 201910778087A CN 110505604 B CN110505604 B CN 110505604B
Authority
CN
China
Prior art keywords
communication device
frame
channel
mth
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910778087.8A
Other languages
English (en)
Other versions
CN110505604A (zh
Inventor
梁应敞
谭俊杰
张蔺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910778087.8A priority Critical patent/CN110505604B/zh
Publication of CN110505604A publication Critical patent/CN110505604A/zh
Application granted granted Critical
Publication of CN110505604B publication Critical patent/CN110505604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/242TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • H04W52/383TPC being performed in particular situations power control in peer-to-peer links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,涉及一种D2D通信系统接入频谱的方法。本发明针对D2D通信系统提出一种基于深度强化学习的频谱接入方法,让每个D2D通信设备根据历史和局部信息优化接入频谱的策略,以提高系统的整体容量。和现有的方案相比,本发明只需让每个D2D通信设备收集本地测量数据(如接收干扰等)和来自于其他D2D通信设备有延迟的反馈信息,而无需实时收集D2D通信设备间的CSI。

Description

一种D2D通信系统接入频谱的方法
技术领域
本发明属于无线通信技术领域,涉及一种设备到设备(Device-to-Device,D2D)通信系统接入频谱的方法。
背景技术
近年来,各类数据密集型移动应用的兴起造成了蜂窝网络流量的爆炸式的增长,给现有的蜂窝系统带来巨大的负担。传统的缓解移动数据拥塞的措施,如增加基站部署数量以及增加蜂窝网络的可用频段等,都需要巨额的基础设施投资。因此,亟需一种低成本的移动流量卸载技术。在此背景下,D2D通信技术应运而生。D2D技术是一种允许近距离的移动终端通过复用蜂窝网络的频谱资源直接进行通信的新型技术。然而,因为D2D通信设备间可能会产生复杂的相互干扰,所以需要精确地协调所有设备的发送策略(如信道和发送功率等)以高效地复用这些有限的频谱。目前现有的方案需要D2D通信系统采集实时的信道状态信息(Channel State Information,CSI)并基于这些信息进行集中运算并向所有D2D通信设备下发它们的发送配置。虽然这种方案能够保证任何时刻都能获得较好的传输速率,但是它们所需要的信息是海量且具有极高时效性要求的,这对控制链路的要求极高且不现实。此外,随着D2D通信设备的增加,这些方案的信令开销和运算复杂度均以指数级增长,这导致系统难以获得较好的可扩展性。
发明内容
本发明针对D2D通信系统提出一种基于深度强化学习的频谱接入方法,让每个D2D通信设备根据历史和局部信息优化接入频谱的策略,以提高系统的整体容量。和现有的方案相比,本发明只需让每个D2D通信设备收集本地测量数据(如接收干扰等)和来自于其他D2D通信设备有延迟的反馈信息,而无需实时收集D2D通信设备间的CSI。
如图1所示,本发明考虑一个具有M个D2D通信设备及N个信道的D2D通信系统。每个D2D通信设备由一个发送端(Tx)和一个接收端(Rx)组成。宏蜂窝基站(Macro BaseStation,MBS)作为协调者帮助D2D通信设备间的同步和传递反馈信息。本发明提出了如图2所示的D2D通信系统的帧结构设计,其帧长与信道的相干时间相同。每一帧包含两部分,分别是预处理阶段和发送阶段。在预处理阶段,每一D2D通信设备分别进行信息反馈(发送反馈信息至相邻D2D通信设备、接收相邻D2D通信设备的反馈信息)、干扰测量、发送-接收端信道估计以及根据以上收集到的信息利用深度强化学习选择一个频谱接入策略(包括信道和发送功率)。最后,所有D2D通信设备的发送端在发送阶段以在选择的信道和发送功率进行信息传输。
在该D2D通信系统中,在第t帧时,第m个D2D通信设备的发送端到第k个D2D通信设备的接收端在信道n上的信道响应表示为
Figure GDA0002994465510000021
其中,βm,k是仅与距离有关的路径损耗,
Figure GDA0002994465510000022
是符合Jake’s信道模型的小尺度衰落。相邻帧小尺度衰落的变化可以表述为
Figure GDA0002994465510000023
其中,δ和g(0)都是服从复高斯分布
Figure GDA0002994465510000024
的随机变量,而ρ表示信道相关系数。
因此,第m个D2D通信设备,它在第t个帧在信道n上获得的SINR为
Figure GDA0002994465510000025
而它获得的速率是
Figure GDA0002994465510000026
其中,
Figure GDA0002994465510000027
表示第m个D2D通信设备在第t个帧选择的信道;
Figure GDA0002994465510000028
是信道选择变量,若第m个D2D通信设备在第t个帧选择信道n,则
Figure GDA0002994465510000029
否则
Figure GDA00029944655100000210
Figure GDA00029944655100000211
表示第m个D2D通信设备在第t个帧选择的发送功率;σ2是加性高斯白噪声(Additive White Gaussian Noise,AWGN)功率。
本发明的目标是找出一种信道选择和功率控制方案使D2D通信系统的总容量最大化,即
Figure GDA00029944655100000212
Figure GDA00029944655100000213
Figure GDA00029944655100000214
Figure GDA00029944655100000215
其中,
Figure GDA0002994465510000031
Figure GDA0002994465510000032
分别表示在第t个帧时所有D2D通信设备的信道选择向量和发送功率向量;
Figure GDA0002994465510000033
表示每个D2D通信设备的发送端的最大发送功率;
Figure GDA0002994465510000034
Figure GDA0002994465510000035
分别表示所有D2D通信设备的集合以及所有信道的集合。显然,获得所有即时的CSI是难以实现的。由于深度强化学习能够通过在大量复杂关联的数据中提取它们的关联性和变化规律并据此在动态环境中进行最优决策,本发明提出利用深度强化学习让每个D2D通信设备根据历史和局部信息来动态调整接入频谱的策略。
由于深度强化学习主要包含状态、动作空间及奖励的设计,下面将以第m个D2D通信设备为例,从以上三方面对本发明的设计进行阐述。
状态:在第t个帧,该D2D通信设备的状态包括:第t-1个帧及第t-2个帧的功率、信道、速率信息;第t个帧及第t-1个帧的发送-接收端信道估计值;第t个帧及第t-1个帧干扰测量值。因此,本发明将第m个D2D通信设备在第t个帧获得的系统状态设计为
Figure GDA0002994465510000036
Figure GDA0002994465510000037
其中,
Figure GDA0002994465510000038
表示第m个D2D通信设备在第t个帧所测量到的总干扰;
Figure GDA0002994465510000039
表示第m个D2D通信设备在第t个帧所测量到本地CSI(即该D2D通信设备发送-接收端信道CSI)向量。
动作空间:在每一个帧的预处理阶段,每个D2D通信设备需要选择一个信道和发送功率,因此,动作空间即设计为
Figure GDA00029944655100000310
其中L是功率的离散数量。
奖励:由于该系统的目标是为了提高D2D通信系统的总容量,每个D2D通信设备既要提高自身的速率,同时也需要减少对其他D2D通信设备的干扰。因此,本发明将第m个D2D通信设备在第t个帧的奖励设计为
Figure GDA00029944655100000311
值得注意的是,由于相邻的D2D通信设备的信息是有延迟的,若假设每个D2D通信设备需要
Figure GDA00029944655100000312
个帧才能获得其奖励,那么在第t个帧获得的奖励则为是
Figure GDA00029944655100000313
本发明的有益效果在于,本发明不需要D2D通信设备之间进行实时且大量的CSI交互,而是让每个D2D通信设备利用深度强化学习仅根据本地测量的数据和少量来自于其他相邻设备的延迟信息自主地调整信道和发送功率来最大化整个D2D通信系统的系统容量。
附图说明
图1示出了本发明中的D2D通信系统模型;
图2示出了本发明中D2D通信系统的帧结构;
图3示出了本发明中的信息交互和决策流程;
图4、图5及图6示出了本发明提出的基于深度强化学习的接入策略在信道相关系数分别为0.3、0.6和0.9下得到的D2D通信系统容量;
图7和图8示出了本发明提出的基于深度强化学习的接入策略在信道相关系数为分别为0.3和0.9时反馈延迟对D2D通信系统容量产生的影响。
具体实施方式
下面以一种简单的D2D通信系统为例,结合附图和仿真示例对本发明进行详细描述,以便本领域的技术人员能够更好地理解本发明。
图1表示该示例的系统模型,分别由蜂窝移动通信系统和D2D通信系统组成。在本示例中,宏蜂窝基站为D2D通信系统保留一小部分独占的蜂窝频谱。因此蜂窝移动通信系统和D2D通信系统不存在相互干扰,而宏蜂窝基站仅作为中继帮助D2D通信设备之间进行少量且有延迟的控制信息交换。假设在此实例系统中有M个D2D通信设备,N个信道。则
Figure GDA0002994465510000041
表示第t帧时第m个D2D通信设备的发送端到第k个D2D通信设备的接收端在信道n上的信道响应,其中,βm,k是仅与距离有关的路径损耗,
Figure GDA0002994465510000042
是符合Jake’s信道模型的小尺度衰落。相邻帧小尺度衰落的变化可以表述为
Figure GDA0002994465510000043
其中,δ和g(t)在第0帧的初始值g(0)都是服从复高斯分布
Figure GDA0002994465510000044
的随机变量,而ρ表示信道相关系数。
图2表示了本发明所设计的帧结构,每一帧包含预处理和传输两大阶段。其中预处理阶段又分为反馈、干扰测量、信道估计和决策四个子阶段。在反馈阶段,每个D2D通信设备需要向相邻(距离最近)的U个其他D2D通信设备反馈它在上一帧所受到的干扰,以及接收来自于相邻D2D通信设备的反馈。对于第m个D2D通信设备,它所需要向第k个D2D通信设备反馈的关于第t个帧的信息是
Figure GDA0002994465510000051
其中,
Figure GDA0002994465510000052
Figure GDA0002994465510000053
Figure GDA0002994465510000054
表示第m个D2D通信设备在第t个帧选择的信道;
Figure GDA0002994465510000055
是信道选择变量,若第m个D2D通信设备在第t个帧选择信道n,则
Figure GDA0002994465510000056
否则
Figure GDA0002994465510000057
Figure GDA0002994465510000058
表示第m个D2D通信设备在第t个帧选择的发送功率;σ2是加性高斯白噪声(Additive White Gaussian Noise,AWGN)功率。在干扰测量阶段,每个D2D通信设备的接收端测量它所接收到的总干扰。对于第m个D2D通信设备,它在第t个帧所测量到的总干扰为
Figure GDA0002994465510000059
在信道估计阶段,每个D2D通信设备的接收端与发送端之间进行本地CSI的估计。对于第m个D2D通信设备,它在第t个帧所测量到本地CSI为
Figure GDA00029944655100000510
在决策阶段,每个D2D通信设备需要基于此前获得的所有信息(包括这一帧以及之前帧中获得的信息)来决定当前帧的传输阶段需要选择的信道和发送功率。在发送阶段,每个D2D通信设备获得的速率由它的接收端所接收到的信干噪比(Signal-to-Interference-plus-Noise Ratio,SINR)决定。对于第m个D2D通信设备,它在第t个帧在信道n上获得的SINR为
Figure GDA00029944655100000511
而它获得的速率是
Figure GDA00029944655100000512
本发明的目标是找出一种信道选择和功率控制方案使D2D通信系统的总容量最大化,即
Figure GDA00029944655100000513
Figure GDA00029944655100000514
Figure GDA00029944655100000515
Figure GDA00029944655100000516
其中,
Figure GDA00029944655100000517
Figure GDA00029944655100000518
分别表示在第t个帧时所有D2D通信设备的信道选择向量和发送功率向量;
Figure GDA00029944655100000519
表示每个D2D通信设备的发送端的最大发送功率;
Figure GDA0002994465510000061
Figure GDA0002994465510000062
分别表示所有D2D通信设备的集合以及所有信道的集合。显然,获得所有即时的CSI是难以实现的。本发明提出利用深度强化学习分析历史和局部信息来进行最优决策。此外,本发明提出让每一个D2D通信设备分布式地进行学习和决策,这样使得每个设备的运算量不会随着设备数量的增加而增加,保证了系统的可扩展性。
以某一D2D通信设备为例,图3表示本发明所提出的信息交互和决策流程。每个D2D通信设备都采用相同的深度强化学习算法。在每一帧的开头,各个设备都可以获得该帧的状态作为决策的依据。本发明将第m个D2D通信设备在第t个帧获得的系统状态设计为
Figure GDA0002994465510000063
Figure GDA0002994465510000064
其中,
Figure GDA0002994465510000065
表示第m个D2D通信设备在第t个帧所测量到的总干扰;
Figure GDA0002994465510000066
表示第m个D2D通信设备在第t个帧所测量到本地CSI(即该D2D通信设备发送-接收端信道CSI)向量。每个D2D通信设备所需要决策的动作为信道和发送功率,因此本发明所设计的动作空间表示为
Figure GDA0002994465510000067
其中L是功率的离散数量。第m个D2D通信设备在第t个帧所采取的动作表示为
Figure GDA0002994465510000068
由于该系统的目标是为了提高D2D通信系统的总容量,每个D2D通信设备既要提高自身的速率,同时也需要减少对其他D2D通信设备的干扰。因此,本发明将第m个D2D通信设备在第t个帧的奖励设计为
Figure GDA0002994465510000069
值得注意的是,由于相邻的D2D通信设备的信息是有延迟的,因此若每个D2D通信设备需要
Figure GDA00029944655100000610
个帧才能获得其奖励,则第t个帧可以获得的是第
Figure GDA00029944655100000611
个帧的奖励
Figure GDA00029944655100000612
以第m个D2D通信设备在第t个帧为例,在该帧的开头,其向相邻的的U个其他D2D通信设备发送及接收反馈信息,然后进行本地CSI估计和干扰测量,得到第t个帧的状态
Figure GDA00029944655100000613
和第
Figure GDA00029944655100000614
个帧的奖励
Figure GDA00029944655100000615
其后,该D2D通信设备将第
Figure GDA00029944655100000616
个帧的相关信息(包括状态
Figure GDA00029944655100000617
动作
Figure GDA00029944655100000618
和奖励
Figure GDA00029944655100000619
输入到深度强化学习系统对神经网络进行训练,然后深度强化学习系统会根据当前(第t个帧)的状态
Figure GDA00029944655100000620
选择下一帧所采用的信道和发送功率。最后,该D2D通信设备的发送端会采用所选择的信道和发送功率向接收端进行数据传输。
下面,本发明将结合仿真结果来阐述本发明所提方案的性能。仿真条件如下:20个D2D通信设备随机放置在一个500米×500米的平面区域内。对于每个D2D通信设备,它的接收端随机放置在距离发送端10米~100米的地方。总信道数N设置为2。D2D通信设备发送端的最大发送功率为38dBm,AWGN功率为-114dBm。路径损耗模型为-120.9-37.6log10(dist)dB,其中dist是距离(km)。深度强化学习的神经网络为3层,包含的神经元数量分别是100,50和50。发送功率量化为10个级别,即L=10。
图4、图5及图6分别展示了本发明提出的基于深度强化学习的接入策略在信道相关系数ρ分别为0.3、0.6和0.9下得到的D2D通信系统容量,其中FP为传统分数优化(Fractional Programming,FP)得到的性能,而Random则是随机选择信道和发送功率得到的性能。这里的反馈延迟
Figure GDA0002994465510000071
为1,即每个D2D通信设备需要1个帧才能获得其奖励。可以看出,对任意信道相关系数和任意U,深度强化学习得到的系统容量都会随着训练帧数的增加而有所提升直至收敛。特别的,随着U的增加,得到的系统容量随之增加。另一方面,因为信令开销也会随着U的增加而增加。所以本发明提出的方法可以通过调整U的大小来在系统信令开销和系统容量之间取得折中。通过对比图4、图5和图6可以发现,对于信道相关系数较高的场景(如ρ为0.9),当U大于某个阈值时,系统容量难以进一步提升。这是由于相关系数较高的信道变化相对缓慢,深度强化学习用较少的信息已经可以获得较好的性能。因此,当信道相关系数较大时,可以通过设置一个较小的U,以极低的系统性能损失来大幅度降低系统的信令开销。
图7和图8分别展示了本发明提出的基于深度强化学习的频谱接入策略在信道相关系数ρ为分别为0.9和0.3时反馈延迟
Figure GDA0002994465510000072
对D2D通信系统容量产生的影响。其中,U设置为8。可以看出,当信道相关系数较高时(如图7,ρ为0.9),反馈延迟对系统性能几乎没有任何影响。当信道相关系数较低时(如图8,ρ为0.3),随着
Figure GDA0002994465510000073
的增加,系统性能会有略微的降低,但是即便在极端情况下(ρ为0.3,
Figure GDA0002994465510000074
为20),性能损失也不会超过3%。所以本发明提出的方法对于反馈延迟是具有鲁棒性的。

Claims (1)

1.一种D2D通信系统接入频谱的方法,所述D2D通信系统具有M个D2D通信设备及N个信道,每个D2D通信设备由一个发送端Tx和一个接收端Rx组成,宏蜂窝基站MBS作为协调者帮助D2D通信设备间的同步和传递反馈信息,其特征在于,所述接入频谱的方法为:
设定目标为找出一种信道选择和功率控制方案使D2D通信系统的总容量最大化,建立目标模型为:
Figure FDA0003084478770000011
Figure FDA0003084478770000012
Figure FDA0003084478770000013
Figure FDA0003084478770000014
其中,
Figure FDA0003084478770000015
表示第m个D2D通信设备在第t个帧获得速率,
Figure FDA0003084478770000016
Figure FDA0003084478770000017
分别表示在第t个帧时所有D2D通信设备的信道选择向量和发送功率向量,
Figure FDA0003084478770000018
表示每个D2D通信设备的发送端的最大发送功率,
Figure FDA0003084478770000019
Figure FDA00030844787700000110
分别表示所有D2D通信设备的集合以及所有信道的集合,
Figure FDA00030844787700000111
Figure FDA00030844787700000112
表示第m个D2D通信设备在第t个帧选择的信道,
Figure FDA00030844787700000113
是信道选择变量,若第m个D2D通信设备在第t个帧选择信道n,则
Figure FDA00030844787700000114
否则
Figure FDA00030844787700000115
表示第m个D2D通信设备在第t个帧选择的发送功率,σ2是加性高斯白噪声,
Figure FDA00030844787700000116
表示第t帧时第m个D2D通信设备的发送端到第k个D2D通信设备的接收端在信道
Figure FDA00030844787700000117
上的信道响应,其中,βm,k是仅与距离有关的路径损耗,
Figure FDA00030844787700000118
是符合Jake’s信道模型的小尺度衰落,相邻帧小尺度衰落的变化表述为
Figure FDA00030844787700000119
其中,δ和
Figure FDA00030844787700000120
在第0帧的初始值
Figure FDA00030844787700000121
都是服从复高斯分布
Figure FDA00030844787700000122
的随机变量,而ρ表示信道相关系数,j≠m;
基于目标模型,采用深度强化学习让每个D2D通信设备根据历史和局部信息来动态调整接入频谱,具体为:
将D2D通信系统的帧结构设计为包括预处理阶段和发送阶段,在预处理阶段D2D通信设备通过信息反馈即发送反馈信息至相邻D2D通信设备或者接收相邻D2D通信设备的反馈信息、干扰测量、发送-接收端信道估计获取状态数据,通过深度强化学习选择一个频谱接入策略,包括信道和发送功率;D2D通信设备的发送端在发送阶段以在选择的信道和发送功率进行信息传输;深度强化学习的实现方式为:
状态数据:在第t个帧,D2D通信设备的状态包括:第t-1个帧及第t-2个帧的功率、信道、速率信息;第t个帧及第t-1个帧的发送-接收端信道估计值;第t个帧及第t-1个帧干扰测量值,因此,将第m个D2D通信设备在第t个帧获得的系统状态设计为
Figure FDA0003084478770000021
Figure FDA0003084478770000022
其中,
Figure FDA0003084478770000023
表示第m个D2D通信设备在第t-1个帧选择的发送功率,
Figure FDA0003084478770000024
表示第m个D2D通信设备在第t-2个帧选择的发送功率,
Figure FDA0003084478770000025
表示第m个D2D通信设备在第t-1个帧选择的信道,
Figure FDA0003084478770000026
表示第m个D2D通信设备在第t-2个帧选择的信道,
Figure FDA0003084478770000027
表示第m个D2D通信设备在第t-1个帧获得速率,
Figure FDA0003084478770000028
表示第m个D2D通信设备在第t-2个帧获得速率,
Figure FDA0003084478770000029
表示第m个D2D通信设备在第t个帧所测量到的总干扰,
Figure FDA00030844787700000210
表示第m个D2D通信设备在第t-1个帧所测量到的总干扰;
Figure FDA00030844787700000211
表示第m个D2D通信设备在第t个帧所测量到本地CSI向量,
Figure FDA00030844787700000212
表示第m个D2D通信设备在第t-1个帧所测量到本地CSI向量,
Figure FDA00030844787700000213
表示第t帧时第m个D2D通信设备的发送端到第m个D2D通信设备的接收端在信道n上的信道响应;
动作空间:在每一个帧的预处理阶段,每个D2D通信设备需要选择一个信道和发送功率,动作空间设计为
Figure FDA00030844787700000214
其中L是功率的离散数量;
奖励:由于该系统的目标是为了提高D2D通信系统的总容量,每个D2D通信设备既要提高自身的速率,同时也需要减少对其他D2D通信设备的干扰;将第m个D2D通信设备在第t个帧的奖励设计为
Figure FDA0003084478770000031
表示第k个D2D通信设备在第t个帧获得速率,
Figure FDA0003084478770000032
是信道选择变量,若第m个D2D通信设备在第t个帧选择信道
Figure FDA0003084478770000033
Figure FDA0003084478770000034
否则
Figure FDA0003084478770000035
是信道选择变量,若第j个D2D通信设备在第t个帧选择信道
Figure FDA0003084478770000036
Figure FDA0003084478770000037
否则
Figure FDA0003084478770000038
为第t帧时第j个D2D通信设备的发送端到第k个D2D通信设备的接收端在信道n上的信道响应,
Figure FDA0003084478770000039
表示第j个D2D通信设备在第t个帧选择的发送功率。
CN201910778087.8A 2019-08-22 2019-08-22 一种d2d通信系统接入频谱的方法 Active CN110505604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910778087.8A CN110505604B (zh) 2019-08-22 2019-08-22 一种d2d通信系统接入频谱的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910778087.8A CN110505604B (zh) 2019-08-22 2019-08-22 一种d2d通信系统接入频谱的方法

Publications (2)

Publication Number Publication Date
CN110505604A CN110505604A (zh) 2019-11-26
CN110505604B true CN110505604B (zh) 2021-07-09

Family

ID=68588801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910778087.8A Active CN110505604B (zh) 2019-08-22 2019-08-22 一种d2d通信系统接入频谱的方法

Country Status (1)

Country Link
CN (1) CN110505604B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111010207B (zh) * 2019-12-05 2020-11-13 北京邮电大学 一种基于量化相关性的跳频方法及装置
CN111163486B (zh) * 2019-12-24 2022-04-15 重庆邮电大学 一种d2d通信仿真与性能测试系统与方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639760A (zh) * 2018-11-02 2019-04-16 西北工业大学 一种基于深度强化学习的d2d网络中的缓存策略方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105684536B (zh) * 2013-10-31 2020-04-21 瑞典爱立信有限公司 用于设备到设备通信的方法和装置
CN109639377B (zh) * 2018-12-13 2021-03-23 西安电子科技大学 基于深度强化学习的频谱资源管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639760A (zh) * 2018-11-02 2019-04-16 西北工业大学 一种基于深度强化学习的d2d网络中的缓存策略方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的蜂窝网资源分配算法;廖晓闽,严少虎,石嘉,谭震宇,赵钟灵,李赞;《通信学报》;20190228;第40卷(第2期);全文 *

Also Published As

Publication number Publication date
CN110505604A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
Zhou et al. A deep-learning-based radio resource assignment technique for 5G ultra dense networks
CN110213814B (zh) 一种基于深度神经网络的分布式功率分配方法
AlQerm et al. Enhanced machine learning scheme for energy efficient resource allocation in 5G heterogeneous cloud radio access networks
CN110012547B (zh) 一种共生网络中用户关联的方法
Luo et al. Online power control for 5G wireless communications: A deep Q-network approach
CN108600999B (zh) Fd-d2d基于信道分配与功率控制联合优化方法
CN105379412A (zh) 一种控制多个无线接入节点的系统和方法
CN114885426B (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN110505604B (zh) 一种d2d通信系统接入频谱的方法
KR102027914B1 (ko) 무선 통신 시스템에서 셀 간 간섭 제거 방법 및 장치
CN113239632A (zh) 无线性能预测方法及装置、电子设备和存储介质
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN111787543A (zh) 一种基于改进灰狼优化算法的5g通信系统资源分配方法
CN111741478B (zh) 一种基于大尺度衰落跟踪的业务卸载方法
Adeogun et al. Distributed channel allocation for mobile 6g subnetworks via multi-agent deep q-learning
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN113038583A (zh) 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统
Qureshi et al. Distributed self optimization techniques for heterogeneous network environments using active antenna tilt systems
CN115622595B (zh) 一种实现自适应大规模urllc的高能效组网方法
WO2020237030A1 (en) Network user association
CN116546462A (zh) 一种基于联邦学习的多智能体空地网络资源分配方法
CN113644946B (zh) 一种面向用户为中心网络的深度学习动态波束赋形方法
CN102752071A (zh) 用于多点协作系统的下行链路预编码方法和中心处理节点
CN115811788A (zh) 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
KR102361439B1 (ko) 차세대 통신 네트워크에서 단말의 통신 모드 및 전송 전력 결정 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant