CN114900827A - 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统 - Google Patents

基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统 Download PDF

Info

Publication number
CN114900827A
CN114900827A CN202210502957.0A CN202210502957A CN114900827A CN 114900827 A CN114900827 A CN 114900827A CN 202210502957 A CN202210502957 A CN 202210502957A CN 114900827 A CN114900827 A CN 114900827A
Authority
CN
China
Prior art keywords
user
users
communication
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210502957.0A
Other languages
English (en)
Other versions
CN114900827B (zh
Inventor
胡锦松
李鸿炜
陈由甲
魏宏安
房颖
赵铁松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210502957.0A priority Critical patent/CN114900827B/zh
Publication of CN114900827A publication Critical patent/CN114900827A/zh
Application granted granted Critical
Publication of CN114900827B publication Critical patent/CN114900827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • H04W88/06Terminal devices adapted for operation in multiple networks or having at least two operational modes, e.g. multi-mode terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统,包括随机分布的M个用户和N个基站;所述N个基站中包含1个宏基站和N‑1个小基站;所述M个用户分别配备了发射天线和接收天线,在蜂窝模式或者D2D模式下通信;所述M个用户的位置固定不变,个数为偶数,每两个用户组成一对进行D2D通信,每对D2D链路由发射者Dr和接收者Dt组成;还包括一无人机,对其中一对用户进行监测,并给定一个隐蔽传输速率R;当用户与基站进行通信时,采用最大信噪比的方式将用户与基站关联。本发明能够通过采用深度强化学习的方法让用户进行不同通信模式的选则以及功率分配,从而最大化隐蔽传输速率。

Description

基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统
技术领域
本发明涉及无线通信技术领域,具体涉及一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统。
背景技术
D2D(Device to Device)通信是指两个距离较近用户节点之间直接通信的一种通信方式。在D2D通信网络中,每个用户节点都能发送和接收信号。网络的参与者共享所拥有的一部分硬件资源以及频谱资源。这些共享资源向D2D网络提供服务,能被其它用户直接访问而不需要经过中间实体。在D2D通信网络中,用户节点同时扮演服务器和客户端的角色,能够意识到彼此的存在,自组织地构成一个虚拟或者实际的群体。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统,能够通过采用深度强化学习的方法让用户进行不同通信模式的选则以及功率分配,从而最大化隐蔽传输速率。
为实现上述目的,本发明采用如下技术方案:
一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统,包括随机分布的M个用户和N个基站;所述N个基站中包含1个宏基站和N-1个小基站,所有用户均能被宏基站所覆盖;所述M个用户分别配备了一根发射天线和一根接收天线,在蜂窝模式或者D2D模式下通信;所述M个用户中有J个用户处于蜂窝通信,K个用户处于D2D通信;所述M个用户的位置固定不变,个数为偶数,每两个用户组成一对进行D2D通信,每对D2D链路由发射者Dr和接收者Dt组成;还包括一无人机,对其中一对用户进行监测,并给定一个隐蔽传输速率R;当用户与基站进行通信时,采用最大信噪比的方式将用户与基站关联。
进一步的,将可用频段分成两部分,一部分分配给蜂窝通信,另一部分分配给D2D通信。
一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法,包括以下步骤:
步骤S1:根据用户占用的频谱资源、使用的发射功率以及隐蔽性要求,构建所需要优化的目标模型;
步骤S2:构造马尔可夫决策过程模型,采用深度强化学习的方法,通过动态地选择用户的通信模式,最大化隐蔽传输速率。
进一步的,基于有限码长隐蔽传输,具体如下:
考虑到被无人机所监视的用户的隐蔽性设计,设无人机只监视一个用户,且所有用户传输的信息是一样的,则无人机在一个时隙里收到的信号为:
Figure BDA0003636152980000031
其中i∈1,2,3...L表示占用的信道,Psb和Psr分别表示处于蜂窝通信和D2D通信时的发射功率;hsw和huw表示用户到无人机之间的信道增益;xa(i)表示用户处发送的信息;nw(i)表示无人机接收处的噪声,
Figure BDA0003636152980000032
Figure BDA0003636152980000033
分别表示没有进行隐蔽传输和有进行隐蔽传输;式子中的第二项表示由于其他用户的通信而产生的干扰项;当处于
Figure BDA0003636152980000034
情况下时,无人机处接收信号的信噪比表示为:
Figure BDA0003636152980000035
令无人机处使用能量检测来监测隐蔽信号的传输,则无人机接收处判决没有发生隐蔽传输时表示为
Figure BDA0003636152980000036
判决有隐蔽传输时表示为
Figure BDA0003636152980000037
当用户处于蜂窝通信模式而无人机处判决为D2D通信模式称为虚警概率
Figure BDA0003636152980000038
当用户处于D2D通信模式而无人机判决为D2D通信模式成为漏警概率
Figure BDA0003636152980000039
检测错误概率为
Figure BDA00036361529800000310
Figure BDA00036361529800000311
ξ满足ξ≥1-∈,其中∈表示一个确定隐蔽性的任意小的常数;
通过似然比检测给出了无人机处最小化的最优检测值如下:
Figure BDA00036361529800000312
其中
Figure BDA0003636152980000041
Figure BDA0003636152980000042
分别表示
Figure BDA0003636152980000043
Figure BDA0003636152980000044
情况下的似然函数,
Figure BDA0003636152980000045
Figure BDA0003636152980000046
的表达式如下:
Figure BDA0003636152980000047
Figure BDA0003636152980000048
其中
Figure BDA0003636152980000049
表示当被监视的用户处于D2D通信模式时无人机处的接收功率;根据KL散度得出了最小检测错误概率的下界,如下:
Figure BDA00036361529800000410
其中
Figure BDA00036361529800000411
表示
Figure BDA00036361529800000412
Figure BDA00036361529800000413
的KL散度,L表示信道个数,γw表示处于
Figure BDA00036361529800000414
情况下时,无人机处接收信号的信噪比。
由此得到的隐蔽约束条件表示为如下:
Figure BDA00036361529800000415
该条件能够确保
Figure BDA00036361529800000417
的条件得到满足,即满足隐蔽约束条件;
当用户处于D2D通信模式时,Dr处的接收信号表示为如下:
Figure BDA00036361529800000416
其中hsr表示D2D链路的信道增益,该式的第二项表示其他用户传输时的干扰,nr(i)表示无人机接收处的噪声,
Figure BDA0003636152980000051
则Dr处的信噪比表示为:
Figure BDA0003636152980000052
对于一个给定的传输速率R,其有效隐蔽传输吞吐量表示为η=LR(1-δ)。其中δ表示隐蔽传输的中断概率,L表示信道个数,表达式如下:
Figure BDA0003636152980000053
其中Q(·)是Q函数。
进一步的,所述步骤S1中,构建的所需要优化的目标模型,具体如下:
Figure BDA0003636152980000054
Figure BDA0003636152980000055
Rsb,Rsr≥Rmin
Figure BDA0003636152980000056
其中,
Figure BDA0003636152980000057
表示隐蔽传输速率,γ是一个折扣系数;第一个约束条件表示D2D用户之间是否产生了关联;第二个约束条件表示用户的发射功率不能超过Pmax;第三个约束条件表示其他用户的传输速率不能小于限定的最低速率;第四个约束条件表示被监测用户处于蜂窝通信模式时要满足传输时的隐蔽性。
进一步的,所述马尔可夫决策过程模型通过一个4元组
Figure BDA0003636152980000061
来描述这个问题,其中
Figure BDA0003636152980000062
是状态空间,
Figure BDA0003636152980000063
是动作空间,
Figure BDA0003636152980000064
是状态转移概率,
Figure BDA0003636152980000065
是奖励函数;
将每个用户作为能够执行通信模式选则的智能体,定义智能体的状态、动作和奖励如下:
(1)在一个时隙里的状态空间表示为s=(ξ1,ξ2,…,ξM),其中ξM表示如下:
Figure BDA0003636152980000066
式中的ξm表示第m个用户的服务质量;
(2)在每个时隙里的动作空间表示为a=(P1,P2,…,PM,β),其中β表示在t时隙分配给蜂窝通信的频段的比例,PM表示控制用户通信模式和功率分配的变量,其表达式如下:
Figure BDA0003636152980000067
在该表达式中,当Pm为负数时,选则D2D通信模式,并且将|Pm大小的功率分配给用户作为发射功率;
(3)在一个时隙里的奖励为
Figure BDA0003636152980000071
表示隐蔽传输速率。
进一步的,所述深度强化学习的方法采用TD3的深度强化学习方法。
本发明与现有技术相比具有以下有益效果:
本发明能够通过采用深度强化学习的方法让用户进行不同通信模式的选则以及功率分配,从而最大化隐蔽传输速率
附图说明
图1是本发明系统结构示意图;
图2是本发明一实施例中基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信方法网络结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统,包括在一个指定区域(1km×1km)内分布着的M个用户和N个基站,N个基站中包含了1个宏基站和N-1个小基站。每个用户分别配备了一根发射天线和一根接收天线,可以在蜂窝模式或者D2D模式下通信,M个用户中有J个用户处于蜂窝通信,K个用户处于D2D通信。假设用户的位置固定不变,将用户的个数设置为偶数,每两个距离较近的用户组成一对进行D2D通信,每对D2D链路由发射者Dr和接收者Dt组成。考虑用户在D2D模式下的通信为隐蔽通信,空中有一架无人机充当监测者,只对其中一对用户进行监测,并给定一个隐蔽传输速率R。当用户与基站进行通信时,采用最大信噪比的方式将用户与基站关联。由于蜂窝通信和D2D通信之间存在相互的干扰,在本发明中将可用频段分成两部分,一部分分配给蜂窝通信,另一部分分配给D2D通信。通过深度强化学习的方法,最大化隐蔽传输速率。当用户与宏基站进行通信时,路径损耗设置为128.1+37.6log10d,d为它们之间的距离,其单位为km。当用户与小基站进行通信时,路径损耗设置为140.7+36.7log10d。当用户采用D2D通信模式时路径损耗设置为148+40log10d。噪声功率为175dBm。限制的最低传输速率为1Mbps。每个用户的静态功率为0.1W。
具体的通信方法如下:
步骤S1:根据用户发射信号的数学表达式以及所分配的频谱资源和能量以及确保被无人机所监视的那对用户处于D2D通信时的隐蔽性,构建所需要优化的目标如下:
当用户处于蜂窝通信模式时,接收端在每个时隙的信干噪比由下面表达式出:
Figure BDA0003636152980000081
式中ρsb和Pu是一个二进制变量,分别表示蜂窝通信的用户和其他用户与基站是否产生关联。Psb和Pu分别表示蜂窝通信用户和其他用户的发射功率。hsb和hub分别表示蜂窝通信用户和其他用户的信道增益。Nb表示噪声。
当用户处于D2D通信时,接收处在一个时隙里的信干噪比由下面表达式
Figure BDA0003636152980000091
式中ρsr和ρur是一个二进制变量,分别表示蜂窝通信的用户和其他用户与基站是否产生关联。Psr和Pu分别表示蜂窝通信用户和其他用户占的发射功率。hsr和hur分别表示蜂窝通信用户和其他用户的信道增益。Nr表示噪声。
当用户处于蜂窝通信时,用户到基站的传输速率由下面表达式给出:
Rsb=βWlog2(1+γsb)
式中βW表示蜂窝通信时占用的带宽。
当用户处于D2D通信时的传输速率由下面表达式给出:
Rsr=(1-β)Wlog2(1+γsr)
由于每个用户的功率由静态功率和动态功率组成,所以当用户处于不同通信模式时的总功率表达式如下:
PC=P0+ηPsb
PD=P0+ηPsr
式中PC和PD分别表示用户处于蜂窝通信和D2D通信时的总功率。P0表示用户的静态功率。η是一个比例因子。
优选的,本实施例采用一种基于有限码长隐蔽传输方案。考虑到被无人机所监视的用户的隐蔽性设计,假设无人机只监视一个用户,且所有用户传输的信息是一样的,则无人机在第t个时隙收到的信号为:
Figure BDA0003636152980000101
其中i∈1,2,3...L表示占用的信道,Psb和Psr分别表示处于蜂窝通信和D2D通信时的发射功率。hsw和huw表示用户到无人机之间的信道增益。xa(i)表示用户处发送的信息。nw(i)表示无人机接收处的噪声,
Figure BDA0003636152980000102
Figure BDA0003636152980000103
分别表示没有进行隐蔽传输和有进行隐蔽传输。式子中的第二项表示由于其他用户的通信而产生的干扰项。当处于
Figure BDA0003636152980000104
情况下时,无人机处接收信号的信噪比表示为:
Figure BDA0003636152980000105
令无人机处使用能量检测来监测隐蔽信号的传输,则无人机接收处判决没有发生隐蔽传输时表示为
Figure BDA0003636152980000106
判决有隐蔽传输时表示为
Figure BDA0003636152980000107
当用户处于蜂窝通信模式而无人机处判决为D2D通信模式称为虚警概率
Figure BDA0003636152980000108
当用户处于D2D通信模式而无人机判决为D2D通信模式成为漏警概率
Figure BDA0003636152980000109
检测错误概率为
Figure BDA00036361529800001010
为了确保用户处于D2D通信时的隐蔽性,ξ必须满足ξ≥1-∈,其中∈表示一个确定隐蔽性的任意小的常数。
在一般情况下总是以最小检测错误概率ξ*来监测隐蔽传输的存在,即满足ξ*≥1-∈。通过似然比检测给出了无人机处最小化的最优检测值如下:
Figure BDA0003636152980000111
其中
Figure BDA0003636152980000112
Figure BDA0003636152980000113
分别表示
Figure BDA0003636152980000114
Figure BDA0003636152980000115
情况下的似然函数,
Figure BDA0003636152980000116
Figure BDA0003636152980000117
的表达式如下:
Figure BDA0003636152980000118
Figure BDA0003636152980000119
其中
Figure BDA00036361529800001110
表示当被监视的用户处于D2D通信模式时无人机处的接收功率。根据KL散度得出了最小检测错误概率的下界,如下:
Figure BDA00036361529800001111
其中
Figure BDA00036361529800001112
表示
Figure BDA00036361529800001113
Figure BDA00036361529800001114
的KL散度,L表示信道个数,γw表示处于
Figure BDA00036361529800001115
情况下时,无人机处接收信号的信噪比。
由此得到的隐蔽约束条件表示为如下:
Figure BDA00036361529800001116
该条件能够确保
Figure BDA0003636152980000121
的条件得到满足,即满足隐蔽约束条件。
当用户处于D2D通信模式时,Dr处的接收信号表示为如下:
Figure BDA0003636152980000122
其中hsr表示D2D链路的信道增益,该式的第二项表示其他用户传输时的干扰,nr(i)表示无人机接收处的噪声,
Figure BDA0003636152980000123
则Dr处的信噪比表示为:
Figure BDA0003636152980000124
对于一个给定的传输速率R,其有效隐蔽传输吞吐量表示为η=LR(1-δ)。其中δ表示隐蔽传输的中断概率,L表示信道个数,表达式如下:
Figure BDA0003636152980000125
其中Q(·)是Q函数。
最终的优化问题的模型如下:
Figure BDA0003636152980000126
Figure BDA0003636152980000127
Figure BDA0003636152980000131
Rsb,Rsr≥Rmin
Figure BDA0003636152980000132
其中,
Figure BDA0003636152980000133
表示隐蔽传输速率,γ是一个折扣系数,用于减小未来时隙对当前时隙的影响。第一个约束条件表示D2D用户之间是否产生了关联。第二个约束条件表示用户的发射功率不能超过Pmax。第三个约束条件表示其他用户的传输速率不能小于限定的最低速率。第四个约束条件表示被监测用户处于蜂窝通信模式时要满足传输时的隐蔽性。
步骤S2:构造所需要解决的优化问题的马尔可夫决策过程(MDP)模型如下:
(1)在一个时隙里的状态空间表示为s=(ξ1,ξ2,…,ξM),其中ξM表示如下:
Figure BDA0003636152980000134
式中的ξm表示第m个用户的服务质量,它的大小由用户的传输速率和限制的最低传输速率决定。
(2)在一个时隙里的动作空间表示为a=(P1,P2,…,PM,β),其中β表示在t时隙分配给蜂窝通信的频段的比例,PM表示控制用户通信模式和功率分配的变量,其表达式如下:
Figure BDA0003636152980000141
在该表达式中,当Pm为负数时,选则D2D通信模式,并且将|Pm大小的功率分配给用户作为发射功率。
(3)在每一个时隙里的奖励为
Figure BDA0003636152980000142
表示隐蔽传输速率。
优选的,每个用户选则通信模式的过程如下:
在当前时隙每个用户将得到一个基于服务质量(ξm)的状态,并且由深度强化学习的方法选则动作(PM,β),进入下一个时隙,如此反复。通过多次的迭代,当神经网络训练好之后,就能在每个用户的的当前状态下选则最佳的动作以获得最佳的奖励回报来最大化隐蔽传输速率。
优选的,在本实施例中采用TD3的深度强化学习方法来处理MDP模型,如图2所示,TD3深度强化学习方法如下:
TD3的深度强化学习方法,是在深度确定性策略梯度(DDPG)的基础上提出,用于解决DDPG算法的高估问题。TD3拥有两个Q网络,通过选择最小目标Q来解决高估问题。在每次更新中,选择Q值较小的Q目标网络作为Q目标。TD3更新动作网络和目标网络的频率低于当前评论网络。这中频率较低的更新方式能使得值估计的方差较低,从而使当前评论网络变得更稳定。此外,还采用了目标策略平滑正则化。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (7)

1.一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统,其特征在于,包括随机分布的M个用户和N个基站;所述N个基站中包含1个宏基站和N-1个小基站,所有用户均能被宏基站所覆盖;所述M个用户分别配备了一根发射天线和一根接收天线,在蜂窝模式或者D2D模式下通信;所述M个用户中有J个用户处于蜂窝通信,K个用户处于D2D通信;所述M个用户的位置固定不变,个数为偶数,每两个用户组成一对进行D2D通信,每对D2D链路由发射者Dr和接收者Dt组成;还包括一无人机,对其中一对用户进行监测,并给定一个隐蔽传输速率R;当用户与基站进行通信时,采用最大信噪比的方式将用户与基站关联。
2.根据权利要求1所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统,其特征在于,将可用频段分成两部分,一部分分配给蜂窝通信,另一部分分配给D2D通信。
3.根据权利要求2所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法,其特征在于,包括以下步骤:
步骤S1:根据用户占用的频谱资源、使用的发射功率以及隐蔽性要求,构建所需要优化的目标模型;
步骤S2:构造马尔可夫决策过程模型,采用深度强化学习的方法,通过动态地选择用户的通信模式,最大化隐蔽传输速率。
4.根据权利要求3所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法,其特征在于,基于有限码长隐蔽传输,具体如下:
考虑到被无人机所监视的用户的隐蔽性设计,设无人机只监视一个用户,且所有用户传输的信息是一样的,则无人机在一个时隙里收到的信号为:
Figure FDA0003636152970000021
其中i∈1,2,3...L表示占用的信道,Psb和Psr分别表示处于蜂窝通信和D2D通信时的发射功率;hsw和huw表示用户到无人机之间的信道增益;xa(i)表示用户处发送的信息;nw(i)表示无人机接收处的噪声,
Figure FDA0003636152970000022
Figure FDA0003636152970000023
分别表示没有进行隐蔽传输和有进行隐蔽传输;式子中的第二项表示由于其他用户的通信而产生的干扰项;当处于
Figure FDA0003636152970000024
情况下时,无人机处接收信号的信噪比表示为:
Figure FDA0003636152970000025
令无人机处使用能量检测来监测隐蔽信号的传输,则无人机接收处判决没有发生隐蔽传输时表示为
Figure FDA0003636152970000026
判决有隐蔽传输时表示为
Figure FDA0003636152970000027
当用户处于蜂窝通信模式而无人机处判决为D2D通信模式称为虚警概率
Figure FDA0003636152970000028
当用户处于D2D通信模式而无人机判决为D2D通信模式成为漏警概率
Figure FDA0003636152970000031
检测错误概率为
Figure FDA0003636152970000032
Figure FDA0003636152970000033
ξ满足ξ≥1-∈,其中∈表示一个确定隐蔽性的任意小的常数;
通过似然比检测给出了无人机处最小化的最优检测值如下:
Figure FDA0003636152970000034
其中
Figure FDA0003636152970000035
Figure FDA0003636152970000036
分别表示
Figure FDA0003636152970000037
Figure FDA0003636152970000038
情况下的似然函数,
Figure FDA0003636152970000039
Figure FDA00036361529700000310
的表达式如下:
Figure FDA00036361529700000311
Figure FDA00036361529700000312
其中
Figure FDA00036361529700000313
表示当被监视的用户处于D2D通信模式时无人机处的接收功率;根据KL散度得出了最小检测错误概率的下界,如下:
Figure FDA00036361529700000314
其中
Figure FDA00036361529700000315
表示
Figure FDA00036361529700000316
Figure FDA00036361529700000317
的KL散度,L表示信道个数,γw表示处于
Figure FDA00036361529700000318
情况下时,无人机处接收信号的信噪比。
由此得到的隐蔽约束条件表示为如下:
Figure FDA00036361529700000319
该条件能够确保
Figure FDA00036361529700000320
的条件得到满足,即满足隐蔽约束条件;
当用户处于D2D通信模式时,Dr处的接收信号表示为如下:
Figure FDA0003636152970000041
其中hsr表示D2D链路的信道增益,该式的第二项表示其他用户传输时的干扰,nr(i)表示无人机接收处的噪声,
Figure FDA0003636152970000042
则Dr处的信噪比表示为:
Figure FDA0003636152970000043
对于一个给定的传输速率R,其有效隐蔽传输吞吐量表示为η=LR(1-δ)。其中δ表示隐蔽传输的中断概率,L表示信道个数,表达式如下:
Figure FDA0003636152970000044
其中Q(·)是Q函数。
5.根据权利要求3所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法,其特征在于,所述步骤S1中,构建的所需要优化的目标模型,具体如下:
Figure FDA0003636152970000045
Figure FDA0003636152970000046
Rsb,Rsr≥Rmin
Figure FDA0003636152970000051
其中,
Figure FDA0003636152970000052
表示隐蔽传输速率,γ是一个折扣系数;第一个约束条件表示D2D用户之间是否产生了关联;第二个约束条件表示用户的发射功率不能超过Pmax;第三个约束条件表示其他用户的传输速率不能小于限定的最低速率;第四个约束条件表示被监测用户处于蜂窝通信模式时要满足传输时的隐蔽性。
6.根据权利要求3所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法,其特征在于,所述马尔可夫决策过程模型通过一个4元组
Figure FDA0003636152970000053
来描述这个问题,其中
Figure FDA0003636152970000054
是状态空间,
Figure FDA0003636152970000055
是动作空间,
Figure FDA0003636152970000056
是状态转移概率,
Figure FDA0003636152970000057
是奖励函数;
将每个用户作为能够执行通信模式选则的智能体,定义智能体的状态、动作和奖励如下:
(1)在一个时隙里的状态空间表示为s=(ξ1,ξ2,…,ξM),其中ξM表示如下:
Figure FDA0003636152970000058
式中的ξm表示第m个用户的服务质量;
(2)在每个时隙里的动作空间表示为a=(P1,P2,…,PM,β),其中β表示在t时隙分配给蜂窝通信的频段的比例,PM表示控制用户通信模式和功率分配的变量,其表达式如下:
Figure FDA0003636152970000061
在该表达式中,当Pm为负数时,选则D2D通信模式,并且将|Pm|大小的功率分配给用户作为发射功率;
(3)在一个时隙里的奖励为
Figure FDA0003636152970000062
表示隐蔽传输速率。
7.根据权利要求3所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法,其特征在于,所述深度强化学习的方法采用TD3的深度强化学习方法。
CN202210502957.0A 2022-05-10 2022-05-10 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统 Active CN114900827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210502957.0A CN114900827B (zh) 2022-05-10 2022-05-10 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210502957.0A CN114900827B (zh) 2022-05-10 2022-05-10 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统

Publications (2)

Publication Number Publication Date
CN114900827A true CN114900827A (zh) 2022-08-12
CN114900827B CN114900827B (zh) 2024-05-31

Family

ID=82721079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210502957.0A Active CN114900827B (zh) 2022-05-10 2022-05-10 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统

Country Status (1)

Country Link
CN (1) CN114900827B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117220848A (zh) * 2023-10-09 2023-12-12 昆明学院 一种d2d的隐蔽通信系统及其最大化隐蔽速率的优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
US20200125978A1 (en) * 2018-10-22 2020-04-23 General Electric Company Detection and protection against mode switching attacks in cyber-physical systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125978A1 (en) * 2018-10-22 2020-04-23 General Electric Company Detection and protection against mode switching attacks in cyber-physical systems
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGWEI LI 等: "Achieving Adaptive Linkability for Cellular V2X Group Communications in 5G", 《2018 IEEE GLOBAL COMMUNICATIONS CONFERENCE (GLOBECOM)》, 31 December 2018 (2018-12-31) *
汪亮;王文;王禹又;侯松林;乔裕哲;吴天珩;陶先平;: "强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究", 中国科学:信息科学, no. 03 *
胡锦松 等: "无人机中继协助的有限码长隐蔽通信", 《电子与信息学报》, 15 March 2022 (2022-03-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117220848A (zh) * 2023-10-09 2023-12-12 昆明学院 一种d2d的隐蔽通信系统及其最大化隐蔽速率的优化方法

Also Published As

Publication number Publication date
CN114900827B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
Zhang et al. Beyond D2D: Full dimension UAV-to-everything communications in 6G
EP2659707B1 (en) Optimal interference estimation and scheduling in a multi-hop wireless network with centralized control
CN112995951A (zh) 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
Leng et al. Age of information minimization for wireless ad hoc networks: A deep reinforcement learning approach
CN115441939B (zh) 基于maddpg算法的多波束卫星通信系统资源分配方法
Huang et al. Q-learning-based spectrum access for multimedia transmission over cognitive radio networks
CN114900827B (zh) 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统
EP2250850B1 (en) Channel selection in an ad hoc wireless network
Cao et al. Multi-tier collaborative deep reinforcement learning for non-terrestrial network empowered vehicular connections
CN113365288A (zh) 一种基于SWIPT的NB-IoT系统上行链路资源分配法
Chaalal et al. A social spider optimisation algorithm for 3D unmanned aerial base stations placement
Gong et al. Distributed DRL-based resource allocation for multicast D2D communications
Dimas et al. Q-learning based predictive relay selection for optimal relay beamforming
CN116133081A (zh) 单uav异构网络中的联合中继选择及noma信道、功率分配算法
CN116505998A (zh) 基于深度强化学习的多波束卫星通信资源分配系统及方法
Huang et al. A deep Q-network approach to optimize spatial reuse in WiFi networks
Zheng et al. NSATC: An interference aware framework for multi-cell NOMA TUAV airborne provisioning
Xin et al. Deep learning based MAC via joint channel access and rate adaptation
Huang et al. A Hierarchical Deep Learning Approach for Optimizing CCA Threshold and Transmit Power in Wi-Fi Networks
Herrería-Alonso et al. Improving Uplink Scalability of LoRa-Based Direct-to-Satellite IoT Networks
Abdullah et al. Hybrid optimization based on spectrum aware opportunistic routing for cognitive radio ad hoc networks
CN117320083B (zh) 一种基于规模无关强化学习的多无人机通信资源分配方法
Park et al. Double deep q-learning based backhaul spectrum allocation in integrated access and backhaul network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant