CN114900827A

CN114900827A - 基于深度强化学习在d2d异构蜂窝网络中的隐蔽通信系统

Info

Publication number: CN114900827A
Application number: CN202210502957.0A
Authority: CN
Inventors: 胡锦松; 李鸿炜; 陈由甲; 魏宏安; 房颖; 赵铁松
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-12
Anticipated expiration: 2042-05-10
Also published as: CN114900827B

Abstract

本发明涉及一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统，包括随机分布的M个用户和N个基站；所述N个基站中包含1个宏基站和N‑1个小基站；所述M个用户分别配备了发射天线和接收天线，在蜂窝模式或者D2D模式下通信；所述M个用户的位置固定不变，个数为偶数，每两个用户组成一对进行D2D通信，每对D2D链路由发射者Dr和接收者Dt组成；还包括一无人机，对其中一对用户进行监测，并给定一个隐蔽传输速率R；当用户与基站进行通信时，采用最大信噪比的方式将用户与基站关联。本发明能够通过采用深度强化学习的方法让用户进行不同通信模式的选则以及功率分配，从而最大化隐蔽传输速率。

Description

基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统。

背景技术

D2D(Device to Device)通信是指两个距离较近用户节点之间直接通信的一种通信方式。在D2D通信网络中，每个用户节点都能发送和接收信号。网络的参与者共享所拥有的一部分硬件资源以及频谱资源。这些共享资源向D2D网络提供服务，能被其它用户直接访问而不需要经过中间实体。在D2D通信网络中，用户节点同时扮演服务器和客户端的角色，能够意识到彼此的存在，自组织地构成一个虚拟或者实际的群体。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统，能够通过采用深度强化学习的方法让用户进行不同通信模式的选则以及功率分配，从而最大化隐蔽传输速率。

为实现上述目的，本发明采用如下技术方案：

一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统，包括随机分布的M个用户和N个基站；所述N个基站中包含1个宏基站和N-1个小基站，所有用户均能被宏基站所覆盖；所述M个用户分别配备了一根发射天线和一根接收天线，在蜂窝模式或者D2D模式下通信；所述M个用户中有J个用户处于蜂窝通信，K个用户处于D2D通信；所述M个用户的位置固定不变，个数为偶数，每两个用户组成一对进行D2D通信，每对D2D链路由发射者Dr和接收者Dt组成；还包括一无人机，对其中一对用户进行监测，并给定一个隐蔽传输速率R；当用户与基站进行通信时，采用最大信噪比的方式将用户与基站关联。

进一步的，将可用频段分成两部分，一部分分配给蜂窝通信，另一部分分配给D2D通信。

一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法，包括以下步骤：

步骤S1:根据用户占用的频谱资源、使用的发射功率以及隐蔽性要求，构建所需要优化的目标模型；

步骤S2:构造马尔可夫决策过程模型，采用深度强化学习的方法，通过动态地选择用户的通信模式，最大化隐蔽传输速率。

进一步的，基于有限码长隐蔽传输，具体如下：

考虑到被无人机所监视的用户的隐蔽性设计，设无人机只监视一个用户，且所有用户传输的信息是一样的，则无人机在一个时隙里收到的信号为：

其中i∈1，2，3...L表示占用的信道，P_sb和P_sr分别表示处于蜂窝通信和D2D通信时的发射功率；h_sw和h_uw表示用户到无人机之间的信道增益；x_a(i)表示用户处发送的信息；n_w(i)表示无人机接收处的噪声，

和

分别表示没有进行隐蔽传输和有进行隐蔽传输；式子中的第二项表示由于其他用户的通信而产生的干扰项；当处于

情况下时，无人机处接收信号的信噪比表示为：

令无人机处使用能量检测来监测隐蔽信号的传输，则无人机接收处判决没有发生隐蔽传输时表示为

判决有隐蔽传输时表示为

当用户处于蜂窝通信模式而无人机处判决为D2D通信模式称为虚警概率

当用户处于D2D通信模式而无人机判决为D2D通信模式成为漏警概率

检测错误概率为

ξ满足ξ≥1-∈，其中∈表示一个确定隐蔽性的任意小的常数；

通过似然比检测给出了无人机处最小化的最优检测值如下：

其中

和

分别表示

和

情况下的似然函数，

和

的表达式如下:

其中

表示当被监视的用户处于D2D通信模式时无人机处的接收功率；根据KL散度得出了最小检测错误概率的下界，如下：

其中

表示

到

的KL散度，L表示信道个数，γ_w表示处于

情况下时，无人机处接收信号的信噪比。

由此得到的隐蔽约束条件表示为如下：

该条件能够确保

的条件得到满足，即满足隐蔽约束条件；

当用户处于D2D通信模式时，Dr处的接收信号表示为如下：

其中h_sr表示D2D链路的信道增益，该式的第二项表示其他用户传输时的干扰，n_r(i)表示无人机接收处的噪声，

则Dr处的信噪比表示为：

对于一个给定的传输速率R，其有效隐蔽传输吞吐量表示为η＝LR(1-δ)。其中δ表示隐蔽传输的中断概率，L表示信道个数，表达式如下：

其中Q(·)是Q函数。

进一步的，所述步骤S1中，构建的所需要优化的目标模型，具体如下：

R_sb，R_sr≥R_min

其中，

表示隐蔽传输速率，γ是一个折扣系数；第一个约束条件表示D2D用户之间是否产生了关联；第二个约束条件表示用户的发射功率不能超过P_max；第三个约束条件表示其他用户的传输速率不能小于限定的最低速率；第四个约束条件表示被监测用户处于蜂窝通信模式时要满足传输时的隐蔽性。

进一步的，所述马尔可夫决策过程模型通过一个4元组

来描述这个问题，其中

是状态空间，

是动作空间，

是状态转移概率，

是奖励函数；

将每个用户作为能够执行通信模式选则的智能体，定义智能体的状态、动作和奖励如下：

(1)在一个时隙里的状态空间表示为s＝(ξ₁，ξ₂，…，ξ_M)，其中ξ_M表示如下:

式中的ξ_m表示第m个用户的服务质量；

(2)在每个时隙里的动作空间表示为a＝(P₁，P₂，…，P_M，β)，其中β表示在t时隙分配给蜂窝通信的频段的比例，P_M表示控制用户通信模式和功率分配的变量，其表达式如下：

在该表达式中，当P_m为负数时，选则D2D通信模式，并且将|P_m大小的功率分配给用户作为发射功率；

(3)在一个时隙里的奖励为

表示隐蔽传输速率。

进一步的，所述深度强化学习的方法采用TD3的深度强化学习方法。

本发明与现有技术相比具有以下有益效果：

本发明能够通过采用深度强化学习的方法让用户进行不同通信模式的选则以及功率分配，从而最大化隐蔽传输速率

附图说明

图1是本发明系统结构示意图；

图2是本发明一实施例中基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信方法网络结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统，包括在一个指定区域(1km×1km)内分布着的M个用户和N个基站，N个基站中包含了1个宏基站和N-1个小基站。每个用户分别配备了一根发射天线和一根接收天线，可以在蜂窝模式或者D2D模式下通信，M个用户中有J个用户处于蜂窝通信，K个用户处于D2D通信。假设用户的位置固定不变，将用户的个数设置为偶数，每两个距离较近的用户组成一对进行D2D通信，每对D2D链路由发射者Dr和接收者Dt组成。考虑用户在D2D模式下的通信为隐蔽通信，空中有一架无人机充当监测者，只对其中一对用户进行监测，并给定一个隐蔽传输速率R。当用户与基站进行通信时，采用最大信噪比的方式将用户与基站关联。由于蜂窝通信和D2D通信之间存在相互的干扰，在本发明中将可用频段分成两部分，一部分分配给蜂窝通信，另一部分分配给D2D通信。通过深度强化学习的方法，最大化隐蔽传输速率。当用户与宏基站进行通信时，路径损耗设置为128.1+37.6log10d，d为它们之间的距离，其单位为km。当用户与小基站进行通信时，路径损耗设置为140.7+36.7log10d。当用户采用D2D通信模式时路径损耗设置为148+40log10d。噪声功率为175dBm。限制的最低传输速率为1Mbps。每个用户的静态功率为0.1W。

具体的通信方法如下：

步骤S1:根据用户发射信号的数学表达式以及所分配的频谱资源和能量以及确保被无人机所监视的那对用户处于D2D通信时的隐蔽性，构建所需要优化的目标如下：

当用户处于蜂窝通信模式时，接收端在每个时隙的信干噪比由下面表达式出：

式中ρ_sb和P_u是一个二进制变量，分别表示蜂窝通信的用户和其他用户与基站是否产生关联。P_sb和P_u分别表示蜂窝通信用户和其他用户的发射功率。h_sb和h_ub分别表示蜂窝通信用户和其他用户的信道增益。N_b表示噪声。

当用户处于D2D通信时，接收处在一个时隙里的信干噪比由下面表达式

式中ρ_sr和ρ_ur是一个二进制变量，分别表示蜂窝通信的用户和其他用户与基站是否产生关联。P_sr和P_u分别表示蜂窝通信用户和其他用户占的发射功率。h_sr和h_ur分别表示蜂窝通信用户和其他用户的信道增益。N_r表示噪声。

当用户处于蜂窝通信时，用户到基站的传输速率由下面表达式给出：

R_sb＝βWlog₂(1+γ_sb)

式中βW表示蜂窝通信时占用的带宽。

当用户处于D2D通信时的传输速率由下面表达式给出：

R_sr＝(1-β)Wlog₂(1+γ_sr)

由于每个用户的功率由静态功率和动态功率组成，所以当用户处于不同通信模式时的总功率表达式如下：

P_C＝P₀+ηP_sb

P_D＝P₀+ηP_sr

式中P_C和P_D分别表示用户处于蜂窝通信和D2D通信时的总功率。P₀表示用户的静态功率。η是一个比例因子。

优选的，本实施例采用一种基于有限码长隐蔽传输方案。考虑到被无人机所监视的用户的隐蔽性设计，假设无人机只监视一个用户，且所有用户传输的信息是一样的，则无人机在第t个时隙收到的信号为：

其中i∈1，2，3...L表示占用的信道，P_sb和P_sr分别表示处于蜂窝通信和D2D通信时的发射功率。h_sw和h_uw表示用户到无人机之间的信道增益。x_a(i)表示用户处发送的信息。n_w(i)表示无人机接收处的噪声，

和

分别表示没有进行隐蔽传输和有进行隐蔽传输。式子中的第二项表示由于其他用户的通信而产生的干扰项。当处于

情况下时，无人机处接收信号的信噪比表示为：

判决有隐蔽传输时表示为

检测错误概率为

为了确保用户处于D2D通信时的隐蔽性，ξ必须满足ξ≥1-∈，其中∈表示一个确定隐蔽性的任意小的常数。

在一般情况下总是以最小检测错误概率ξ^*来监测隐蔽传输的存在，即满足ξ^*≥1-∈。通过似然比检测给出了无人机处最小化的最优检测值如下：

其中

和

分别表示

和

情况下的似然函数，

和

的表达式如下:

其中

表示当被监视的用户处于D2D通信模式时无人机处的接收功率。根据KL散度得出了最小检测错误概率的下界，如下：

其中

表示

到

的KL散度，L表示信道个数，γ_w表示处于

情况下时，无人机处接收信号的信噪比。

由此得到的隐蔽约束条件表示为如下：

该条件能够确保

的条件得到满足，即满足隐蔽约束条件。

当用户处于D2D通信模式时，Dr处的接收信号表示为如下：

则Dr处的信噪比表示为：

其中Q(·)是Q函数。

最终的优化问题的模型如下：

R_sb，R_sr≥R_min

其中，

表示隐蔽传输速率，γ是一个折扣系数，用于减小未来时隙对当前时隙的影响。第一个约束条件表示D2D用户之间是否产生了关联。第二个约束条件表示用户的发射功率不能超过P_max。第三个约束条件表示其他用户的传输速率不能小于限定的最低速率。第四个约束条件表示被监测用户处于蜂窝通信模式时要满足传输时的隐蔽性。

步骤S2:构造所需要解决的优化问题的马尔可夫决策过程(MDP)模型如下：

式中的ξ_m表示第m个用户的服务质量，它的大小由用户的传输速率和限制的最低传输速率决定。

(2)在一个时隙里的动作空间表示为a＝(P₁，P₂，…，P_M，β)，其中β表示在t时隙分配给蜂窝通信的频段的比例，P_M表示控制用户通信模式和功率分配的变量，其表达式如下：

在该表达式中，当P_m为负数时，选则D2D通信模式，并且将|P_m大小的功率分配给用户作为发射功率。

(3)在每一个时隙里的奖励为

表示隐蔽传输速率。

优选的，每个用户选则通信模式的过程如下：

在当前时隙每个用户将得到一个基于服务质量(ξ_m)的状态，并且由深度强化学习的方法选则动作(P_M，β)，进入下一个时隙，如此反复。通过多次的迭代,当神经网络训练好之后，就能在每个用户的的当前状态下选则最佳的动作以获得最佳的奖励回报来最大化隐蔽传输速率。

优选的，在本实施例中采用TD3的深度强化学习方法来处理MDP模型，如图2所示，TD3深度强化学习方法如下：

TD3的深度强化学习方法，是在深度确定性策略梯度(DDPG)的基础上提出，用于解决DDPG算法的高估问题。TD3拥有两个Q网络，通过选择最小目标Q来解决高估问题。在每次更新中，选择Q值较小的Q目标网络作为Q目标。TD3更新动作网络和目标网络的频率低于当前评论网络。这中频率较低的更新方式能使得值估计的方差较低，从而使当前评论网络变得更稳定。此外，还采用了目标策略平滑正则化。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统，其特征在于，包括随机分布的M个用户和N个基站；所述N个基站中包含1个宏基站和N-1个小基站，所有用户均能被宏基站所覆盖；所述M个用户分别配备了一根发射天线和一根接收天线，在蜂窝模式或者D2D模式下通信；所述M个用户中有J个用户处于蜂窝通信，K个用户处于D2D通信；所述M个用户的位置固定不变，个数为偶数，每两个用户组成一对进行D2D通信，每对D2D链路由发射者Dr和接收者Dt组成；还包括一无人机，对其中一对用户进行监测，并给定一个隐蔽传输速率R；当用户与基站进行通信时，采用最大信噪比的方式将用户与基站关联。

2.根据权利要求1所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统，其特征在于，将可用频段分成两部分，一部分分配给蜂窝通信，另一部分分配给D2D通信。

3.根据权利要求2所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的基于深度强化学习在D2D异构蜂窝网络中的隐蔽通信系统的通信方法，其特征在于，基于有限码长隐蔽传输，具体如下：