CN108834109B

CN108834109B - 全双工主动窃听下基于q学习的d2d协同中继功率控制方法

Info

Publication number: CN108834109B
Application number: CN201810415644.5A
Authority: CN
Inventors: 王金龙; 罗屹洁; 程云鹏; 杨旸; 崔丽; 郑学强
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2021-03-19
Anticipated expiration: 2038-05-03
Also published as: CN108834109A

Abstract

本发明提供一种全双工窃听下基于Q学习的D2D协同中继功率控制方法，在蜂窝系统中存在全双工主动窃听者的情况下，采用基于Q学习的分层学习算法，先后更新主动窃听者的干扰功率和D2D协同中继和友好干扰的发射功率，从而提升蜂窝系统的物理层安全性能。

Description

全双工主动窃听下基于Q学习的D2D协同中继功率控制方法

技术领域

本发明涉及一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，具体是一种采用基于Q学习的D2D协同中继功率更新策略来提升蜂窝网络物理层安全性能的方法，属于无线通信中的功率控制技术领域。

背景技术

根据信息论理论，当合法收发信机之间的信道增益优于合法发射机到窃听者之间的信道增益时，可以完美地保证发送信息的安全性，而不会被窃听者截获并译码获知。这是保证信息物理层安全性能的基本前提，也是提升物理层安全的方向，很多技术包括多天线、协同中继、人工干扰等都是通过提升合法用户的传输速率或者降低窃听者的窃听速率来达到提升安全速率的目的。

对于蜂窝移动通信，其中的D2D通信既可以作为协同中继提升蜂窝用户的传输速率，或者作为友好干扰来恶化窃听信道的信道增益，因此采用D2D协同的方法来提升蜂窝网络的物理层安全性能具有与生俱来的优势。同时，在保证蜂窝用户物理层安全性能的同时，还能兼顾D2D用户的通信需要。

考虑到系统中存在的主动窃听者不再像传统的被动窃听者只是静默地窃听合法用户发送的信息，而是既可以被动窃听又能智能调节发射功率进行干扰的全双工主动窃听者，其带来的攻击性和破坏性更大。如果采用全双工的D2D用户进行协同中继可以最大程度地提升蜂窝用户的物理层安全性能，但是就无法实现D2D自身数据的传输，因此联合采用D2D协同中继和友好干扰的模式能最大地兼顾蜂窝用户的物理层安全性能和D2D用户的传输需求。

发明内容

本发明的目的是针对蜂窝网络中存在能够同时被动窃听和主动干扰的智能攻击者的情况下，提出了一种基于Q学习的D2D协同中继功率控制方法，在多个D2D用户和主动窃听者之间建立多个领导者-一个追随者的斯坦伯格博弈模型，并通过分层Q学习的算法获得稳定的D2D协同中继功率选择策略。

本发明的技术方案是：

本发明提供一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，该方法包括以下步骤：

1)初始化系统参数；

2)外层循环迭代次数加1：k＝k+1；

3)在第k次循环中，第i个D2D用户根据其功率选择概率q_il从传输功率值的集合

中选择其协同中继和友好干扰的传输功率值P_il；

4)内层迭代次数加1：t＝t+1；

5)在第t次迭代中，主动窃听者根据其功率选择概率q_Am从离散功率值集合

中选择其主动干扰功率值P_Am；

6)计算第t次迭代中主动窃听者的平均效用函数

7)主动攻击者更新其Q值和功率选择概率q_A,m(t+1)；

8)内部循环进行，直到主动攻击者的功率选择概率满足收敛条件；

9)在外部循环中，D2D用户计算其第k次迭代中效用函数

10)每个D2D用户更新其Q值和功率选择概率q_i,l(k+1)

11)转向步骤3)，直到每个D2D用户的功率选择概率满足收敛条件，循环结束。

进一步地，步骤1)具体为：初始化系统参数：内层迭代次数t＝0,外层循环迭代次数k＝0,以及D2D用户和主动窃听者的Q值；

并且令

q_il表示第i个D2D用户选择离散功率集中的第l个传输功率值的概率，其中，i表示D2D用户的编号，

表示D2D用户的集合，l表示D2D用户可选的传输功率值的编号，

表示每个D2D用户可选的传输功率值的集合，表示为：

其中a_i表示第i个D2D用户的策略选择，P_il表示第i个D2D用户选择第l个传输功率值；L表示D2D用户可选的传输功率值的总数；

令

q_Am表示全双工主动窃听者选择第m个干扰功率值的概率，其中，m表示主动窃听者可选的干扰功率值的编号，M表示主动窃听者可选的干扰功率值的总数，

表示主动窃听者可选的所有干扰功率值的集合，表示为

其中a_A表示主动窃听者的策略选择，P_Am表示主动窃听者选择第m个传输功率值。

进一步地，步骤3)具体为：

a)计算蜂窝用户的数据传输速率R_C

其中

表示从基站到蜂窝用户直连链路上的信干噪比SINR，并且

表示第i个D2D用户在两阶段中继链路上的信干噪比，

P_B、P_A、P_i、P_j表示基站、主动窃听者第i个和第j个D2D用户的发射功率，N₀表示背景的加性高斯白噪声，α表示D2D用户的自干扰系数。基站和蜂窝用户之间的信道增益用h_BC表示，基站和第i个D2D用户之间的信道增益用h_Bi表示，第i个D2D用户与蜂窝用户之间的信道增益用h_iC表示，以及第i个D2D发射机到第j个D2D接收机之间的信道增益用h_ij表示，主动窃听者到第i个D2D用户以及蜂窝用户的信道增益分别用h_Ai，h_AC表示，h_ii表示第i个D2D用户的发射天线到自身接收天线的信道增益；

b)计算全双工主动窃听者的窃听速率R_A

其中

表示从基站到窃听者之间的直连窃听信道上的信干噪比，

为主动窃听者窃听的第i个D2D用户中继链路上的信干噪比，其中

公式中的β表示主动窃听者的自干扰系数，h_Ai＝h_iA，h_iA表示第i个D2D用户到主动窃听者的信道增益，h_ji＝h_ij表示D2D收发信机之间的信道增益，并且从主动窃听者发射天线到接收天线的自干扰信道增益用h_AA表示，从基站到窃听者之间的信道增益用h_BA表示。

c)计算蜂窝系统总的安全可达速率R_s

R_s＝[R_C-R_A]⁺ (3)

其中[x]⁺＝max(0,x)；

d)计算蜂窝用户的效用函数U_i和主动窃听者的效用函数U_A；

蜂窝用户的效用函数U_i表示为蜂窝系统的安全可达速率R_s和D2D协同中继的功率消耗代价λ_iP_i之间的折中，其中λ_i表示第i个D2D用户的单位功率代价因子，主动窃听者的效用函数U_A表示为窃听速率与主动窃听者干扰功率消耗代价λ_AP_A的折中，其中λ_A表示主动窃听者的单位功率代价因子；

U_i＝R_s-λ_iP_i (4)

U_A＝R_A-λ_AP_A (5)

e)构建D2D用户和主动窃听者之间的博弈模型

其中：博弈的参与者是N个D2D用户和一个主动窃听者，

表示所有的D2D用户的集合，A表示主动窃听者；博弈的策略空间为

其中

表示每个D2D用户可选的传输功率值的集合，

表示主动窃听者可选的所有干扰功率值的集合；博弈的效用函数为{U_i,U_A}，该博弈模型中的参与者为多个D2D用户和一个主动窃听者，其中多个D2D用户为领导者，而主动窃听者为跟随者，他们采用的策略分别为不同离散功率值的选择，从而构成具有分层结构的斯坦伯格博弈模型，D2D用户和主动窃听者通过下式来选择各自的功率策略

其中a_i表示第i个D2D用户的策略选择，a_-i表示除了第i个D2D用户其他的D2D用户的策略选择，

表示所有D2D用户的策略选择，而a_A表示主动窃听者的策略选择；

f)D2D用户和主动窃听者的策略选择概率

在构建的博弈模型下，考虑D2D用户和主动窃听者的平均效用函数最大化，其中

其中q_i＝[q_i1,q_i2,...,q_iL]表示第i个D2D用户传输功率选择的概率向量，

表示所有的D2D用户的功率选择概率向量的组合，q_A＝[q_A1,q_A2,...,q_AM]表示主动窃听者干扰功率选择的概率向量。

进一步地，步骤6)中，根据公式(10)，计算第t次迭代中主动窃听者的平均效用函数

进一步地，步骤7)中，主动攻击者根据下式来更新其Q值和功率选择概率

其中

表示主动窃听者的学习速率，τ₀∈(0,1)是一个常数，控制Q学习中的开发和探索(exploration-exploitation.)之间的折中。

进一步地，步骤8)中，收敛条件为：

进一步地，步骤9)中，根据公式(9)，D2D用户计算其第k次迭代中效用函数

进一步地，步骤10)中，每个D2D用户根据下式更新其Q值和功率选择概率

其中，

是第i个D2D用户的学习速率。

进一步地，步骤11)中，收敛条件为：

ε＝10^-5。

本发明的有益效果：

本发明本发明针对蜂窝网络中存在全双工主动窃听者攻击的情况，提出了一种基于Q学习的D2D协同中继功率控制方法，在提升蜂窝网络物理层安全性能的同时，兼顾D2D用户数据传输的需要，同时考虑了D2D用户和全双工主动窃听者自干扰对系统总的安全可达速率的影响。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1是D2D离散功率控制系统模型的总体框图。

图2是主动窃听者干扰功率选择概率收敛曲线。

图3是第一个D2D用户中继概率选择概率收敛曲线。

图4是第二个D2D用户中继概率选择概率收敛曲线。

图5是蜂窝系统总的安全可达速率随着D2D自干扰系数变化在不同算法下的比较曲线。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，该方法包括以下步骤：

1)初始化系统参数：内层迭代次数t＝0,外层循环迭代次数k＝0,以及D2D用户和主动窃听者的Q值；

并且令

表示D2D用户的集合，l表示D2D用户可选的传输功率值的编号，

表示每个D2D用户可选的传输功率值的集合，表示为：

令

表示主动窃听者可选的所有干扰功率值的集合，表示为

其中a_A表示主动窃听者的策略选择，P_Am表示主动窃听者选择第m个传输功率值；

2)外层循环迭代次数加1：k＝k+1

中选择其协同中继和友好干扰的传输功率值P_il，

具体操作如下：

a)计算蜂窝用户的数据传输速率R_C

其中

表示从基站到蜂窝用户直连链路上的信干噪比SINR，并且

表示第i个D2D用户在两阶段中继链路上的信干噪比，

b)计算全双工主动窃听者的窃听速率R_A

其中

表示从基站到窃听者之间的直连窃听信道上的信干噪比，

公式中的β表示主动窃听者的自干扰系数，

h_Ai＝h_iA，h_iA表示第i个D2D用户到主动窃听者的信道增益，h_ji＝h_ij表示D2D收发信机之间的信道增益，并且从主动窃听者发射天线到接收天线的自干扰信道增益用h_AA表示，从基站到窃听者之间的信道增益用h_BA表示。

c)计算蜂窝系统总的安全可达速率R_s

R_s＝[R_C-R_A]⁺ (3)

其中[x]⁺＝max(0,x)；

d)计算蜂窝用户的效用函数U_i和主动窃听者的效用函数U_A；

U_i＝R_s-λ_iP_i (4)

U_A＝R_A-λ_AP_A (5)

e)构建D2D用户和主动窃听者之间的博弈模型

其中：博弈的参与者是N个D2D用户和一个主动窃听者，

其中

表示每个D2D用户可选的传输功率值的集合，

表示所有D2D用户的策略选择，而aA表示主动窃听者的策略选择；

f)D2D用户和主动窃听者的策略选择概率

表示所有的D2D用户的功率选择概率向量的组合，q_A＝[q_A1,q_A2,...,q_AM]表示主动窃听者干扰功率选择的概率向量；

4)内层迭代次数加1：t＝t+1；

中选择其主动干扰功率值P_Am；

6)根据公式(10)，计算第t次迭代中主动窃听者的平均效用函数

7)主动攻击者根据下式来更新其Q值和功率选择概率

其中

表示主动窃听者的学习速率，τ₀∈(0,1)是一个常数，控制Q学习中的开发和探索(exploration-exploitation.)之间的折中；

8)内部循环进行，直到收敛条件

满足

9)在外部循环中，根据公式(9)，D2D用户计算其第k次迭代中效用函数

10)每个D2D用户根据下式更新其Q值和功率选择概率

其中

是第i个D2D用户的学习速率；

11)转向步骤3)，直到收敛条件

满足，循环结束。

图2-图5是本发明的仿真曲线。其中图2-图4是一次仿真中主动窃听者和两个D2D用户干扰功率和中继功率概率选择的收敛曲线。从图中可以看出，在本发明提出的基于Q学习的离散功率选择算法下，D2D中继功率选择的概率向量和主动窃听者采用不同干扰功率的概率在70次左右达到收敛，收敛速度较快。图5是仿真结果为10⁵次独立实验的平均值，是本发明多次仿真中蜂窝网络总的安全可达速率在本文提出的基于Q学习的离散功率控制算法(QDPCA)与基于随机选择算法(RSA)下随着D2D用户自干扰系数的比较曲线。从图5中可以看出，本发明提出的基于Q学习的D2D中继功率控制算法都优于基于随机选择的功率控制算法，并且安全可达速率都随着D2D用户自干扰系数的增大而减小，这是因为D2D用户自干扰的增大会减小中继所带来的通信增益，从而进一步减小蜂窝系统的安全可达速率。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，该方法包括以下步骤：

1)初始化系统参数；

2)外层循环迭代次数加1：k＝k+1；

3)在第k次循环中，第i个D2D用户根据其功率选择概率q_il从传输功率值的集合L中选择其协同中继和友好干扰的传输功率值P_il；

4)内层迭代次数加1：t＝t+1；

5)在第t次迭代中，主动窃听者根据其功率选择概率q_Am从离散功率值集合M中选择其主动干扰功率值P_Am；

6)计算第t次迭代中主动窃听者的平均效用函数

7)主动攻击者更新其Q值和功率选择概率q_A,m(t+1)；

9)在外部循环中，D2D用户计算其第k次迭代中效用函数

10)每个D2D用户更新其Q值和功率选择概率q_i,l(k+1)

11)转向步骤3)，直到每个D2D用户的功率选择概率满足收敛条件，循环结束；

步骤3)具体为：

a)计算蜂窝用户的数据传输速率R_C

其中

表示从基站到蜂窝用户直连链路上的信干噪比SINR，并且

表示第i个D2D用户在两阶段中继链路上的信干噪比，

P_B、P_A、P_i、P_j表示基站、主动窃听者、第i个和第j个D2D用户的发射功率，N₀表示背景的加性高斯白噪声，α表示D2D用户的自干扰系数；基站和蜂窝用户之间的信道增益用h_BC表示，基站和第i个D2D用户之间的信道增益用h_Bi表示，第i个D2D用户与蜂窝用户之间的信道增益用h_iC表示，以及第i个D2D发射机到第j个D2D接收机之间的信道增益用h_ij表示，主动窃听者到第i个D2D用户以及蜂窝用户的信道增益分别用h_Ai，h_AC表示，h_ii表示第i个D2D用户的发射天线到自身接收天线的信道增益；

b)计算全双工主动窃听者的窃听速率R_A

其中

表示从基站到窃听者之间的直连窃听信道上的信干噪比，

公式中的β表示主动窃听者的自干扰系数，h_Ai＝h_iA，h_iA表示第i个D2D用户到主动窃听者的信道增益，h_ji＝h_ij表示D2D收发信机之间的信道增益，并且从主动窃听者发射天线到接收天线的自干扰信道增益用h_AA表示，从基站到窃听者之间的信道增益用h_BA表示；

c)计算蜂窝系统总的安全可达速率R_s

R_s＝[R_C-R_A]⁺ (3)

其中[x]⁺＝max(0,x)；

d)计算蜂窝用户的效用函数U_i和主动窃听者的效用函数U_A；

U_i＝R_s-λ_iP_i (4)

U_A＝R_A-λ_AP_A (5)

e)构建D2D用户和主动窃听者之间的博弈模型

G_s:＝{{N,A},{L,M},{U_i,U_A}} (6)

其中：博弈的参与者是N个D2D用户和一个主动窃听者，N表示所有的D2D用户的集合，A表示主动窃听者；博弈的策略空间为{L,M}，其中L表示每个D2D用户可选的传输功率值的集合，M表示主动窃听者可选的所有干扰功率值的集合；博弈的效用函数为{U_i,U_A}，该博弈模型中的参与者为多个D2D用户和一个主动窃听者，其中多个D2D用户为领导者，而主动窃听者为跟随者，他们采用的策略分别为不同离散功率值的选择，从而构成具有分层结构的斯坦伯格博弈模型，D2D用户和主动窃听者通过下式来选择各自的功率策略

其中a_i表示第i个D2D用户的策略选择，a_-i表示除了第i个D2D用户其他的D2D用户的策略选择，a_N表示所有D2D用户的策略选择，而a_A表示主动窃听者的策略选择；

f)D2D用户和主动窃听者的策略选择概率

其中q_i＝[q_i1,q_i2,...,q_iL]表示第i个D2D用户传输功率选择的概率向量，q_N＝[q₁,...,q_i,...,q_N]表示所有的D2D用户的功率选择概率向量的组合，q_A＝[q_A1,q_A2,...,q_AM]表示主动窃听者干扰功率选择的概率向量；

步骤7)中，主动攻击者根据下式来更新其Q值和功率选择概率

其中

步骤10)中，每个D2D用户根据下式更新其Q值和功率选择概率

其中，

是第i个D2D用户的学习速率。

2.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，步骤1)具体为：初始化系统参数：内层迭代次数t＝0,外层循环迭代次数k＝0,以及D2D用户和主动窃听者的Q值；

并且令

q_il表示第i个D2D用户选择离散功率集中的第l个传输功率值的概率，其中，i表示D2D用户的编号，N表示D2D用户的集合，l表示D2D用户可选的传输功率值的编号，L表示每个D2D用户可选的传输功率值的集合，表示为：

L:＝{a_i|a_i∈{P_i1,L,P_il,...,P_iL}}，其中a_i表示第i个D2D用户的策略选择，P_il表示第i个D2D用户选择第l个传输功率值；L表示D2D用户可选的传输功率值的总数；

令

q_Am表示全双工主动窃听者选择第m个干扰功率值的概率，其中，m表示主动窃听者可选的干扰功率值的编号，M表示主动窃听者可选的干扰功率值的总数，M表示主动窃听者可选的所有干扰功率值的集合，表示为M＝{a_A|a_A∈{P_A1,L,P_Am,...,P_AM}}，其中a_A表示主动窃听者的策略选择，P_Am表示主动窃听者选择第m个传输功率值。

3.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，步骤6)中，根据公式(10)，计算第t次迭代中主动窃听者的平均效用函数

4.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，步骤8)中，收敛条件为：

5.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，步骤9)中，根据公式(9)，D2D用户计算其第k次迭代中效用函数

6.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，步骤11)中，收敛条件为：

7.根据权利要求6所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法，其特征在于，ε＝10^-5。