CN108834109B - 全双工主动窃听下基于q学习的d2d协同中继功率控制方法 - Google Patents

全双工主动窃听下基于q学习的d2d协同中继功率控制方法 Download PDF

Info

Publication number
CN108834109B
CN108834109B CN201810415644.5A CN201810415644A CN108834109B CN 108834109 B CN108834109 B CN 108834109B CN 201810415644 A CN201810415644 A CN 201810415644A CN 108834109 B CN108834109 B CN 108834109B
Authority
CN
China
Prior art keywords
active
user
eavesdropper
ith
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810415644.5A
Other languages
English (en)
Other versions
CN108834109A (zh
Inventor
王金龙
罗屹洁
程云鹏
杨旸
崔丽
郑学强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201810415644.5A priority Critical patent/CN108834109B/zh
Publication of CN108834109A publication Critical patent/CN108834109A/zh
Application granted granted Critical
Publication of CN108834109B publication Critical patent/CN108834109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明提供一种全双工窃听下基于Q学习的D2D协同中继功率控制方法,在蜂窝系统中存在全双工主动窃听者的情况下,采用基于Q学习的分层学习算法,先后更新主动窃听者的干扰功率和D2D协同中继和友好干扰的发射功率,从而提升蜂窝系统的物理层安全性能。

Description

全双工主动窃听下基于Q学习的D2D协同中继功率控制方法
技术领域
本发明涉及一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,具体是一种采用基于Q学习的D2D协同中继功率更新策略来提升蜂窝网络物理层安全性能的方法,属于无线通信中的功率控制技术领域。
背景技术
根据信息论理论,当合法收发信机之间的信道增益优于合法发射机到窃听者之间的信道增益时,可以完美地保证发送信息的安全性,而不会被窃听者截获并译码获知。这是保证信息物理层安全性能的基本前提,也是提升物理层安全的方向,很多技术包括多天线、协同中继、人工干扰等都是通过提升合法用户的传输速率或者降低窃听者的窃听速率来达到提升安全速率的目的。
对于蜂窝移动通信,其中的D2D通信既可以作为协同中继提升蜂窝用户的传输速率,或者作为友好干扰来恶化窃听信道的信道增益,因此采用D2D协同的方法来提升蜂窝网络的物理层安全性能具有与生俱来的优势。同时,在保证蜂窝用户物理层安全性能的同时,还能兼顾D2D用户的通信需要。
考虑到系统中存在的主动窃听者不再像传统的被动窃听者只是静默地窃听合法用户发送的信息,而是既可以被动窃听又能智能调节发射功率进行干扰的全双工主动窃听者,其带来的攻击性和破坏性更大。如果采用全双工的D2D用户进行协同中继可以最大程度地提升蜂窝用户的物理层安全性能,但是就无法实现D2D自身数据的传输,因此联合采用D2D协同中继和友好干扰的模式能最大地兼顾蜂窝用户的物理层安全性能和D2D用户的传输需求。
发明内容
本发明的目的是针对蜂窝网络中存在能够同时被动窃听和主动干扰的智能攻击者的情况下,提出了一种基于Q学习的D2D协同中继功率控制方法,在多个D2D用户和主动窃听者之间建立多个领导者-一个追随者的斯坦伯格博弈模型,并通过分层Q学习的算法获得稳定的D2D协同中继功率选择策略。
本发明的技术方案是:
本发明提供一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,该方法包括以下步骤:
1)初始化系统参数;
2)外层循环迭代次数加1:k=k+1;
3)在第k次循环中,第i个D2D用户根据其功率选择概率qil从传输功率值的集合
Figure BDA0001649311400000021
中选择其协同中继和友好干扰的传输功率值Pil
4)内层迭代次数加1:t=t+1;
5)在第t次迭代中,主动窃听者根据其功率选择概率qAm从离散功率值集合
Figure BDA0001649311400000022
中选择其主动干扰功率值PAm
6)计算第t次迭代中主动窃听者的平均效用函数
Figure BDA0001649311400000023
7)主动攻击者更新其Q值和功率选择概率qA,m(t+1);
8)内部循环进行,直到主动攻击者的功率选择概率满足收敛条件;
9)在外部循环中,D2D用户计算其第k次迭代中效用函数
Figure BDA0001649311400000024
10)每个D2D用户更新其Q值和功率选择概率qi,l(k+1)
11)转向步骤3),直到每个D2D用户的功率选择概率满足收敛条件,循环结束。
进一步地,步骤1)具体为:初始化系统参数:内层迭代次数t=0,外层循环迭代次数k=0,以及D2D用户和主动窃听者的Q值;
并且令
Figure BDA0001649311400000025
qil表示第i个D2D用户选择离散功率集中的第l个传输功率值的概率,其中,i表示D2D用户的编号,
Figure BDA0001649311400000026
表示D2D用户的集合,l表示D2D用户可选的传输功率值的编号,
Figure BDA0001649311400000027
表示每个D2D用户可选的传输功率值的集合,表示为:
Figure BDA0001649311400000028
其中ai表示第i个D2D用户的策略选择,Pil表示第i个D2D用户选择第l个传输功率值;L表示D2D用户可选的传输功率值的总数;
Figure BDA0001649311400000029
qAm表示全双工主动窃听者选择第m个干扰功率值的概率,其中,m表示主动窃听者可选的干扰功率值的编号,M表示主动窃听者可选的干扰功率值的总数,
Figure BDA00016493114000000210
表示主动窃听者可选的所有干扰功率值的集合,表示为
Figure BDA00016493114000000211
其中aA表示主动窃听者的策略选择,PAm表示主动窃听者选择第m个传输功率值。
进一步地,步骤3)具体为:
a)计算蜂窝用户的数据传输速率RC
Figure BDA0001649311400000031
其中
Figure BDA0001649311400000032
表示从基站到蜂窝用户直连链路上的信干噪比SINR,并且
Figure BDA0001649311400000033
表示第i个D2D用户在两阶段中继链路上的信干噪比,
Figure BDA0001649311400000034
PB、PA、Pi、Pj表示基站、主动窃听者第i个和第j个D2D用户的发射功率,N0表示背景的加性高斯白噪声,α表示D2D用户的自干扰系数。基站和蜂窝用户之间的信道增益用hBC表示,基站和第i个D2D用户之间的信道增益用hBi表示,第i个D2D用户与蜂窝用户之间的信道增益用hiC表示,以及第i个D2D发射机到第j个D2D接收机之间的信道增益用hij表示,主动窃听者到第i个D2D用户以及蜂窝用户的信道增益分别用hAi,hAC表示,hii表示第i个D2D用户的发射天线到自身接收天线的信道增益;
b)计算全双工主动窃听者的窃听速率RA
Figure BDA0001649311400000035
其中
Figure BDA0001649311400000036
表示从基站到窃听者之间的直连窃听信道上的信干噪比,
Figure BDA0001649311400000037
为主动窃听者窃听的第i个D2D用户中继链路上的信干噪比,其中
Figure BDA0001649311400000038
公式中的β表示主动窃听者的自干扰系数,hAi=hiA,hiA表示第i个D2D用户到主动窃听者的信道增益,hji=hij表示D2D收发信机之间的信道增益,并且从主动窃听者发射天线到接收天线的自干扰信道增益用hAA表示,从基站到窃听者之间的信道增益用hBA表示。
c)计算蜂窝系统总的安全可达速率Rs
Rs=[RC-RA]+ (3)
其中[x]+=max(0,x);
d)计算蜂窝用户的效用函数Ui和主动窃听者的效用函数UA
蜂窝用户的效用函数Ui表示为蜂窝系统的安全可达速率Rs和D2D协同中继的功率消耗代价λiPi之间的折中,其中λi表示第i个D2D用户的单位功率代价因子,主动窃听者的效用函数UA表示为窃听速率与主动窃听者干扰功率消耗代价λAPA的折中,其中λA表示主动窃听者的单位功率代价因子;
Ui=RsiPi (4)
UA=RAAPA (5)
e)构建D2D用户和主动窃听者之间的博弈模型
Figure BDA0001649311400000041
其中:博弈的参与者是N个D2D用户和一个主动窃听者,
Figure BDA0001649311400000042
表示所有的D2D用户的集合,A表示主动窃听者;博弈的策略空间为
Figure BDA0001649311400000043
其中
Figure BDA0001649311400000044
表示每个D2D用户可选的传输功率值的集合,
Figure BDA0001649311400000045
表示主动窃听者可选的所有干扰功率值的集合;博弈的效用函数为{Ui,UA},该博弈模型中的参与者为多个D2D用户和一个主动窃听者,其中多个D2D用户为领导者,而主动窃听者为跟随者,他们采用的策略分别为不同离散功率值的选择,从而构成具有分层结构的斯坦伯格博弈模型,D2D用户和主动窃听者通过下式来选择各自的功率策略
Figure BDA0001649311400000046
Figure BDA0001649311400000047
其中ai表示第i个D2D用户的策略选择,a-i表示除了第i个D2D用户其他的D2D用户的策略选择,
Figure BDA0001649311400000048
表示所有D2D用户的策略选择,而aA表示主动窃听者的策略选择;
f)D2D用户和主动窃听者的策略选择概率
在构建的博弈模型下,考虑D2D用户和主动窃听者的平均效用函数最大化,其中
Figure BDA0001649311400000049
Figure BDA0001649311400000051
其中qi=[qi1,qi2,...,qiL]表示第i个D2D用户传输功率选择的概率向量,
Figure BDA0001649311400000052
表示所有的D2D用户的功率选择概率向量的组合,qA=[qA1,qA2,...,qAM]表示主动窃听者干扰功率选择的概率向量。
进一步地,步骤6)中,根据公式(10),计算第t次迭代中主动窃听者的平均效用函数
Figure BDA0001649311400000053
进一步地,步骤7)中,主动攻击者根据下式来更新其Q值和功率选择概率
Figure BDA0001649311400000054
Figure BDA0001649311400000055
其中
Figure BDA0001649311400000056
表示主动窃听者的学习速率,τ0∈(0,1)是一个常数,控制Q学习中的开发和探索(exploration-exploitation.)之间的折中。
进一步地,步骤8)中,收敛条件为:
Figure BDA0001649311400000057
进一步地,步骤9)中,根据公式(9),D2D用户计算其第k次迭代中效用函数
Figure BDA0001649311400000058
进一步地,步骤10)中,每个D2D用户根据下式更新其Q值和功率选择概率
Figure BDA0001649311400000059
Figure BDA00016493114000000510
其中,
Figure BDA00016493114000000511
是第i个D2D用户的学习速率。
进一步地,步骤11)中,收敛条件为:
Figure BDA00016493114000000512
ε=10-5
本发明的有益效果:
本发明本发明针对蜂窝网络中存在全双工主动窃听者攻击的情况,提出了一种基于Q学习的D2D协同中继功率控制方法,在提升蜂窝网络物理层安全性能的同时,兼顾D2D用户数据传输的需要,同时考虑了D2D用户和全双工主动窃听者自干扰对系统总的安全可达速率的影响。
本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1是D2D离散功率控制系统模型的总体框图。
图2是主动窃听者干扰功率选择概率收敛曲线。
图3是第一个D2D用户中继概率选择概率收敛曲线。
图4是第二个D2D用户中继概率选择概率收敛曲线。
图5是蜂窝系统总的安全可达速率随着D2D自干扰系数变化在不同算法下的比较曲线。
具体实施方式
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。
一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,该方法包括以下步骤:
1)初始化系统参数:内层迭代次数t=0,外层循环迭代次数k=0,以及D2D用户和主动窃听者的Q值;
并且令
Figure BDA0001649311400000061
qil表示第i个D2D用户选择离散功率集中的第l个传输功率值的概率,其中,i表示D2D用户的编号,
Figure BDA0001649311400000062
表示D2D用户的集合,l表示D2D用户可选的传输功率值的编号,
Figure BDA0001649311400000063
表示每个D2D用户可选的传输功率值的集合,表示为:
Figure BDA0001649311400000064
其中ai表示第i个D2D用户的策略选择,Pil表示第i个D2D用户选择第l个传输功率值;L表示D2D用户可选的传输功率值的总数;
Figure BDA0001649311400000065
qAm表示全双工主动窃听者选择第m个干扰功率值的概率,其中,m表示主动窃听者可选的干扰功率值的编号,M表示主动窃听者可选的干扰功率值的总数,
Figure BDA0001649311400000066
表示主动窃听者可选的所有干扰功率值的集合,表示为
Figure BDA0001649311400000067
其中aA表示主动窃听者的策略选择,PAm表示主动窃听者选择第m个传输功率值;
2)外层循环迭代次数加1:k=k+1
3)在第k次循环中,第i个D2D用户根据其功率选择概率qil从传输功率值的集合
Figure BDA0001649311400000071
中选择其协同中继和友好干扰的传输功率值Pil
具体操作如下:
a)计算蜂窝用户的数据传输速率RC
Figure BDA0001649311400000072
其中
Figure BDA0001649311400000073
表示从基站到蜂窝用户直连链路上的信干噪比SINR,并且
Figure BDA0001649311400000074
表示第i个D2D用户在两阶段中继链路上的信干噪比,
Figure BDA0001649311400000075
PB、PA、Pi、Pj表示基站、主动窃听者第i个和第j个D2D用户的发射功率,N0表示背景的加性高斯白噪声,α表示D2D用户的自干扰系数。基站和蜂窝用户之间的信道增益用hBC表示,基站和第i个D2D用户之间的信道增益用hBi表示,第i个D2D用户与蜂窝用户之间的信道增益用hiC表示,以及第i个D2D发射机到第j个D2D接收机之间的信道增益用hij表示,主动窃听者到第i个D2D用户以及蜂窝用户的信道增益分别用hAi,hAC表示,hii表示第i个D2D用户的发射天线到自身接收天线的信道增益;
b)计算全双工主动窃听者的窃听速率RA
Figure BDA0001649311400000076
其中
Figure BDA0001649311400000077
表示从基站到窃听者之间的直连窃听信道上的信干噪比,
Figure BDA0001649311400000078
为主动窃听者窃听的第i个D2D用户中继链路上的信干噪比,其中
Figure BDA0001649311400000081
公式中的β表示主动窃听者的自干扰系数,
hAi=hiA,hiA表示第i个D2D用户到主动窃听者的信道增益,hji=hij表示D2D收发信机之间的信道增益,并且从主动窃听者发射天线到接收天线的自干扰信道增益用hAA表示,从基站到窃听者之间的信道增益用hBA表示。
c)计算蜂窝系统总的安全可达速率Rs
Rs=[RC-RA]+ (3)
其中[x]+=max(0,x);
d)计算蜂窝用户的效用函数Ui和主动窃听者的效用函数UA
蜂窝用户的效用函数Ui表示为蜂窝系统的安全可达速率Rs和D2D协同中继的功率消耗代价λiPi之间的折中,其中λi表示第i个D2D用户的单位功率代价因子,主动窃听者的效用函数UA表示为窃听速率与主动窃听者干扰功率消耗代价λAPA的折中,其中λA表示主动窃听者的单位功率代价因子;
Ui=RsiPi (4)
UA=RAAPA (5)
e)构建D2D用户和主动窃听者之间的博弈模型
Figure BDA0001649311400000082
其中:博弈的参与者是N个D2D用户和一个主动窃听者,
Figure BDA0001649311400000083
表示所有的D2D用户的集合,A表示主动窃听者;博弈的策略空间为
Figure BDA0001649311400000084
其中
Figure BDA0001649311400000085
表示每个D2D用户可选的传输功率值的集合,
Figure BDA0001649311400000086
表示主动窃听者可选的所有干扰功率值的集合;博弈的效用函数为{Ui,UA},该博弈模型中的参与者为多个D2D用户和一个主动窃听者,其中多个D2D用户为领导者,而主动窃听者为跟随者,他们采用的策略分别为不同离散功率值的选择,从而构成具有分层结构的斯坦伯格博弈模型,D2D用户和主动窃听者通过下式来选择各自的功率策略
Figure BDA0001649311400000087
Figure BDA0001649311400000088
其中ai表示第i个D2D用户的策略选择,a-i表示除了第i个D2D用户其他的D2D用户的策略选择,
Figure BDA0001649311400000091
表示所有D2D用户的策略选择,而aA表示主动窃听者的策略选择;
f)D2D用户和主动窃听者的策略选择概率
在构建的博弈模型下,考虑D2D用户和主动窃听者的平均效用函数最大化,其中
Figure BDA0001649311400000092
Figure BDA0001649311400000093
其中qi=[qi1,qi2,...,qiL]表示第i个D2D用户传输功率选择的概率向量,
Figure BDA0001649311400000094
表示所有的D2D用户的功率选择概率向量的组合,qA=[qA1,qA2,...,qAM]表示主动窃听者干扰功率选择的概率向量;
4)内层迭代次数加1:t=t+1;
5)在第t次迭代中,主动窃听者根据其功率选择概率qAm从离散功率值集合
Figure BDA0001649311400000095
中选择其主动干扰功率值PAm
6)根据公式(10),计算第t次迭代中主动窃听者的平均效用函数
Figure BDA0001649311400000096
7)主动攻击者根据下式来更新其Q值和功率选择概率
Figure BDA0001649311400000097
Figure BDA0001649311400000098
其中
Figure BDA0001649311400000099
表示主动窃听者的学习速率,τ0∈(0,1)是一个常数,控制Q学习中的开发和探索(exploration-exploitation.)之间的折中;
8)内部循环进行,直到收敛条件
Figure BDA00016493114000000910
满足
9)在外部循环中,根据公式(9),D2D用户计算其第k次迭代中效用函数
Figure BDA00016493114000000911
10)每个D2D用户根据下式更新其Q值和功率选择概率
Figure BDA00016493114000000912
Figure BDA00016493114000000913
其中
Figure BDA00016493114000000914
是第i个D2D用户的学习速率;
11)转向步骤3),直到收敛条件
Figure BDA00016493114000000915
满足,循环结束。
图2-图5是本发明的仿真曲线。其中图2-图4是一次仿真中主动窃听者和两个D2D用户干扰功率和中继功率概率选择的收敛曲线。从图中可以看出,在本发明提出的基于Q学习的离散功率选择算法下,D2D中继功率选择的概率向量和主动窃听者采用不同干扰功率的概率在70次左右达到收敛,收敛速度较快。图5是仿真结果为105次独立实验的平均值,是本发明多次仿真中蜂窝网络总的安全可达速率在本文提出的基于Q学习的离散功率控制算法(QDPCA)与基于随机选择算法(RSA)下随着D2D用户自干扰系数的比较曲线。从图5中可以看出,本发明提出的基于Q学习的D2D中继功率控制算法都优于基于随机选择的功率控制算法,并且安全可达速率都随着D2D用户自干扰系数的增大而减小,这是因为D2D用户自干扰的增大会减小中继所带来的通信增益,从而进一步减小蜂窝系统的安全可达速率。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims (7)

1.一种全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,该方法包括以下步骤:
1)初始化系统参数;
2)外层循环迭代次数加1:k=k+1;
3)在第k次循环中,第i个D2D用户根据其功率选择概率qil从传输功率值的集合L中选择其协同中继和友好干扰的传输功率值Pil
4)内层迭代次数加1:t=t+1;
5)在第t次迭代中,主动窃听者根据其功率选择概率qAm从离散功率值集合M中选择其主动干扰功率值PAm
6)计算第t次迭代中主动窃听者的平均效用函数
Figure FDA0002885643570000011
7)主动攻击者更新其Q值和功率选择概率qA,m(t+1);
8)内部循环进行,直到主动攻击者的功率选择概率满足收敛条件;
9)在外部循环中,D2D用户计算其第k次迭代中效用函数
Figure FDA0002885643570000012
10)每个D2D用户更新其Q值和功率选择概率qi,l(k+1)
11)转向步骤3),直到每个D2D用户的功率选择概率满足收敛条件,循环结束;
步骤3)具体为:
a)计算蜂窝用户的数据传输速率RC
Figure FDA0002885643570000013
其中
Figure FDA0002885643570000014
表示从基站到蜂窝用户直连链路上的信干噪比SINR,并且
Figure FDA0002885643570000015
表示第i个D2D用户在两阶段中继链路上的信干噪比,
Figure FDA0002885643570000016
PB、PA、Pi、Pj表示基站、主动窃听者、第i个和第j个D2D用户的发射功率,N0表示背景的加性高斯白噪声,α表示D2D用户的自干扰系数;基站和蜂窝用户之间的信道增益用hBC表示,基站和第i个D2D用户之间的信道增益用hBi表示,第i个D2D用户与蜂窝用户之间的信道增益用hiC表示,以及第i个D2D发射机到第j个D2D接收机之间的信道增益用hij表示,主动窃听者到第i个D2D用户以及蜂窝用户的信道增益分别用hAi,hAC表示,hii表示第i个D2D用户的发射天线到自身接收天线的信道增益;
b)计算全双工主动窃听者的窃听速率RA
Figure FDA0002885643570000021
其中
Figure FDA0002885643570000022
表示从基站到窃听者之间的直连窃听信道上的信干噪比,
Figure FDA0002885643570000023
为主动窃听者窃听的第i个D2D用户中继链路上的信干噪比,其中
Figure FDA0002885643570000024
公式中的β表示主动窃听者的自干扰系数,hAi=hiA,hiA表示第i个D2D用户到主动窃听者的信道增益,hji=hij表示D2D收发信机之间的信道增益,并且从主动窃听者发射天线到接收天线的自干扰信道增益用hAA表示,从基站到窃听者之间的信道增益用hBA表示;
c)计算蜂窝系统总的安全可达速率Rs
Rs=[RC-RA]+ (3)
其中[x]+=max(0,x);
d)计算蜂窝用户的效用函数Ui和主动窃听者的效用函数UA
蜂窝用户的效用函数Ui表示为蜂窝系统的安全可达速率Rs和D2D协同中继的功率消耗代价λiPi之间的折中,其中λi表示第i个D2D用户的单位功率代价因子,主动窃听者的效用函数UA表示为窃听速率与主动窃听者干扰功率消耗代价λAPA的折中,其中λA表示主动窃听者的单位功率代价因子;
Ui=RsiPi (4)
UA=RAAPA (5)
e)构建D2D用户和主动窃听者之间的博弈模型
Gs:={{N,A},{L,M},{Ui,UA}} (6)
其中:博弈的参与者是N个D2D用户和一个主动窃听者,N表示所有的D2D用户的集合,A表示主动窃听者;博弈的策略空间为{L,M},其中L表示每个D2D用户可选的传输功率值的集合,M表示主动窃听者可选的所有干扰功率值的集合;博弈的效用函数为{Ui,UA},该博弈模型中的参与者为多个D2D用户和一个主动窃听者,其中多个D2D用户为领导者,而主动窃听者为跟随者,他们采用的策略分别为不同离散功率值的选择,从而构成具有分层结构的斯坦伯格博弈模型,D2D用户和主动窃听者通过下式来选择各自的功率策略
Figure FDA0002885643570000031
Figure FDA0002885643570000032
其中ai表示第i个D2D用户的策略选择,a-i表示除了第i个D2D用户其他的D2D用户的策略选择,aN表示所有D2D用户的策略选择,而aA表示主动窃听者的策略选择;
f)D2D用户和主动窃听者的策略选择概率
在构建的博弈模型下,考虑D2D用户和主动窃听者的平均效用函数最大化,其中
Figure FDA0002885643570000033
Figure FDA0002885643570000034
其中qi=[qi1,qi2,...,qiL]表示第i个D2D用户传输功率选择的概率向量,qN=[q1,...,qi,...,qN]表示所有的D2D用户的功率选择概率向量的组合,qA=[qA1,qA2,...,qAM]表示主动窃听者干扰功率选择的概率向量;
步骤7)中,主动攻击者根据下式来更新其Q值和功率选择概率
Figure FDA0002885643570000035
Figure FDA0002885643570000036
其中
Figure FDA0002885643570000037
表示主动窃听者的学习速率,τ0∈(0,1)是一个常数,控制Q学习中的开发和探索(exploration-exploitation.)之间的折中;
步骤10)中,每个D2D用户根据下式更新其Q值和功率选择概率
Figure FDA0002885643570000041
Figure FDA0002885643570000042
其中,
Figure FDA0002885643570000043
是第i个D2D用户的学习速率。
2.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,步骤1)具体为:初始化系统参数:内层迭代次数t=0,外层循环迭代次数k=0,以及D2D用户和主动窃听者的Q值;
并且令
Figure FDA0002885643570000044
qil表示第i个D2D用户选择离散功率集中的第l个传输功率值的概率,其中,i表示D2D用户的编号,N表示D2D用户的集合,l表示D2D用户可选的传输功率值的编号,L表示每个D2D用户可选的传输功率值的集合,表示为:
L:={ai|ai∈{Pi1,L,Pil,...,PiL}},其中ai表示第i个D2D用户的策略选择,Pil表示第i个D2D用户选择第l个传输功率值;L表示D2D用户可选的传输功率值的总数;
Figure FDA0002885643570000045
qAm表示全双工主动窃听者选择第m个干扰功率值的概率,其中,m表示主动窃听者可选的干扰功率值的编号,M表示主动窃听者可选的干扰功率值的总数,M表示主动窃听者可选的所有干扰功率值的集合,表示为M={aA|aA∈{PA1,L,PAm,...,PAM}},其中aA表示主动窃听者的策略选择,PAm表示主动窃听者选择第m个传输功率值。
3.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,步骤6)中,根据公式(10),计算第t次迭代中主动窃听者的平均效用函数
Figure FDA0002885643570000046
4.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,步骤8)中,收敛条件为:
Figure FDA0002885643570000047
5.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,步骤9)中,根据公式(9),D2D用户计算其第k次迭代中效用函数
Figure FDA0002885643570000048
6.根据权利要求1所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,步骤11)中,收敛条件为:
Figure FDA0002885643570000051
7.根据权利要求6所述的全双工主动窃听下基于Q学习的D2D协同中继功率控制方法,其特征在于,ε=10-5
CN201810415644.5A 2018-05-03 2018-05-03 全双工主动窃听下基于q学习的d2d协同中继功率控制方法 Active CN108834109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810415644.5A CN108834109B (zh) 2018-05-03 2018-05-03 全双工主动窃听下基于q学习的d2d协同中继功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810415644.5A CN108834109B (zh) 2018-05-03 2018-05-03 全双工主动窃听下基于q学习的d2d协同中继功率控制方法

Publications (2)

Publication Number Publication Date
CN108834109A CN108834109A (zh) 2018-11-16
CN108834109B true CN108834109B (zh) 2021-03-19

Family

ID=64148200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810415644.5A Active CN108834109B (zh) 2018-05-03 2018-05-03 全双工主动窃听下基于q学习的d2d协同中继功率控制方法

Country Status (1)

Country Link
CN (1) CN108834109B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729528B (zh) * 2018-12-21 2020-08-18 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110061982B (zh) * 2019-04-02 2021-06-29 广州大学 一种基于强化学习的对抗智能攻击安全传输方法
CN110149627B (zh) * 2019-04-22 2020-08-18 西北工业大学 基于深度学习的应急通信系统无线供能d2d通信安全的方法
CN110337094B (zh) * 2019-08-06 2021-07-02 中国人民解放军陆军工程大学 针对d2d内容共享的安全传输系统及其方法
CN110753329B (zh) * 2019-10-29 2020-12-18 吉林大学 蜂窝网络中d2d中继通信的功率控制与中继选择方法
CN110933679B (zh) * 2019-12-11 2023-05-02 中国人民解放军陆军工程大学 一种依概率主动窃听下的稳健d2d功率控制方法
CN113225709B (zh) * 2021-04-25 2022-12-02 广州航海学院 一种在城市交叉路口处辅助5g nr车联网通信的中继策略优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104837110A (zh) * 2015-04-17 2015-08-12 南京邮电大学 蜂窝d2d通信系统中基于中断性能提升的传输策略实现方法
CN105992124A (zh) * 2015-02-12 2016-10-05 北京邮电大学 基于d2d的簇间通信方法
CN106788661A (zh) * 2017-01-10 2017-05-31 华侨大学 一种全双工机会式中继的协议自适应切换安全传输方案

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105992124A (zh) * 2015-02-12 2016-10-05 北京邮电大学 基于d2d的簇间通信方法
CN104837110A (zh) * 2015-04-17 2015-08-12 南京邮电大学 蜂窝d2d通信系统中基于中断性能提升的传输策略实现方法
CN106788661A (zh) * 2017-01-10 2017-05-31 华侨大学 一种全双工机会式中继的协议自适应切换安全传输方案

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D2D 使能蜂窝网络中存在主动窃听者的物理层安全研究;罗屹洁;《信号处理》;20180125;全文 *
Power Control and Channel Access for Physical-Layer Security of D2D Underlay Communication;Yijie Luo;《IEEE》;20151017;全文 *

Also Published As

Publication number Publication date
CN108834109A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108834109B (zh) 全双工主动窃听下基于q学习的d2d协同中继功率控制方法
Li et al. Intelligent power control for spectrum sharing in cognitive radios: A deep reinforcement learning approach
Li et al. Enhanced secure transmission against intelligent attacks
CN111586646B (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
CN105163380B (zh) Mimo无线多跳网络的分布式跨层优化方法
CN108834108B (zh) 对抗半双工主动窃听的基于虚拟决策的d2d协同中继选择方法
CN102571179B (zh) Mimo系统中基于不完全信道状态信息的跨层优化设计方法
CN104038945B (zh) 一种基于独立集的异构蜂窝网络能效优化方法
CN107172576B (zh) 一种增强蜂窝网安全性的d2d通信下行资源共享方法
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
CN107864507B (zh) 基于量子猴群搜索机制的认知无线电功率控制方法
Mu et al. Power allocation based on reinforcement learning for MIMO system with energy harvesting
CN105813189B (zh) 一种蜂窝网中的d2d分布式功率优化方法
Fazel et al. Secure throughput optimization for cache-enabled multi-UAVs networks
CN113225794A (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
Gao et al. Resource allocation in IRSs aided MISO-NOMA networks: A machine learning approach
Ouamri et al. Nonlinear Energy-Harvesting for D2D Networks Underlaying UAV with SWIPT Using MADQN
CN108012248A (zh) 基于功率控制的车联网抗干扰的方法及电子设备
CN111212438A (zh) 一种无线携能通信技术的资源分配方法
Cheng et al. Joint power and time allocation in full‐duplex wireless powered communication networks
CN103957565B (zh) 分布式无线网络中基于目标sinr的资源分配方法
Song et al. Maximizing packets collection in wireless powered IoT networks with charge-or-data time slots
CN111465108A (zh) 一种能量获取d2d异构网络中频效能效优化方法
CN116321236A (zh) Ris辅助的安全无蜂窝大规模mimo系统能效优化方法
CN105188123B (zh) 用于双向中继网络的中继处理和功率控制联合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant