CN114466386A - 一种d2d通信的直接接入方法 - Google Patents

一种d2d通信的直接接入方法 Download PDF

Info

Publication number
CN114466386A
CN114466386A CN202210036695.3A CN202210036695A CN114466386A CN 114466386 A CN114466386 A CN 114466386A CN 202210036695 A CN202210036695 A CN 202210036695A CN 114466386 A CN114466386 A CN 114466386A
Authority
CN
China
Prior art keywords
network
action
agent
throughput
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210036695.3A
Other languages
English (en)
Other versions
CN114466386B (zh
Inventor
裴二荣
陈俊林
柳祚勇
陈新虎
倪剑雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Cxd Science & Technology Co ltd
Shenzhen Wanzhida Technology Transfer Center Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210036695.3A priority Critical patent/CN114466386B/zh
Publication of CN114466386A publication Critical patent/CN114466386A/zh
Application granted granted Critical
Publication of CN114466386B publication Critical patent/CN114466386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0215Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
    • H04W28/0221Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices power availability or consumption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • H04W28/0236Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/10Small scale networks; Flat hierarchical networks
    • H04W84/12WLAN [Wireless Local Area Networks]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种D2D通信的直接接入方法,属于无线通信技术领域,以解决授权频谱资源短缺问题,提升免授权频谱频谱利用率和共存系统吞吐量。本发明包括以下步骤:S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;S2:智能体根据ε‑greedy策略选择一个动作at与环境交互;S3:智能体执行动作at后,Wi‑Fi将本地信息以广播的方式传递给智能体;S4:智能体根据Wi‑Fi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q‑network的预测值和目标值;S6:使用梯度下降法,更新Q‑network_local的权重参数θ和Q‑Network_target的网络权重参数θ;S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率。

Description

一种D2D通信的直接接入方法
技术领域
本发明属于无线通信技术领域,涉及一种D2D通信的直接接入方法。
背景技术
随着移动设备和带宽需求的爆炸性增长,用户对授权频谱资源的需求正在经历前所未有的增长。为缓解这一问题,基于LTE网络的设备到设备(Device-to-Device,D2D)通信被提出。D2D通信避免了蜂窝通信中用户数据经过基站中转传输,由此产生链路增益,此外,D2D通信可以带来诸如提高频谱利用率、扩大蜂窝覆盖范围以及提高能量利用率等好处。因为D2D具有通信距离短以及发射功率低的特性,将D2D设备接入频谱资源充裕的免授权频谱,能进一步减缓授权频谱的需求压力。
Wi-Fi网络作为免授权频谱的主流使用者,其采用的通信协议为载波监听多路访问/冲突避免(Carrier Sensing Multiple Access with Collision Avoidance,CSMA/CA)。为了将LTE网络与WiFi网络共存,目前存在两种共存机制:“先听后说”(Listen BeforeTalk,LBT)机制和占空比(Duty Cycle,DC)机制。为了提升免授权频谱的频谱利用率和减缓授权频谱的需求压力,我们提出一种基于深度强化学习的直接接入共存方法,即D2D设备直接接入免授权频谱。基于该方法,在Wi-Fi协作的情况下,基站能够获得Wi-Fi网络的一些基本信息以调度不同的D2D对使用免授权频谱,并控制D2D的发射功率使之对Wi-Fi网络的干扰被限制在设定的阈值范围内,以达到共存系统总吞吐量最大化的目的。由于移动用户位置的随机性导致的大状态空间以及功率分配导致的大动作空间,传统的强化学习难以胜任,而深度强化学习以其更强大的学习能力,在处理大状态空间和大动作空间的问题上能有令人满意的表现。相较于LBT和DC共存机制,我们提出的直接接入方法能极大提升免授权频谱的频谱利用率和共存系统的总吞吐量。
发明内容
有鉴于此,本发明提供了一种D2D通信的直接接入方法,使Wi-Fi受到的干扰被限制在设定的阈值范围内,实现共存系统的吞吐量最大化。
为了达到上述目的,本发明提供如下技术方案:
一种D2D通信的直接接入方法,包括以下步骤:
S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;
S2:智能体根据ε-greedy策略选择一个动作at与环境交互;
S3:智能体执行动作at后,Wi-Fi将本地信息以广播的方式传递给智能体;
S4:智能体根据Wi-Fi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;
S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q-network的预测值和目标值;
S6:使用梯度下降法,更新Q-network_local的权重参数θ和Q-Network_target的网络权重参数θ-
S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率。
进一步,在步骤S1中,场景中有N对D2D对,L个WiFi用户,D2D在免授权频谱B中采用正交频分多址接入,子信道带宽为
Figure BDA0003468721750000021
D2D之间没有干扰,将基站作为智能体,在t时刻,智能体的动作表示为at=[P1,P2,P3…PN],Pi为D2D对i发射端的发射功率,Pi∈{0,Pmin,Pmin+Δ,Pmin+2Δ,Pmin+3Δ,Pmax}
Figure BDA0003468721750000022
Pmax和Pmin分别为D2D最大和最小发射功率,状态st={M,RD,RW},其中M∈{0,1,2…L}为受到干扰的WiFi用户个数,
Figure BDA0003468721750000023
为D2D系统总吞吐量,Ri(P)表示D2D对i以功率P发送数据时的吞吐量,Ri(P)∈{Ri(0),Ri(Pmin),Ri(Pmin+Δ),Ri(Pmin+2Δ),Ri(Pmin+3Δ),Ri(Pmax)},
Figure BDA0003468721750000024
为WiFi系统的总吞吐量,
Figure BDA0003468721750000025
为受到干扰的Wi-Fi用户个数为l时的Wi-Fi总吞吐量,l∈{1,2,3…M}。
进一步,在步骤S2中,智能体使用ε-greedy策略从动作集合中选择动作at,即智能体以概率ε从动作集合中随机抽取一个动作与环境交互,以概率1-ε选择通过最优动作价值函数Q*(st,at)估计的具有最大价值的动作
Figure BDA0003468721750000031
与环境交互,由于最优动作价值函数Q*(st,at)极难获取,因此本发明使用Deep Q-Network(DQN),将神经网络Q(st,at;θ)近似为Q*(st,at),ε-greedy策略的具体公式如下:
Figure BDA0003468721750000032
本发明采用的ε-greedy策略与传统的ε-greedy策略不同,在训练开始时将ε设置为1,随着训练步数的增加,ε线性下降直到设置的最小值,这能保证智能体探索到更好的动作,防止陷入局部最优,意味着随着学习的进展,智能体逐渐使用学到的知识进行更好的操作。
进一步,在步骤S3中,AP周期性的广播Wi-Fi网络的一些信息,比如受到D2D通信干扰的Wi-Fi用户个数M等,基站对接收到的广播信息进行分析,获得D2D通信对Wi-Fi网络的干扰情况,当AP处于D2D的干扰范围内时,AP不能正确接受所有来自Wi-Fi用户的信号,无法通过M来反映干扰,此时Wi-Fi网络处于瘫痪状态,吞吐量为0,添加此状态的广播信息,记为Φ=1,反之Φ=0,作为智能体的基站可以根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率,AP广播信号的周期对应智能体的一步训练步数,即AP在智能体的决策时刻广播信号。
进一步,在步骤S4中,当智能体执行动作at与环境交互后,环境生成下一个状态st+1,智能体获取动作at的奖励r(st,at),并将数据{st,at,rt,st+1}存储到经验回放空间中,奖励函数的定义为:
Figure BDA0003468721750000033
其中Rtotal是共存系统的总吞吐量,为D2D系统总吞吐量RD与Wi-Fi系统总吞吐量RW之和,M0是D2D通信干扰的Wi-Fi用户个数阈值,Rdi是动作at中任意一对D2D的吞吐量,Rd是单对D2D的吞吐量阈值,奖励函数说明只有D2D通信对Wi-Fi网络的干扰被限制在设定的范围内,同时保证D2D设备的通信质量,动作at才会有奖励,基站通过分析AP的广播信号获得m、RW和Φ,Rdi在基站和D2D设备信息交互时被基站获得,D2D系统总吞吐量
Figure BDA0003468721750000041
进一步,在步骤S5中,智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据,计算Q-Network_local的预测值qk和Q-Network_target的目标值yk,qk和yk的表达式为:
qk=Q(sk,ak;θ)
yk=rk+γmaxa′Q′(sk+1,a′;θ-)
其中γ为折扣率,γ越小代表智能体越关注当前回报,反之同理。
进一步,在步骤S6中,获得预测值qk和目标值yk后,通过损失函数计算损失:
Figure BDA0003468721750000042
损失通过神经网络反向传播,使用梯度下降法来更新Q-Network_local的网络权重参数θ,经过设定的训练步数后,更新Q-Network_target的网络权重参数θ-,更新公式为:θ-=τθ+(1-τ)θ-,其中τ为软间隔更新系数,且0<τ<<1,τ越小,算法会越稳定,Q-network_target的参数变化越小,算法收敛速度会越慢,反之同理。
进一步,在步骤S7中,调试各种超参数,比如学习率、折扣率、Batch size、经验回放池大小以及ε等,使奖励函数曲线、D2D系统总吞吐量曲线、Wi-Fi系统总吞吐量曲线经训练达到收敛状态,即重复步骤2及以下步骤,收敛状态时智能体执行的动作即为最优动作,由步骤1中动作的定义可知最优接入免授权频谱的D2D对及其最优发射功率。
本发明的优点及有益效果
随着移动设备和带宽需求的爆炸性增长,用户对授权频谱资源的需求正在经历前所未有的增长。因为D2D具有通信距离短以及发射功率低的特性,将D2D设备接入频谱资源充裕的免授权频谱,能进一步减缓授权频谱的需求压力。
相较于目前的LBT和DC共存机制,本发明所提出的直接接入方法,即D2D设备直接接入免授权频谱,在频谱利用率和共存系统总吞吐量方面能有更大的性能提升。对于LBT共存机制,其类似于Wi-Fi采用的通信协议CSMA/CA,LTE设备和Wi-Fi用户接入免授权频谱都具有随机性。当设备监测到信道忙时,会暂缓信号的发送,这意味着免授权频道被占用时,其他设备无法共享信道,导致免授权频谱的频谱利用率低。对于DC共存机制,LTE用户在周期的一小部分内进行传输,并在剩余时间内关闭,将免授权信道移交给Wi-Fi用户。但在如今的热点地区,Wi-Fi网络往往处于饱和状态,因此分配给LTE设备的时间占比会更小,从而限制LTE网络吞吐量的提升。对于本发明提出的直接接入共存方法,D2D设备使用免授权频谱没有时间限制并且与Wi-Fi用户共享信道。基站选择不同的D2D设备接入免授权频谱以及调整D2D的发射功率,在满足对Wi-Fi网络的干扰被约束在设定范围的条件下,实现提升免授权频谱利用率和共存系统总吞吐量的目的。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例所述深度强化学习框架图;
图2为本发明实施例的共存网络示意图;
图3为本发明实施例的流程示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对授权频谱上的频谱资源紧张问题以及免授权频谱的频谱利用率低问题,提出一种D2D通信的直接接入方法。为了将D2D设备与Wi-Fi网络共存,本文设计了基于深度强化学习的直接接入算法,深度强化学习框架如图1所示,将基站作为智能体,基站通过ε-greedy策略选择动作与环境交互,即选择不同的D2D设备接入免授权频谱以及调整D2D的发射功率,一方面尽可能的提升共存网络的总吞吐量,另一方面将D2D对Wi-Fi网络的干扰控制在设置的范围内。
网络模型如图2所示,共存场景中存在一个Wi-Fi接入点AP,一个基站,Wi-Fi用户与D2D设备分别随机分布在AP的覆盖范围内和基站的覆盖范围内,免授权频谱被划分为N个子信道以支持D2D正交频分多址接入。AP在智能体的每个决策时刻广播当前Wi-Fi网络中受干扰的Wi-Fi用户个数、吞吐量、Φ等信息,基站能够对接收到的广播信息进行分析。
如图3所示,一种D2D通信的直接接入方法,该方法包括以下步骤:
S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;
S2:智能体根据ε-greedy策略选择一个动作at与环境交互;
S3:智能体执行动作at后,Wi-Fi将本地信息以广播的方式传递给智能体;
S4:智能体根据Wi-Fi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;
S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q-network的预测值和目标值;
S6:使用梯度下降法,更新Q-network_local的权重参数θ和Q-Network_target的网络权重参数θ-
S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率。
场景中有N对D2D对,L个WiFi用户,D2D在免授权频谱B中采用正交频分多址接入,子信道带宽为
Figure BDA0003468721750000061
D2D之间没有干扰,将基站作为智能体,在t时刻,智能体的动作表示为at=[P1,P2,P3…PN],Pi为D2D对i发射端的发射功率,Pi∈{0,Pmin,Pmin+Δ,Pmin+2Δ,Pmin+3Δ,Pmax},
Figure BDA0003468721750000064
Pmax和Pmin分别为D2D最大和最小发射功率,状态st={M,RD,RW},其中M∈{0,1,2…L}为受到干扰的WiFi用户个数,
Figure BDA0003468721750000063
为D2D系统总吞吐量,Ri(P)表示D2D对i以功率P发送数据时的吞吐量,Ri(P)∈{Ri(0),Ri(Pmin),Ri(Pmin+Δ),Ri(Pmin+2Δ),Ri(Pmin+3Δ),Ri(Pmax)},
Figure BDA0003468721750000071
为WiFi系统的总吞吐量,
Figure BDA0003468721750000072
为受到干扰的Wi-Fi用户个数为l时的Wi-Fi总吞吐量,l∈{1,2,3…M}。
智能体使用ε-greedy策略从动作集合中选择动作at,即智能体以概率ε从动作集合中随机抽取一个动作与环境交互,以概率1-ε选择通过最优动作价值函数Q*(st,at)估计的具有最大价值的动作
Figure BDA0003468721750000073
与环境交互,由于最优动作价值函数Q*(st,at)极难获取,因此本发明使用Deep Q-Network(DQN),将神经网络Q(st,at;θ)近似为Q*(st,at),ε-greedy策略的具体公式如下:
Figure BDA0003468721750000074
本发明采用的ε-greedy策略与传统的ε-greedy策略不同,在训练开始时将ε设置为1,随着训练步数的增加,ε线性下降直到设置的最小值,这能保证智能体探索到更好的动作,防止陷入局部最优,意味着随着学习的进展,智能体逐渐使用学到的知识进行更好的操作。
AP周期性的广播Wi-Fi网络的一些信息,比如受到D2D通信干扰的Wi-Fi用户个数M等,基站对接收到的广播信息进行分析,获得D2D通信对Wi-Fi网络的干扰情况,当AP处于D2D的干扰范围内时,AP不能正确接受所有来自Wi-Fi用户的信号,无法通过M来反映干扰,此时Wi-Fi网络处于瘫痪状态,吞吐量为0,添加此状态的广播信息,记为Φ=1,反之Φ=0,作为智能体的基站可以根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率,AP广播信号的周期对应智能体的一步训练步数,即AP在智能体的决策时刻广播信号。
当智能体执行动作at与环境交互后,环境生成下一个状态st+1,智能体获取动作at的奖励r(st,at),并将数据{st,at,rt,st+1}存储到经验回放空间中,奖励函数的定义为:
Figure BDA0003468721750000075
其中Rtotal是共存系统的总吞吐量,为D2D系统总吞吐量RD与Wi-Fi系统总吞吐量RW之和,M0是D2D通信干扰的Wi-Fi用户个数阈值,Rdi是动作at中任意一对D2D的吞吐量,Rd是单对D2D的吞吐量阈值,奖励函数说明只有D2D通信对Wi-Fi网络的干扰被限制在设定的范围内,同时保证D2D设备的通信质量,动作at才会有奖励,基站通过分析AP的广播信号获得m、RW和Φ,Rdi在基站和D2D设备信息交互时被基站获得,D2D系统总吞吐量
Figure BDA0003468721750000081
智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据,计算Q-Network_local的预测值qk和Q-Network_target目标值yk,qk和yk的表达式为:
qk=Q(sk,ak;θ)
yk=rk+γmaxa′Q′(sk+1,a′;θ-)
其中γ为折扣率,γ越小代表智能体越关注当前回报,反之同理。
获得预测值qk和目标值yk后,通过损失函数计算损失:
Figure BDA0003468721750000082
损失通过神经网络反向传播,使用梯度下降法来更新Q-Network_local的网络权重参数θ,经过设定的训练步数后,更新Q-Network_target的网络权重参数θ-,更新公式为:θ-=τθ+(1-τ)θ-,其中τ为软间隔更新系数,且0<τ<<1,τ越小,算法会越稳定,Q-network_target的参数变化越小,算法收敛速度会越慢,反之同理。
调试各种超参数,比如学习率、折扣率、Batch size、经验回放池大小以及ε等,使奖励函数曲线、D2D系统总吞吐量曲线、WiFi系统总吞吐量曲线经训练达到收敛状态,即重复步骤2及以下步骤,收敛状态时智能体执行的动作即为最优动作,由步骤1中动作的定义可知最优接入免授权频谱的D2D对以及其最优发射功率。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (8)

1.一种D2D通信的直接接入方法,其特征在于:该方法包括以下步骤:
S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;
S2:智能体根据ε-greedy策略选择一个动作at与环境交互;
S3:智能体执行动作at后,Wi-Fi将本地信息以广播的方式传递给智能体;
S4:智能体根据Wi-Fi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;
S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q-network的预测值和目标值;
S6:使用梯度下降法,更新Q-network_local的权重参数θ和Q-Network_target的网络权重参数θ-
S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率。
2.根据权利要求1所述的一种D2D通信的直接接入方法,其特征在于:在步骤S1中,场景中有N对D2D对,L个WiFi用户,D2D在免授权频谱B中采用正交频分多址接入,子信道带宽为
Figure FDA0003468721740000011
D2D之间没有干扰,将基站作为智能体,在t时刻,智能体的动作表示为at=[P1,P2,P3…PN],Pi为D2D对i发射端的发射功率,Pi∈{0,Pmin,Pmin+Δ,Pmin+2Δ,Pmin+3Δ,Pmax}
Figure FDA0003468721740000016
Pmax和Pmin分别为D2D最大和最小发射功率,状态st={M,RD,RW},其中M∈{0,1,2…L}为受到干扰的WiFi用户个数,
Figure FDA0003468721740000013
为D2D系统总吞吐量,Ri(P)表示D2D对i以功率P发送数据时的吞吐量,Ri(P)∈{Ri(0),Ri(Pmin),Ri(Pmin+Δ),Ri(Pmin+2Δ),Ri(Pmin+3Δ),Ri(Pmax)},
Figure FDA0003468721740000014
为WiFi系统的总吞吐量,
Figure FDA0003468721740000015
为受到干扰的Wi-Fi用户个数为l时的Wi-Fi总吞吐量,l∈{1,2,3…M}。
3.根据权利要求2所述的一种D2D通信的直接接入方法,其特征在于:在步骤S2中,智能体使用ε-greedy策略从动作集合中选择动作at,即智能体以概率ε从动作集合中随机抽取一个动作与环境交互,以概率1-ε选择通过最优动作价值函数Q*(st,at)估计的具有最大价值的动作
Figure FDA0003468721740000021
与环境交互,由于最优动作价值函数Q*(st,at)极难获取,因此本发明使用Deep Q-Network(DQN),将神经网络Q(st,at;θ)近似为Q*(st,at),ε-greedy策略的具体公式如下:
Figure FDA0003468721740000022
本发明采用的ε-greedy策略与传统的ε-greedy策略不同,在训练开始时将ε设置为1,随着训练步数的增加,ε线性下降直到设置的最小值,这能保证智能体探索到更好的动作,防止陷入局部最优,意味着随着学习的进展,智能体逐渐使用学到的知识进行更好的操作。
4.根据权利要求3所述的一种D2D通信的直接接入方法,其特征在于:在步骤S3中,AP周期性的广播Wi-Fi网络的一些信息,比如受到D2D通信干扰的Wi-Fi用户个数M等,基站对接收到的广播信息进行分析,获得D2D通信对Wi-Fi网络的干扰情况,当AP处于D2D的干扰范围内时,AP不能正确接受所有来自Wi-Fi用户的信号,无法通过M来反映干扰,此时Wi-Fi网络处于瘫痪状态,吞吐量为0,添加此状态的广播信息,记为Φ=1,反之Φ=0,作为智能体的基站可以根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率,AP广播信号的周期对应智能体的一步训练步数,即AP在智能体的决策时刻广播信号。
5.根据权利要求4所述的一种D2D通信的直接接入方法,其特征在于:在步骤S4中,当智能体执行动作at与环境交互后,环境生成下一个状态st+1,智能体获取动作at的奖励r(st,at),并将数据{st,at,rt,st+1}存储到经验回放空间中,奖励函数的定义为:
Figure FDA0003468721740000023
其中Rtotal是共存系统的总吞吐量,为D2D系统总吞吐量RD与Wi-Fi系统总吞吐量RW之和,M0是D2D通信干扰的Wi-Fi用户个数阈值,Rdi是动作at中任意一对D2D的吞吐量,Rd是单对D2D的吞吐量阈值,奖励函数说明只有D2D通信对Wi-Fi网络的干扰被限制在设定的范围内,同时保证D2D设备的通信质量,动作at才会有奖励,基站通过分析AP的广播信号获得m、RW和Φ,Rdi在基站和D2D设备信息交互时被基站获得,D2D系统总吞吐量
Figure FDA0003468721740000031
6.根据权利要求5所述的一种D2D通信的直接接入方法,其特征在于:在步骤S5中,智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据,计算Q-Network_local的预测值qk和Q-Network_target目标值的yk,qk和yk的表达式为:
qk=Q(sk,ak;θ)
yk=rk+γmaxa′Q′(sk+1,a′;θ-)
其中γ为折扣率,γ越小代表智能体越关注当前回报,反之同理。
7.根据权利要求6所述的一种D2D通信的直接接入方法,其特征在于:在步骤S6中,获得预测值qk和目标值yk后,通过损失函数计算损失:
Figure FDA0003468721740000032
损失通过神经网络反向传播,使用梯度下降法来更新Q-Network_local的网络权重参数θ,经过设定的训练步数后,更新Q-Network_target的网络权重参数θ-,更新公式为:θ-=τθ+(1-τ)θ-,其中τ为软间隔更新系数,且0<τ<<1,τ越小,算法会越稳定,Q-network_target的参数变化越小,算法收敛速度会越慢,反之同理。
8.根据权利要求7所述的一种D2D通信的直接接入方法,其特征在于:在步骤S7中,调试各种超参数,比如学习率、折扣率、Batch size、经验回放池大小以及ε等,使奖励函数曲线、D2D系统总吞吐量曲线、WiFi系统总吞吐量曲线经训练达到收敛状态,即重复步骤2及以下步骤,收敛状态时智能体执行的动作即为最优动作,由步骤1中动作的定义可知最优接入免授权频谱的D2D对以及其最优发射功率。
CN202210036695.3A 2022-01-13 2022-01-13 一种d2d通信的直接接入方法 Active CN114466386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210036695.3A CN114466386B (zh) 2022-01-13 2022-01-13 一种d2d通信的直接接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210036695.3A CN114466386B (zh) 2022-01-13 2022-01-13 一种d2d通信的直接接入方法

Publications (2)

Publication Number Publication Date
CN114466386A true CN114466386A (zh) 2022-05-10
CN114466386B CN114466386B (zh) 2023-09-29

Family

ID=81410485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210036695.3A Active CN114466386B (zh) 2022-01-13 2022-01-13 一种d2d通信的直接接入方法

Country Status (1)

Country Link
CN (1) CN114466386B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019231289A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN112492691A (zh) * 2020-11-26 2021-03-12 辽宁工程技术大学 一种深度确定性策略梯度的下行noma功率分配方法
CN113301638A (zh) * 2021-05-20 2021-08-24 东南大学 一种基于q学习的d2d通信频谱分配与功率控制算法
CN113316154A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
CN113644671A (zh) * 2021-07-30 2021-11-12 湖南工业大学 基于深度强化学习的城轨混合储能系统功率动态分配控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019231289A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN112492691A (zh) * 2020-11-26 2021-03-12 辽宁工程技术大学 一种深度确定性策略梯度的下行noma功率分配方法
CN113301638A (zh) * 2021-05-20 2021-08-24 东南大学 一种基于q学习的d2d通信频谱分配与功率控制算法
CN113316154A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
CN113644671A (zh) * 2021-07-30 2021-11-12 湖南工业大学 基于深度强化学习的城轨混合储能系统功率动态分配控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李国梁;裴二荣;: "大规模多输入多输出系统中基于离散傅里叶变换信道估计的导频污染消除方案", 科学技术与工程 *

Also Published As

Publication number Publication date
CN114466386B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Ren et al. A survey on dynamic spectrum access protocols for distributed cognitive wireless networks
Chafii et al. Enhancing coverage in narrow band-IoT using machine learning
CN106332094B (zh) 非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法
Yang et al. Spectrum sharing for 5G/6G URLLC: Research frontiers and standards
Scott-Hayward et al. Multimedia resource allocation in mmwave 5G networks
López-Raventós et al. Multi-link operation in IEEE 802.11 be WLANs
CN109600774B (zh) 一种LTE网络中基于联盟博弈的WiFi卸载方法
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
Lee OFDMA-based hybrid channel access for IEEE 802.11 ax WLAN
CN112822781A (zh) 一种基于q学习的资源分配方法
Liu et al. Distributed resource allocation for D2D-assisted small cell networks with heterogeneous spectrum
CN114363908A (zh) 基于a2c的非授权频谱资源共享方法
Katila et al. Neighbors-aware proportional fair scheduling for future wireless networks with mixed MAC protocols
CN113225828B (zh) 一种面向WiFi-ZigBee网络协同传输的方法
Zhang et al. Cognitive radio MAC protocol for WLAN
CN111246502B (zh) 一种基于q学习的能量阈值动态优化方法
Zhang et al. Unlicensed spectrum usage method for cellular communication systems
CN117715219A (zh) 基于深度强化学习的空时域资源分配方法
Pei et al. A Q-learning based Resource Allocation Algorithm for D2D-Unlicensed communications
Bairagi et al. LTE-U sum-rate maximization considering QoS and co-existence issue
Ho et al. Long Term Evolution in unlicensed bands
CN106304267B (zh) 一种以用户为中心的虚拟小区选择方法
CN114466386A (zh) 一种d2d通信的直接接入方法
Wang et al. A cognitive MAC protocol for QoS provisioning in ad hoc networks
CN113316156B (zh) 免授权频段上的一种智能共存方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230904

Address after: 518000 Building F, Building 2301 and 2306, Zhigu R&D Building, Shuguang Community, Xili Street, Nanshan District, Shenzhen, Guangdong Province

Applicant after: SHENZHEN CXD SCIENCE & TECHNOLOGY Co.,Ltd.

Address before: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Applicant before: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Effective date of registration: 20230904

Address after: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Applicant after: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Address before: 400065 No. 2, Chongwen Road, Nan'an District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant