发明内容
有鉴于此,本发明提供了一种D2D通信的直接接入方法,使Wi-Fi受到的干扰被限制在设定的阈值范围内,实现共存系统的吞吐量最大化。
为了达到上述目的,本发明提供如下技术方案:
一种D2D通信的直接接入方法,包括以下步骤:
S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;
S2:智能体根据ε-greedy策略选择一个动作at与环境交互;
S3:智能体执行动作at后,Wi-Fi将本地信息以广播的方式传递给智能体;
S4:智能体根据Wi-Fi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;
S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q-network的预测值和目标值;
S6:使用梯度下降法,更新Q-network_local的权重参数θ和Q-Network_target的网络权重参数θ-;
S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率。
进一步,在步骤S1中,场景中有N对D2D对,L个WiFi用户,D2D在免授权频谱B中采用正交频分多址接入,子信道带宽为
D2D之间没有干扰,将基站作为智能体,在t时刻,智能体的动作表示为a
t=[P
1,P
2,P
3…P
N],P
i为D2D对i发射端的发射功率,P
i∈{0,P
min,P
min+Δ,P
min+2Δ,P
min+3Δ,P
max}
P
max和P
min分别为D2D最大和最小发射功率,状态s
t={M,R
D,R
W},其中M∈{0,1,2…L}为受到干扰的WiFi用户个数,
为D2D系统总吞吐量,R
i(P)表示D2D对i以功率P发送数据时的吞吐量,R
i(P)∈{R
i(0),R
i(P
min),R
i(P
min+Δ),R
i(P
min+2Δ),R
i(P
min+3Δ),R
i(P
max)},
为WiFi系统的总吞吐量,
为受到干扰的Wi-Fi用户个数为l时的Wi-Fi总吞吐量,l∈{1,2,3…M}。
进一步,在步骤S2中,智能体使用ε-greedy策略从动作集合中选择动作a
t,即智能体以概率ε从动作集合中随机抽取一个动作与环境交互,以概率1-ε选择通过最优动作价值函数Q
*(s
t,a
t)估计的具有最大价值的动作
与环境交互,由于最优动作价值函数Q
*(s
t,a
t)极难获取,因此本发明使用Deep Q-Network(DQN),将神经网络Q(s
t,a
t;θ)近似为Q
*(s
t,a
t),ε-greedy策略的具体公式如下:
本发明采用的ε-greedy策略与传统的ε-greedy策略不同,在训练开始时将ε设置为1,随着训练步数的增加,ε线性下降直到设置的最小值,这能保证智能体探索到更好的动作,防止陷入局部最优,意味着随着学习的进展,智能体逐渐使用学到的知识进行更好的操作。
进一步,在步骤S3中,AP周期性的广播Wi-Fi网络的一些信息,比如受到D2D通信干扰的Wi-Fi用户个数M等,基站对接收到的广播信息进行分析,获得D2D通信对Wi-Fi网络的干扰情况,当AP处于D2D的干扰范围内时,AP不能正确接受所有来自Wi-Fi用户的信号,无法通过M来反映干扰,此时Wi-Fi网络处于瘫痪状态,吞吐量为0,添加此状态的广播信息,记为Φ=1,反之Φ=0,作为智能体的基站可以根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率,AP广播信号的周期对应智能体的一步训练步数,即AP在智能体的决策时刻广播信号。
进一步,在步骤S4中,当智能体执行动作at与环境交互后,环境生成下一个状态st+1,智能体获取动作at的奖励r(st,at),并将数据{st,at,rt,st+1}存储到经验回放空间中,奖励函数的定义为:
其中R
total是共存系统的总吞吐量,为D2D系统总吞吐量R
D与Wi-Fi系统总吞吐量R
W之和,M
0是D2D通信干扰的Wi-Fi用户个数阈值,R
di是动作a
t中任意一对D2D的吞吐量,R
d是单对D2D的吞吐量阈值,奖励函数说明只有D2D通信对Wi-Fi网络的干扰被限制在设定的范围内,同时保证D2D设备的通信质量,动作a
t才会有奖励,基站通过分析AP的广播信号获得m、R
W和Φ,R
di在基站和D2D设备信息交互时被基站获得,D2D系统总吞吐量
进一步,在步骤S5中,智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据,计算Q-Network_local的预测值qk和Q-Network_target的目标值yk,qk和yk的表达式为:
qk=Q(sk,ak;θ)
yk=rk+γmaxa′Q′(sk+1,a′;θ-)
其中γ为折扣率,γ越小代表智能体越关注当前回报,反之同理。
进一步,在步骤S6中,获得预测值qk和目标值yk后,通过损失函数计算损失:
损失通过神经网络反向传播,使用梯度下降法来更新Q-Network_local的网络权重参数θ,经过设定的训练步数后,更新Q-Network_target的网络权重参数θ-,更新公式为:θ-=τθ+(1-τ)θ-,其中τ为软间隔更新系数,且0<τ<<1,τ越小,算法会越稳定,Q-network_target的参数变化越小,算法收敛速度会越慢,反之同理。
进一步,在步骤S7中,调试各种超参数,比如学习率、折扣率、Batch size、经验回放池大小以及ε等,使奖励函数曲线、D2D系统总吞吐量曲线、Wi-Fi系统总吞吐量曲线经训练达到收敛状态,即重复步骤2及以下步骤,收敛状态时智能体执行的动作即为最优动作,由步骤1中动作的定义可知最优接入免授权频谱的D2D对及其最优发射功率。
本发明的优点及有益效果
随着移动设备和带宽需求的爆炸性增长,用户对授权频谱资源的需求正在经历前所未有的增长。因为D2D具有通信距离短以及发射功率低的特性,将D2D设备接入频谱资源充裕的免授权频谱,能进一步减缓授权频谱的需求压力。
相较于目前的LBT和DC共存机制,本发明所提出的直接接入方法,即D2D设备直接接入免授权频谱,在频谱利用率和共存系统总吞吐量方面能有更大的性能提升。对于LBT共存机制,其类似于Wi-Fi采用的通信协议CSMA/CA,LTE设备和Wi-Fi用户接入免授权频谱都具有随机性。当设备监测到信道忙时,会暂缓信号的发送,这意味着免授权频道被占用时,其他设备无法共享信道,导致免授权频谱的频谱利用率低。对于DC共存机制,LTE用户在周期的一小部分内进行传输,并在剩余时间内关闭,将免授权信道移交给Wi-Fi用户。但在如今的热点地区,Wi-Fi网络往往处于饱和状态,因此分配给LTE设备的时间占比会更小,从而限制LTE网络吞吐量的提升。对于本发明提出的直接接入共存方法,D2D设备使用免授权频谱没有时间限制并且与Wi-Fi用户共享信道。基站选择不同的D2D设备接入免授权频谱以及调整D2D的发射功率,在满足对Wi-Fi网络的干扰被约束在设定范围的条件下,实现提升免授权频谱利用率和共存系统总吞吐量的目的。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对授权频谱上的频谱资源紧张问题以及免授权频谱的频谱利用率低问题,提出一种D2D通信的直接接入方法。为了将D2D设备与Wi-Fi网络共存,本文设计了基于深度强化学习的直接接入算法,深度强化学习框架如图1所示,将基站作为智能体,基站通过ε-greedy策略选择动作与环境交互,即选择不同的D2D设备接入免授权频谱以及调整D2D的发射功率,一方面尽可能的提升共存网络的总吞吐量,另一方面将D2D对Wi-Fi网络的干扰控制在设置的范围内。
网络模型如图2所示,共存场景中存在一个Wi-Fi接入点AP,一个基站,Wi-Fi用户与D2D设备分别随机分布在AP的覆盖范围内和基站的覆盖范围内,免授权频谱被划分为N个子信道以支持D2D正交频分多址接入。AP在智能体的每个决策时刻广播当前Wi-Fi网络中受干扰的Wi-Fi用户个数、吞吐量、Φ等信息,基站能够对接收到的广播信息进行分析。
如图3所示,一种D2D通信的直接接入方法,该方法包括以下步骤:
S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;
S2:智能体根据ε-greedy策略选择一个动作at与环境交互;
S3:智能体执行动作at后,Wi-Fi将本地信息以广播的方式传递给智能体;
S4:智能体根据Wi-Fi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;
S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q-network的预测值和目标值;
S6:使用梯度下降法,更新Q-network_local的权重参数θ和Q-Network_target的网络权重参数θ-;
S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率。
场景中有N对D2D对,L个WiFi用户,D2D在免授权频谱B中采用正交频分多址接入,子信道带宽为
D2D之间没有干扰,将基站作为智能体,在t时刻,智能体的动作表示为a
t=[P
1,P
2,P
3…P
N],P
i为D2D对i发射端的发射功率,P
i∈{0,P
min,P
min+Δ,P
min+2Δ,P
min+3Δ,P
max},
P
max和P
min分别为D2D最大和最小发射功率,状态s
t={M,R
D,R
W},其中M∈{0,1,2…L}为受到干扰的WiFi用户个数,
为D2D系统总吞吐量,R
i(P)表示D2D对i以功率P发送数据时的吞吐量,R
i(P)∈{R
i(0),R
i(P
min),R
i(P
min+Δ),R
i(P
min+2Δ),R
i(P
min+3Δ),R
i(P
max)},
为WiFi系统的总吞吐量,
为受到干扰的Wi-Fi用户个数为l时的Wi-Fi总吞吐量,l∈{1,2,3…M}。
智能体使用ε-greedy策略从动作集合中选择动作a
t,即智能体以概率ε从动作集合中随机抽取一个动作与环境交互,以概率1-ε选择通过最优动作价值函数Q
*(s
t,a
t)估计的具有最大价值的动作
与环境交互,由于最优动作价值函数Q
*(s
t,a
t)极难获取,因此本发明使用Deep Q-Network(DQN),将神经网络Q(s
t,a
t;θ)近似为Q
*(s
t,a
t),ε-greedy策略的具体公式如下:
本发明采用的ε-greedy策略与传统的ε-greedy策略不同,在训练开始时将ε设置为1,随着训练步数的增加,ε线性下降直到设置的最小值,这能保证智能体探索到更好的动作,防止陷入局部最优,意味着随着学习的进展,智能体逐渐使用学到的知识进行更好的操作。
AP周期性的广播Wi-Fi网络的一些信息,比如受到D2D通信干扰的Wi-Fi用户个数M等,基站对接收到的广播信息进行分析,获得D2D通信对Wi-Fi网络的干扰情况,当AP处于D2D的干扰范围内时,AP不能正确接受所有来自Wi-Fi用户的信号,无法通过M来反映干扰,此时Wi-Fi网络处于瘫痪状态,吞吐量为0,添加此状态的广播信息,记为Φ=1,反之Φ=0,作为智能体的基站可以根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率,AP广播信号的周期对应智能体的一步训练步数,即AP在智能体的决策时刻广播信号。
当智能体执行动作at与环境交互后,环境生成下一个状态st+1,智能体获取动作at的奖励r(st,at),并将数据{st,at,rt,st+1}存储到经验回放空间中,奖励函数的定义为:
其中R
total是共存系统的总吞吐量,为D2D系统总吞吐量R
D与Wi-Fi系统总吞吐量R
W之和,M
0是D2D通信干扰的Wi-Fi用户个数阈值,R
di是动作a
t中任意一对D2D的吞吐量,R
d是单对D2D的吞吐量阈值,奖励函数说明只有D2D通信对Wi-Fi网络的干扰被限制在设定的范围内,同时保证D2D设备的通信质量,动作a
t才会有奖励,基站通过分析AP的广播信号获得m、R
W和Φ,R
di在基站和D2D设备信息交互时被基站获得,D2D系统总吞吐量
智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据,计算Q-Network_local的预测值qk和Q-Network_target目标值yk,qk和yk的表达式为:
qk=Q(sk,ak;θ)
yk=rk+γmaxa′Q′(sk+1,a′;θ-)
其中γ为折扣率,γ越小代表智能体越关注当前回报,反之同理。
获得预测值qk和目标值yk后,通过损失函数计算损失:
损失通过神经网络反向传播,使用梯度下降法来更新Q-Network_local的网络权重参数θ,经过设定的训练步数后,更新Q-Network_target的网络权重参数θ-,更新公式为:θ-=τθ+(1-τ)θ-,其中τ为软间隔更新系数,且0<τ<<1,τ越小,算法会越稳定,Q-network_target的参数变化越小,算法收敛速度会越慢,反之同理。
调试各种超参数,比如学习率、折扣率、Batch size、经验回放池大小以及ε等,使奖励函数曲线、D2D系统总吞吐量曲线、WiFi系统总吞吐量曲线经训练达到收敛状态,即重复步骤2及以下步骤,收敛状态时智能体执行的动作即为最优动作,由步骤1中动作的定义可知最优接入免授权频谱的D2D对以及其最优发射功率。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。