CN108668304A

CN108668304A - 一种基于深度强化学习的非正交接入下行传输时间优化方法

Info

Publication number: CN108668304A
Application number: CN201810477039.0A
Authority: CN
Inventors: 吴远; 张�成; 倪克杰; 陈佳; 钱丽萍; 黄亮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2018-10-16
Anticipated expiration: 2038-05-18
Also published as: CN108668304B

Abstract

一种基于深度强化学习的非正交接入下行传输时间优化方法，包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，提出了一种满足移动用户的服务质量同时，在移动用户的下载量给定的情况下最小化基站的下行传输时间和基站总能量消耗；(2)通过强化学习算法来找到一个最优的下行传输时间t^*，使得有最优的下行资源消耗；(3)不断重复迭代过程直到得到最优的下行传输时间t^*，使得有最优的下行资源消耗。本发明提供一种最小化下行传输时间与基站总能量消耗的基于深度强化学习的非正交接入下行传输时间优化方法。

Description

一种基于深度强化学习的非正交接入下行传输时间优化方法

技术领域

本发明属于通信领域，一种基于深度强化学习的非正交接入下行传输时间优化方法。

背景技术

移动互联网业务的快速发展，对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源，利用非正交接入技术使移动用户同时共用同一信道为无线接入提供一种有效的方法，实现在未来的5G网中超高吞吐量和大规模连接的目标。我们旨在最小化下行传输时间与基站总能量消耗，在基站发送数据到对应移动用户的传输过程中。我们提出了一种基于深度强化学习的非正交接入下行传输时间优化方法。

发明内容

为了克服现有技术的下行传输时间较长、基站总能量消耗较大的不足，本发明提供一种最小化下行传输时间与基站总能量消耗的基于深度强化学习的非正交接入下行传输时间优化方法，本发明针对下行传输时间过大的难点，主要考虑的是利用非正交接入技术来传输数据，研究了一种基于深度强化学习的非正交接入下行传输时间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于深度强化学习的非正交接入下行传输时间优化方法，包括以下步骤：

(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合表示，基站使用非正交接入技术同时向移动用户发送数据，其中移动用户i需要接收的数据量用表示；

在保证基站发送完成所有移动用户数据量的条件下，最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM(Downloading-Duration ResourceConsumption Minimization)问题，DDRCM指的是下行资源消耗最小化：

0≤t≤T^max (1-3)

Variables:t

下面将问题中的各个变量做一个说明，如下：

α:下行传输时间的权重因子；

β:下行传输总能量消耗的权重因子；

t:基站发送数据到移动用户的下行传输时间，单位是秒；

是关于t的函数，表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率，单位是瓦特；

W:基站到移动用户的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_Bi:基站到移动用户i的信道功率增益；

基站需要发送到移动用户i的数据量，单位是兆比特；

基站最大下载能量消耗，单位是焦耳；

T^max:基站发送数据到移动用户的最大下行传输时间，单位是秒；

(2)DDRCM问题表示如下：

s.t.constraint(1-1)

constraint(1-2)

Variable:0≤t≤T^max

DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗(下行传输时间和基站总能量消耗)，观察DDRCM问题知道它的目标函数只有一个变量t；

(3)通过强化学习算法来寻找一个最优的下行传输时间记为t^*，该强化学习系统由智能体和环境所组成；基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T,a)；在智能体和环境不断交互更新下，下行传输时间t将不断被优化直到找到下行资源消耗(即下行传输时间与基站总能量消耗)的最小值，智能体的更新方式为：

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (1-5)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态x_t下采取动作a所得到的Q值；

r(x_T,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T,a)设为正值，反之设为负值，同时系统进入下一状态x_T+1。

进一步，所述步骤(4)中，所述强化学习的迭代过程为：

步骤4.1：初始化强化学习中的评估网络，目标网络和记忆库，当前系统状态为x_T，T初始化为1，迭代次数k初始化为1；

步骤4.2：当k小于或等于给定迭代次数K时，随机选择一个概率p；

步骤4.3：如果p小于或等于ε；则选择评估网络所输出的动作a(T)，否则随机选择一个动作；

步骤4.4：采取动作a(T)后，得到奖励r(T)和下一步状态x(T+1)，并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中；

步骤4.5：结合目标网络的输出，计算评估网络的目标

步骤4.6：最小化误差(y-Q(x(T),a(T)；θ))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤4.7：每隔S步，将评估网络的参数赋值给目标网络，同时令k＝k+1，回到步骤4.2；

步骤4.8：当k大于给定迭代次数K时，学习过程结束，得到最优的下行传输时间t^*，使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。

本发明的技术构思为：首先，考虑在蜂窝无线网络中，基站通过非正交接入技术传输数据实现最小化下行传输时间与基站总能量消耗来获得一定的经济效益和服务质量。在此处，考虑的前提是基站的下载能量消耗及下行传输时间的限制。在保证基站发送完成所有移动用户数据量的条件下，实现最小化下行资源消耗。

本发明的有益效果主要表现在:1、对于下行整体而言，利用非正交接入技术大大提高了系统传输效率；2、对于基站而言，通过非正交接入技术获得更优质的无线网络体验质量；3、通过深度强化学习得到最优的下行传输时间t^*，使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。

附图说明

图1是无线网络中基站和多个移动用户的下行场景示意图。

图2是找到最优的下行传输时间t^*的方法流程图。

具体实施方式

下面结合附图对于本发明作进一步详细描述。

参照图1和图2，一种基于深度强化学习的非正交接入下行传输时间优化方法，实行该方法能在同时保证基站发送完成所有移动用户数据量的条件下，使得下行传输时间与基站总能量消耗最小化，提高整个系统的无线网络体验质量。本发明可以应用于无线网络，如图1所示场景中。针对该目标设计对问题的优化方法包括如下步骤：

0≤t≤T^max (1-3)

Variables:t

下面将问题中的各个变量做一个说明，如下：

α:下行传输时间的权重因子；

β:下行传输总能量消耗的权重因子；

t:基站发送数据到移动用户的下行传输时间，单位是秒；

W:基站到移动用户的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_Bi:基站到移动用户i的信道功率增益；

基站需要发送到移动用户i的数据量，单位是兆比特；

基站最大下载能量消耗，单位是焦耳；

(2)DDRCM问题表示如下：

s.t.constraint(1-1)

constraint(1-2)

Variable:0≤t≤T^max

DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗(下行传输时间和基站总能量消耗)，可以观察DDRCM问题知道它的目标函数只有一个变量t；

(3)通过强化学习算法来寻找一个最优的下行传输时间记为t^*，该强化学习系统由智能体和环境所组成；基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x₊,a)；在智能体和环境不断交互更新下，下行传输时间t将不断被优化直到找到下行资源消耗(即下行传输时间与基站总能量消耗)的最小值，智能体的更新方式为：

Q^θ(x₊,a)＝r(x_T,a)+γmaxQ^θ′(x₊₊₁,a′) (1-5)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态x_t下采取动作a所得到的Q值；

r(x_T,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T,a)设为正值，反之设为负值，同时系统进入下一状态x_T+1；

强化学习的迭代过程为：

步骤4.5：结合目标网络的输出，计算评估网络的目标y＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′)；

Claims

1.一种基于深度强化学习的非正交接入下行传输时间优化方法，其特征在于，所述方法包括以下步骤：

在保证基站发送完成所有移动用户数据量的条件下，最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题，DDRCM指的是下行资源消耗最小化：

DDRCM：

0≤t≤T^max (1-3)

Variables：t

下面将问题中的各个变量做一个说明，如下：

α：下行传输时间的权重因子；

β：下行传输总能量消耗的权重因子；

t：基站发送数据到移动用户的下行传输时间，单位是秒；

W：基站到移动用户的信道带宽，单位是赫兹；

n₀：信道背景噪声的频谱功率密度；

g_Bi：基站到移动用户i的信道功率增益；

基站需要发送到移动用户i的数据量，单位是兆比特；

基站最大下载能量消耗，单位是焦耳；

T^max：基站发送数据到移动用户的最大下行传输时间，单位是秒；

(2)DDRCM问题表示如下：

DDRCM：

s.t.constraint(1-1)

constraint(1-2)

Variable：0≤t≤T^max

DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗，观察DDRCM问题知道它的目标函数只有一个变量t；

(3)通过强化学习算法来寻找一个最优的下行传输时间记为t^*，该强化学习系统由智能体和环境所组成；基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T，a)；在智能体和环境不断交互更新下，下行传输时间t将不断被优化直到找到下行资源消耗的最小值，智能体的更新方式为：

Q^θ(x_T，a)＝r(x_T，a)+γmaxQ^θ′(x_T+1，a′) (1-5)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T，a)：在状态x_t下采取动作a所得到的Q值；

r(x_T，a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T，a)设为正值，反之设为负值，同时系统进入下一状态x_T+1。

2.如权利要求1所述的一种基于深度强化学习的非正交接入下行传输时间优化方法，其特征在于，所述步骤(4)中，所述强化学习的迭代过程为：

步骤4.4：采取动作a(T)后，得到奖励r(T)和下一步状态x(T+1)，并将这些信息按照格式(x(T)，a(T)，r(T)，x(T+1))保存在记忆库中；

步骤4.5：结合目标网络的输出，计算评估网络的目标y＝r(x_T，a)+γmaxQ^θ′(x_T+1，a′)；

步骤4.6：最小化误差(y-Q(x(T)，a(T)；θ))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤4.8：当k大于给定迭代次数K时，学习过程结束，得到最优的下行传输时间t^*，使得有最优的下行资源消耗。