CN108712755B

CN108712755B - 基于深度强化学习的非正交接入上行传输时间优化方法

Info

Publication number: CN108712755B
Application number: CN201810477062.XA
Authority: CN
Inventors: 吴远; 倪克杰; 张�成; 冯旭; 陈佳; 钱丽萍; 黄亮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2021-02-26
Anticipated expiration: 2038-05-18
Also published as: CN108712755A

Abstract

一种基于深度强化学习的非正交接入上行传输时间优化方法，包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，提出了一种满足移动用户的服务质量同时，在移动用户的上传量

给定的情况下最小化移动用户的上行传输时间和所有用户总能量消耗；(2)ORRCM问题是在给定移动用户上传量

的情况下找到最优的整体无线资源消耗，观察ORRCM问题知道它的目标函数只有一个变量t；(3)通过强化学习算法来找到一个最优的上行传输时间t^*，使得有最优的整体无线资源消耗；(4)不断重复迭代过程直到得到最优的上行传输时间t^*，使得有最优的整体无线资源消耗。

Description

基于深度强化学习的非正交接入上行传输时间优化方法

技术领域

本发明属于通信领域，一种基于深度强化学习的非正交接入上行传输时间优化方法。

背景技术

移动互联网业务的快速发展，对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源，利用非正交接入技术使移动用户同时共用同一信道为无线接入提供一种有效的方法，实现在未来的5G网中超高吞吐量和大规模连接的目标。

发明内容

为了克服现有技术的上行传输时间较长、所有移动用户总能量消耗较大的不足，本发明提供一种最小化上行传输时间与所有移动用户总能量消耗的基于深度强化学习的非正交接入上行传输时间优化方法，本发明针对上行传输时间过大的难点，主要考虑的是利用非正交接入技术来传输数据，研究了一种基于深度强化学习的非正交接入上行传输时间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于深度强化学习的非正交接入上行传输时间优化方法，包括以下步骤：

(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合

表示，移动用户使用非正交接入技术同时向基站发送数据，其中移动用户i需要发送的数据量用

表示；

在保证发送完成所有移动用户数据量的条件下，最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题 ORRCM(Overall Radio ResourceConsumption Minimization)问题， ORRCM指的是整体无线资源消耗最小化：

ORRCM:

0≤t≤T^max (1-3)

Variables:t

下面将问题中的各个变量做一个说明，如下：

α:上行传输时间的权重因子；

β:上行传输总能量消耗的权重因子；

t:移动用户发送数据到基站的上行传输时间，单位是秒；

是关于t的函数，表示移动用户i为了在给定上行传输时间t 内完成发送数据量

所需要的最小发射功率，单位是瓦特；

W:移动用户到基站的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_iB:移动用户i到基站的信道功率增益；

移动用户i需要发送到基站的数据量，单位是兆比特；

移动用户i最大上传能量消耗，单位是焦耳；

T^max:移动用户发送数据到基站的最大上行传输时间，单位是秒；

(2)ORRCM问题表示如下：

ORRCM:

s.t.constraint(1-1)

constraint(1-2)

Variable:0≤t≤T^max

ORRCM问题是在给定移动用户上传量

的情况下找到最优的整体无线资源消耗(上行传输时间和所有移动用户总能量消耗)，观察ORRCM问题知道它的目标函数只有一个变量t；

(3)通过强化学习算法来寻找一个最优的上行传输时间记为t^*，该强化学习系统由智能体和环境所组成；所有移动用户的上行传输时间 t和每个移动用户的最小发射功率

都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T,a)；在智能体和环境不断交互更新下，上行传输时间t 将不断被优化直到找到整体无线资源消耗(即上行传输时间与所有用户总能量消耗)的最小值，智能体的更新方式为：

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (1-5)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态x_t下采取动作a所得到的Q值；

r(x_T,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率

作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T,a)设为正值，反之设为负值，同时系统进入下一状态x_T+1；

强化学习的迭代过程为：

步骤4.1：初始化强化学习中的评估网络，目标网络和记忆库，当前系统状态为x_T，T初始化为1，迭代次数k初始化为1；

步骤4.2：当k小于或等于给定迭代次数K时，随机选择一个概率 p；

步骤4.3：如果p小于或等于ε；则选择评估网络所输出的动作a(T)，否则随机选择一个动作；

步骤4.4：采取动作a(T)后，得到奖励r(T)和下一步状态x(T+1)，并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中；

步骤4.5：结合目标网络的输出，计算评估网络的目标

y＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′)；

步骤4.6：最小化误差(y-Q(x(T),a(T)；θ))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤4.7：每隔S步，将评估网络的参数赋值给目标网络，同时令 k＝k+1，回到步骤4.2；

步骤4.8：当k大于给定迭代次数K时，学习过程结束，得到最优的上行传输时间t^*，使得有最优的整体无线资源消耗(包括上行传输时间与所有移动用户总能量消耗)。

本发明的技术构思为：首先，考虑在蜂窝无线网络中，移动用户通过非正交接入技术传输数据实现最小化上行传输时间与所有移动用户总能量消耗来获得一定的经济效益和服务质量。在此处，考虑的前提是移动用户的上传能量消耗及上行传输时间的限制。在保证发送完成所有移动用户数据量的条件下，实现最小化整体无线资源消耗。

本发明的有益效果主要表现在:1、对于上行整体而言，利用非正交接入技术大大提高了系统传输效率；2、对于移动用户而言，通过非正交接入技术获得更优质的无线网络体验质量；3、通过深度强化学习得到最优的上行传输时间t^*，使得有最优的整体无线资源消耗 (包括上行传输时间与所有移动用户总能量消耗)。

附图说明

图1是无线网络中多个移动用户和基站的上行场景示意图。

图2是找到最优的上行传输时间t^*的方法流程图。

具体实施方式

下面结合附图对于本发明作进一步详细描述。

参照图1和图2，一种基于深度强化学习的非正交接入上行传输时间优化方法，实行该方法能在同时保证发送完成所有移动用户数据量的条件下，使得上行传输时间与所有移动用户总能量消耗最小化，提高整个系统的无线网络体验质量。本发明可以应用于无线网络，如图1所示场景中。针对该目标设计对问题的优化方法主要包括如下步骤：

(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合

表示；

ORRCM:

0≤t≤T^max (1-3)

Variables:t

下面将问题中的各个变量做一个说明，如下：

α:上行传输时间的权重因子；

β:上行传输总能量消耗的权重因子；

t:移动用户发送数据到基站的上行传输时间，单位是秒；

所需要的最小发射功率，单位是瓦特；

W:移动用户到基站的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_iB:移动用户i到基站的信道功率增益；

移动用户i需要发送到基站的数据量，单位是兆比特；

移动用户i最大上传能量消耗，单位是焦耳；

(2)ORRCM问题表示如下：

ORRCM:

s.t.constraint(1-1)

constraint(1-2)

Variable:0≤t≤T^max

ORRCM问题是在给定移动用户上传量

的情况下找到最优的整体无线资源消耗(上行传输时间和所有移动用户总能量消耗)，可以观察ORRCM问题知道它的目标函数只有一个变量t；

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (1-5)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态x_t下采取动作a所得到的Q值；

r(x_T,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

强化学习的迭代过程为：

步骤4.5：结合目标网络的输出，计算评估网络的目标

y＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′)；

Claims

1.一种基于深度强化学习的非正交接入上行传输时间优化方法，其特征在于，所述方法包括以下步骤：

(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合

表示；

在保证发送完成所有移动用户数据量的条件下，最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题ORRCM问题，ORRCM指的是整体无线资源消耗最小化：

0≤t≤T^max (1-3)

Variables：t

下面将问题中的各个变量做一个说明，如下：

α：上行传输时间的权重因子；

β：上行传输总能量消耗的权重因子；

t：移动用户发送数据到基站的上行传输时间，单位是秒；

是关于t的函数，表示移动用户i为了在给定上行传输时间t内完成发送数据量

所需要的最小发射功率，单位是瓦特；

W：移动用户到基站的信道带宽，单位是赫兹；

n₀：信道背景噪声的频谱功率密度；

g_iB：移动用户i到基站的信道功率增益；

移动用户i需要发送到基站的数据量，单位是兆比特；

移动用户i最大上传能量消耗，单位是焦耳；

T^max：移动用户发送数据到基站的最大上行传输时间，单位是秒；

(2)ORRCM问题表示如下：

s.t.constraint(1-1)

constraint(1-2)

Variable：0≤t≤T^max

ORRCM问题是在给定移动用户上传量

的情况下找到最优的整体无线资源消耗，观察ORRCM问题知道它的目标函数只有一个变量t；

(3)通过强化学习算法来寻找一个最优的上行传输时间记为t^*，该强化学习系统由智能体和环境所组成；所有移动用户的上行传输时间t和每个移动用户的最小发射功率

都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T，a)；在智能体和环境不断交互更新下，上行传输时间t将不断被优化直到找到整体无线资源消耗的最小值，智能体的更新方式为：

Q^θ(x_T，a)＝r(x_T，a)+γmaxQ^θ′(x_T+1，a′) (1-5)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T，a)：在状态x_t下采取动作a所得到的Q值；

r(x_T，a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T，a)设为正值，反之设为负值，同时系统进入下一状态x_T+1；

强化学习的迭代过程为：

步骤4.2：当k小于或等于给定迭代次数K时，随机选择一个概率p；

步骤4.4：采取动作a(T)后，得到奖励r(T)和下一步状态x(T+1)，并将这些信息按照格式(x(T)，a(T)，r(T)，x(T+1))保存在记忆库中；

步骤4.5：结合目标网络的输出，计算评估网络的目标y＝r(x_T，a)+γmaxQ^θ′(x_T+1，a′)；

步骤4.6：最小化误差(y-Q(x(T)，a(T)；θ))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤4.7：每隔S步，将评估网络的参数赋值给目标网络，同时令k＝k+1，回到步骤4.2；

步骤4.8：当k大于给定迭代次数K时，学习过程结束，得到最优的上行传输时间t^*，使得有最优的整体无线资源消耗。