CN108770072B

CN108770072B - 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法

Info

Publication number: CN108770072B
Application number: CN201810661506.5A
Authority: CN
Inventors: 吴远; 张�成; 倪克杰; 陈相旭; 钱丽萍; 黄亮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2021-10-29
Anticipated expiration: 2038-06-25
Also published as: CN108770072A

Abstract

一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法，包括以下步骤：(1)在给定一种解码排序π^m的条件下,优化问题描述为一个非凸性优化问题；(P1‑m)问题是在给定智能终端上传量

的情况下找到最优的整体无线资源消耗，观察(P1‑m)问题知道它的目标函数只有一个变量；(2)和(3)通过深度强化学习算法来找到一个最优的上行传输时间，使得有最优的整体无线资源消耗；(4)提出算法OptOrder‑Algorithm找到最优的解码排序，再联合深度强化学习算法，输出全局最小整体无线资源消耗和全局最优上行传输时间。本发明提高了系统传输效率，获得更优质的无线网络体验质量，使得有最优的整体无线资源消耗。

Description

一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法

技术领域

本发明属于通信领域，一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。

背景技术

适应物联网(Internet of Thing,IoT)应用的大规模连接已被视为未来5G蜂窝系统的重要目标。非正交多址接入(Non-orthogonal Multiple Access,NOMA)使一组智能终端(Smart Terminal,ST)能够同时共享相同的频谱信道进行传输，为实现频谱高效数据传输的目标提供了一种有效的方法。我们考虑无线网络中的上行链路传输，其中智能终端(例如智能手表)使用NOMA技术将其数据发送到接入热点。我们旨在最大限度地减少整体无线资源消耗量，包括上行传输时间和上行传输总能量。

发明内容

为了克服现有技术的上行传输时间较长、智能终端能量消耗较大的不足，本发明提供一种最小化上行传输时间与所有智能终端总能量消耗的基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法，本发明针对上行传输时间过大的难点，主要考虑的是利用非正交接入技术来传输数据，研究了一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法，包括以下步骤：

(1)在接入热点的覆盖范围下总共有I个智能终端，智能终端用集合

表示，也就是说，给定一组智能终端

就有I！种解码排序，智能终端使用非正交接入技术同时向接入热点发送数据，其中智能终端i需要发送的数据量用

表示；

在保证发送完成所有智能终端的数据量以及给定一种解码排序π^m，其中m＝1,2,…,I！的条件下，最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题：

0≤t^m≤T^max (1-3)

Variables:t^m

下面将问题中的各个变量做一个说明，如下：

π^m(i):给定解码排序π^m的条件下，智能终端i的解码顺序；

α:上行传输时间的权重因子；

β:上行传输总能量消耗的权重因子；

t^m:智能终端发送数据到接入热点的上行传输时间，单位是秒；

是关于t^m的函数，表示在第m种解码排序π^m的情况下，智能终端i在给定上行传输时间t^m内完成发送数据量

所需要的最小发射功率，单位是瓦特；

W:智能终端到接入热点的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_iA:智能终端i到接入热点的信道功率增益；

智能终端i需要发送到接入热点的数据量，单位是兆比特；

智能终端i最大上传能量消耗，单位是焦耳；

T^max:智能终端发送数据到接入热点的最大上行传输时间，单位是秒；

(P1-m)问题是在给定智能终端上传量

的情况下找到最小的整体无线资源消耗量，所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗，观察(P1-m)问题知道它的目标函数只有一个变量t^*,m；

(2)通过强化学习算法来寻找一个最优的上行传输时间记为t^*,m，该强化学习系统由智能体和环境所组成；所有智能终端的上行传输时间t^m和每个智能终端的最小发射功率

都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T,a)；在智能体和环境不断交互更新下，上行传输时间t^m将不断被优化直到找到整体无线资源消耗的最小值，智能体的更新方式为：

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (2-1)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态

下采取动作a所得到的Q值；

r(x_T,a)：在状态

下采取动作a所得到的奖励；

γ：奖励衰减比重；

(3)所有智能终端的上行传输时间t^m和每个智能终端的最小发射功率

作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T,a)设为正值，反之设为负值，同时系统进入下一状态x_T+1；

强化学习的迭代过程为：

步骤3.1：初始化强化学习中的评估网络，目标网络和记忆库，当前系统状态为x_T，T初始化为1，迭代次数k初始化为1；

步骤3.2：当k小于或等于给定迭代次数K时，随机选择一个概率p；

步骤3.3：如果p小于或等于ε；则选择评估网络所输出的动作a(T)，否则随机选择一个动作；

步骤3.4：采取动作a(T)后，得到奖励r(T)和下一步状态x(T+1)，并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中；

步骤3.5：结合目标网络的输出，计算评估网络的目标y＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′)；

步骤3.6：最小化误差(y-Q(x(T),a(T)；θ))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤3.7：每隔S步，将评估网络的参数赋值给目标网络，同时令k＝k+1，回到步骤3.2；

步骤3.8：当k大于给定迭代次数K时，学习过程结束，得到最优的上行传输时间t^*,m，和最优的整体无线资源消耗

(4)得到给定一种解码排序π^m的条件下的最优上行传输时间后，接着提出算法OptOrder-Algorithm来找到最优的解码排序，也即找到全局最优上行传输时间，使得有全局最小整体无线资源消耗；

算法OptOrder-Algorithm的求解过程是：设定智能终端集合为I^all＝{g_1A,g_2A,…,g_IA}，|I^all|表示集合I^all的基，初始化当前可选集合I^cur＝{g_1A,g_2A,…,g_IA}，|I^cur|表示集合I^cur的基，当前最优解码排序

当前最优解CBV是一个足够大的数，当前测试集合

首先，第一次迭代过程，从I^cur中依次选择一个元素插进I^cur,test中，通过调用算法P2-Algorithm找出当前最优的I^cur,test，即使得有当前最小整体无线资源消耗的I^cur ^,test，更新I^cur，即把I^all去掉I^cur,test之后的集合给I^cur，同时更新CBS，即把当前最优的I^cur ^,test给CBS；接着第二次迭代过程中，从当前I^cur中依次选择一个元素插进I^cur,test中，此时I^cur,test只有一个元素，即插在该元素左边或右边，通过调用算法P2-Algorithm找出当前最优的I^cur,test，即使得有当前最小整体无线资源消耗的I^cur,test，更新I^cur，即把I^all去掉I^cur ^,test之后的集合给I^cur，同时更新CBS，即把当前最优的I^cur,test给CBS；每次从当前I^cur中依次选择一个元素插进I^cur,test时，不能改变已确定的I^cur,test集合中的元素位置排列，如此迭代直到最后一次迭代，找到全局最优的解码排序CBS，全局最小整体无线资源消耗θ^*，全局最优上行传输时间t^*；最后，算法OptOrder-Algorithm输出的θ^*代表(P1-m)问题中所求的全局最小整体无线资源消耗，(P1-m)问题中待求的全局最优上行传输时间t^*。

进一步，所述步骤(4)中，算法OptOrder-Algorithm的求解步骤如下：

步骤4.1：设定I^all＝I^cur＝{g_1A,g_2A,…,g_IA},

步骤4.2：开始while循环

步骤4.3：设定CBV是一个足够大的数；

步骤4.4：开始for循环m＝1:1:|I^cur|；

步骤4.5：开始for循环h＝0:1:|CBS|；

步骤4.6：设定

步骤4.7：如果h＝0，设定I^cur,test＝{I^cur(m),CBS}

步骤4.8：否则如果h≠0，设定I^cur,test＝{CBS(1:h),I^cur(m),CBS(h+1:|CBS|)}；

步骤4.9：得到I^cur,test后，联合(2)和(3)深度强化学习算法计算出θ^*,cur,test和t^*,m；

步骤4.10：如果θ^*,cur,test<CBV，设定CBV＝θ^*,cur,test，t^*＝t^*,m，同时设定CBS＝I^cur ^,test；

步骤4.11：当h＝|CBS|时，结束步骤4.5的for循环；

步骤4.12：当m＝|I^cur|时，结束步骤4.4的for循环；

步骤4.13：设定I^cur＝I^all\CBS；

步骤4.14：当

时，结束步骤4.2的while循环；

步骤4.15：输出θ^*＝CBV以及t^*。

本发明的技术构思为：首先，考虑在蜂窝无线网络中，智能终端通过非正交接入技术传输数据实现最小化上行传输时间与所有智能终端总能量消耗来获得一定的经济效益和服务质量。在此处，考虑的前提是智能终端的发送数据能量消耗及上行传输时间的限制。在保证发送完成所有智能终端数据的条件下，实现最小化整体无线资源消耗与所有智能终端总能量消耗量；接着提出了算法OptOrder-Algorithm来找到最优的解码排序，算出全局最优上行传输时间和全局最小整体无线资源消耗。

本发明的有益效果主要表现在:1、对于上行整体而言，利用非正交接入技术大大提高了系统传输效率；2、对于上行整体而言，通过非正交接入技术获得更优质的无线网络体验质量；3、通过深度强化学习算法得到最优的上行传输时间，使得有最优的整体无线资源消耗(包括上行传输时间与所有智能终端总能量消耗)。

附图说明

图1是无线网络中多个智能终端和接入热点的上行场景示意图；

图2是3个STs的所有排序情况示意图；

图3是对应于算法OptOrder-Algorithm的5个STs说明示意图；

图4是找到最优的上行传输时间的方法流程图。

具体实施方式

下面结合附图对于本发明作进一步详细描述。

参照图1、图2、图3和图4，一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法，实行该方法能在同时保证发送完成所有智能终端数据的条件下，使得上行传输时间与所有智能终端总能量消耗最小化，提高整个系统的无线网络体验质量。本发明应用于无线网络，如图1所示场景中。针对该目标设计对问题的优化方法包括如下步骤：

表示，也就是说，给定一组智能终端

表示；

0≤t^m≤T^max (1-3)

Variables:t^m

下面将问题中的各个变量做一个说明，如下：

π^m(i):给定解码排序π^m的条件下，智能终端i的解码顺序；

α:上行传输时间的权重因子；

β:上行传输总能量消耗的权重因子；

所需要的最小发射功率，单位是瓦特；

W:智能终端到接入热点的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_iA:智能终端i到接入热点的信道功率增益；

智能终端i需要发送到接入热点的数据量，单位是兆比特；

智能终端i最大上传能量消耗，单位是焦耳；

(P1-m)问题是在给定智能终端上传量

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (2-1)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态

下采取动作a所得到的Q值；

r(x_T,a)：在状态

下采取动作a所得到的奖励；

γ：奖励衰减比重；

强化学习的迭代过程为：

当前最优解CBV是一个足够大的数，当前测试集合

首先，第一次迭代过程，从I^cur中依次选择一个元素插进I^cur,test中，通过调用算法P2-Algorithm找出当前最优的I^cur,test，即使得有当前最小整体无线资源消耗的I^cur ^,test，更新I^cur，即把I^all去掉I^cur,test之后的集合给I^cur，同时更新CBS，即把当前最优的I^cur ^,test给CBS；接着第二次迭代过程中，从当前I^cur中依次选择一个元素插进I^cur,test中，此时I^cur,test只有一个元素，即插在该元素左边或右边，通过调用算法P2-Algorithm找出当前最优的I^cur,test，即使得有当前最小整体无线资源消耗的I^cur,test，更新I^cur，即把I^all去掉I^cur ^,test之后的集合给I^cur，同时更新CBS，即把当前最优的I^cur,test给CBS；每次从当前I^cur中依次选择一个元素插进I^cur,test时，不能改变已确定的I^cur,test集合中的元素位置排列，如此迭代直到最后一次迭代，找到全局最优的解码排序CBS，全局最小整体无线资源消耗θ^*，全局最优上行传输时间t^*；算法OptOrder-Algorithm的求解步骤如下：

步骤4.1：设定I^all＝I^cur＝{g_1A,g_2A,…,g_IA},

步骤4.2：开始while循环

步骤4.3：设定CBV是一个足够大的数；

步骤4.4：开始for循环m＝1:1:|I^cur|；

步骤4.5：开始for循环h＝0:1:|CBS|；

步骤4.6：设定

步骤4.7：如果h＝0，设定I^cur,test＝{I^cur(m),CBS}

步骤4.11：当h＝|CBS|时，结束步骤4.5的for循环；

步骤4.12：当m＝|I^cur|时，结束步骤4.4的for循环；

步骤4.13：设定I^cur＝I^all\CBS；

步骤4.14：当

时，结束步骤4.2的while循环；

步骤4.15：输出θ^*＝CBV以及t^*；

最后，算法OptOrder-Algorithm输出的θ^*代表(P1-m)问题中所求的全局最小整体无线资源消耗，(P1-m)问题中待求的全局最优上行传输时间t^*。

Claims

1.一种非正交接入最优解码排序上行传输时间优化方法，其特征在于，所述方法包括以下步骤：

表示，给定一组智能终端

表示；

0≤t^m≤T^max (1-3)

Variables:t^m

下面将问题中的各个变量做一个说明，如下：

π^m(i):给定解码排序π^m的条件下，智能终端i的解码顺序；

α:上行传输时间的权重因子；

β:上行传输总能量消耗的权重因子；

所需要的最小发射功率，单位是瓦特；

W:智能终端到接入热点的信道带宽，单位是赫兹；

n₀:信道背景噪声的频谱功率密度；

g_iA:智能终端i到接入热点的信道功率增益；

智能终端i需要发送到接入热点的数据量，单位是兆比特；

智能终端i最大上传能量消耗，单位是焦耳；

(P1-m)问题是在给定智能终端上传量

的情况下找到最小的整体无线资源消耗量，所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗，观察(P1-m)问题知道它的目标函数只有一个变量t^m

(2)通过强化学习算法来寻找一个最优的上行传输时间记为t^*,m，强化学习系统由智能体和环境所组成；所有智能终端的上行传输时间t^m和每个智能终端的最小发射功率

Q^θ(x_T,a)＝r(x_T,a)+γmaxQ^θ′(x_T+1,a′) (2-1)

其中，各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

x_T：在时刻T，系统所处状态；

Q^θ(x_T,a)：在状态x_t下采取动作a所得到的Q值；

r(x_T,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

强化学习的迭代过程为：

步骤3.1：初始化强化学习中的评估网络、目标网络和记忆库，当前系统状态为x_T，T初始化为1，迭代次数k初始化为1；

步骤3.6：最小化误差(y-Q^θ(x_T,a))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

(4)得到给定一种解码排序π^m的条件下的最优上行传输时间后，接着提出算法OptOrder-Algorithm来找到最优的解码排序，找到全局最优上行传输时间，使得有全局最小整体无线资源消耗；

算法OptOrder-Algorithm的求解过程是：设定智能终端集合为I^all＝{g_1A,g_2A,…,g_IA}，|I^all|表示集合I^all的基，初始化当前可选集合I^cur＝{g₁,g₂,…,g_I}，|I^cur|表示集合I^cur的基，当前最优解码排序

当前最优解CBV是一个足够大的数，当前测试集合

首先，第一次迭代过程，从I^cur中依次选择一个元素插进I^cur,test中，找出当前最优的I^cur,test，使得有当前最小整体无线资源消耗的I^cur,test，更新I^cur，把I^all去掉I^cur,test之后的集合给I^cur，同时更新CBS，即把当前最优的I^cur,test给CBS；接着第二次迭代过程中，从当前I^cur中依次选择一个元素插进I^cur,test中，此时I^cur,test只有一个元素，插在该元素左边或右边，找出当前最优的I^cur,test，使得有当前最小整体无线资源消耗的I^cur,test，更新I^cur，即把I^all去掉I^cur,test之后的集合给I^cur，同时更新CBS，把当前最优的I^cur,test给CBS；每次从当前I^cur中依次选择一个元素插进I^cur,test时，不能改变已确定的I^cur,test集合中的元素位置排列，如此迭代直到最后一次迭代，找到全局最优的解码排序CBS，全局最小整体无线资源消耗θ^*，全局最优上行传输时间t^*；

2.如权利要求1所述的一种非正交接入最优解码排序上行传输时间优化方法，其特征在于，所述步骤(4)中，算法OptOrder-Algorithm的求解步骤如下：

步骤4.1：设定I^all＝I^cur＝{g_1A,g_2A,…,g_IA},