CN108770072B - 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 - Google Patents

一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 Download PDF

Info

Publication number
CN108770072B
CN108770072B CN201810661506.5A CN201810661506A CN108770072B CN 108770072 B CN108770072 B CN 108770072B CN 201810661506 A CN201810661506 A CN 201810661506A CN 108770072 B CN108770072 B CN 108770072B
Authority
CN
China
Prior art keywords
cur
uplink transmission
transmission time
test
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810661506.5A
Other languages
English (en)
Other versions
CN108770072A (zh
Inventor
吴远
张�成
倪克杰
陈相旭
钱丽萍
黄亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810661506.5A priority Critical patent/CN108770072B/zh
Publication of CN108770072A publication Critical patent/CN108770072A/zh
Application granted granted Critical
Publication of CN108770072B publication Critical patent/CN108770072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/121Wireless traffic scheduling for groups of terminals or users
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/1263Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows
    • H04W72/1268Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows of uplink data flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • H04W52/346TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:(1)在给定一种解码排序πm的条件下,优化问题描述为一个非凸性优化问题;(P1‑m)问题是在给定智能终端上传量
Figure 2
的情况下找到最优的整体无线资源消耗,观察(P1‑m)问题知道它的目标函数只有一个变量;(2)和(3)通过深度强化学习算法来找到一个最优的上行传输时间,使得有最优的整体无线资源消耗;(4)提出算法OptOrder‑Algorithm找到最优的解码排序,再联合深度强化学习算法,输出全局最小整体无线资源消耗和全局最优上行传输时间。本发明提高了系统传输效率,获得更优质的无线网络体验质量,使得有最优的整体无线资源消耗。

Description

一种基于深度强化学习的非正交接入最优解码排序上行传输 时间优化方法
技术领域
本发明属于通信领域,一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。
背景技术
适应物联网(Internet of Thing,IoT)应用的大规模连接已被视为未来5G蜂窝系统的重要目标。非正交多址接入(Non-orthogonal Multiple Access,NOMA)使一组智能终端(Smart Terminal,ST)能够同时共享相同的频谱信道进行传输,为实现频谱高效数据传输的目标提供了一种有效的方法。我们考虑无线网络中的上行链路传输,其中智能终端(例如智能手表)使用NOMA技术将其数据发送到接入热点。我们旨在最大限度地减少整体无线资源消耗量,包括上行传输时间和上行传输总能量。
发明内容
为了克服现有技术的上行传输时间较长、智能终端能量消耗较大的不足,本发明提供一种最小化上行传输时间与所有智能终端总能量消耗的基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,本发明针对上行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:
(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合
Figure BDA0001706478390000026
表示,也就是说,给定一组智能终端
Figure BDA0001706478390000027
就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用
Figure BDA0001706478390000021
表示;
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
Figure BDA0001706478390000022
Figure BDA0001706478390000023
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
Figure BDA0001706478390000024
是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量
Figure BDA0001706478390000025
所需要的最小发射功率,单位是瓦特;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
Figure BDA0001706478390000031
智能终端i需要发送到接入热点的数据量,单位是兆比特;
Figure BDA0001706478390000032
智能终端i最大上传能量消耗,单位是焦耳;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(P1-m)问题是在给定智能终端上传量
Figure BDA0001706478390000033
的情况下找到最小的整体无线资源消耗量,所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1-m)问题知道它的目标函数只有一个变量t*,m
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,该强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率
Figure BDA0001706478390000034
都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态
Figure BDA0001706478390000035
下采取动作a所得到的Q值;
r(xT,a):在状态
Figure BDA0001706478390000036
下采取动作a所得到的奖励;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率
Figure BDA0001706478390000041
作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,m,和最优的整体无线资源消耗
Figure BDA0001706478390000051
Figure BDA0001706478390000052
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,也即找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1A,g2A,…,gIA},|Icur|表示集合Icur的基,当前最优解码排序
Figure BDA0001706478390000053
当前最优解CBV是一个足够大的数,当前测试集合
Figure BDA0001706478390000054
首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur ,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur ,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,即插在该元素左边或右边,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur ,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*
进一步,所述步骤(4)中,算法OptOrder-Algorithm的求解步骤如下:
步骤4.1:设定Iall=Icur={g1A,g2A,…,gIA},
Figure BDA0001706478390000064
步骤4.2:开始while循环
Figure BDA0001706478390000061
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.6:设定
Figure BDA0001706478390000062
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m
步骤4.10:如果θ*,cur,test<CBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur ,test
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall\CBS;
步骤4.14:当
Figure BDA0001706478390000063
时,结束步骤4.2的while循环;
步骤4.15:输出θ*=CBV以及t*
本发明的技术构思为:首先,考虑在蜂窝无线网络中,智能终端通过非正交接入技术传输数据实现最小化上行传输时间与所有智能终端总能量消耗来获得一定的经济效益和服务质量。在此处,考虑的前提是智能终端的发送数据能量消耗及上行传输时间的限制。在保证发送完成所有智能终端数据的条件下,实现最小化整体无线资源消耗与所有智能终端总能量消耗量;接着提出了算法OptOrder-Algorithm来找到最优的解码排序,算出全局最优上行传输时间和全局最小整体无线资源消耗。
本发明的有益效果主要表现在:1、对于上行整体而言,利用非正交接入技术大大提高了系统传输效率;2、对于上行整体而言,通过非正交接入技术获得更优质的无线网络体验质量;3、通过深度强化学习算法得到最优的上行传输时间,使得有最优的整体无线资源消耗(包括上行传输时间与所有智能终端总能量消耗)。
附图说明
图1是无线网络中多个智能终端和接入热点的上行场景示意图;
图2是3个STs的所有排序情况示意图;
图3是对应于算法OptOrder-Algorithm的5个STs说明示意图;
图4是找到最优的上行传输时间的方法流程图。
具体实施方式
下面结合附图对于本发明作进一步详细描述。
参照图1、图2、图3和图4,一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,实行该方法能在同时保证发送完成所有智能终端数据的条件下,使得上行传输时间与所有智能终端总能量消耗最小化,提高整个系统的无线网络体验质量。本发明应用于无线网络,如图1所示场景中。针对该目标设计对问题的优化方法包括如下步骤:
(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合
Figure BDA0001706478390000086
表示,也就是说,给定一组智能终端
Figure BDA0001706478390000087
就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用
Figure BDA0001706478390000081
表示;
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
Figure BDA0001706478390000082
Figure BDA0001706478390000083
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
Figure BDA0001706478390000084
是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量
Figure BDA0001706478390000085
所需要的最小发射功率,单位是瓦特;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
Figure BDA0001706478390000091
智能终端i需要发送到接入热点的数据量,单位是兆比特;
Figure BDA0001706478390000092
智能终端i最大上传能量消耗,单位是焦耳;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(P1-m)问题是在给定智能终端上传量
Figure BDA0001706478390000093
的情况下找到最小的整体无线资源消耗量,所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1-m)问题知道它的目标函数只有一个变量t*,m
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,该强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率
Figure BDA0001706478390000094
都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态
Figure BDA0001706478390000095
下采取动作a所得到的Q值;
r(xT,a):在状态
Figure BDA0001706478390000096
下采取动作a所得到的奖励;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率
Figure BDA0001706478390000101
作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,m,和最优的整体无线资源消耗
Figure BDA0001706478390000102
Figure BDA0001706478390000111
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,也即找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1A,g2A,…,gIA},|Icur|表示集合Icur的基,当前最优解码排序
Figure BDA0001706478390000112
当前最优解CBV是一个足够大的数,当前测试集合
Figure BDA0001706478390000113
首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur ,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur ,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,即插在该元素左边或右边,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur ,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;算法OptOrder-Algorithm的求解步骤如下:
步骤4.1:设定Iall=Icur={g1A,g2A,…,gIA},
Figure BDA0001706478390000115
步骤4.2:开始while循环
Figure BDA0001706478390000114
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.6:设定
Figure BDA0001706478390000121
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m
步骤4.10:如果θ*,cur,test<CBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur ,test
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall\CBS;
步骤4.14:当
Figure BDA0001706478390000122
时,结束步骤4.2的while循环;
步骤4.15:输出θ*=CBV以及t*
最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*

Claims (2)

1.一种非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:
(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合
Figure FDA0003077834760000011
表示,给定一组智能终端
Figure FDA0003077834760000012
就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用
Figure FDA0003077834760000013
表示;
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
Figure FDA0003077834760000014
Figure FDA0003077834760000015
Figure FDA0003077834760000016
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
Figure FDA0003077834760000017
是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量
Figure FDA0003077834760000018
所需要的最小发射功率,单位是瓦特;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
Figure FDA0003077834760000021
智能终端i需要发送到接入热点的数据量,单位是兆比特;
Figure FDA0003077834760000022
智能终端i最大上传能量消耗,单位是焦耳;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(P1-m)问题是在给定智能终端上传量
Figure FDA0003077834760000023
的情况下找到最小的整体无线资源消耗量,所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1-m)问题知道它的目标函数只有一个变量tm
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率
Figure FDA0003077834760000024
都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率
Figure FDA0003077834760000031
作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络、目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Qθ(xT,a))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,m,和最优的整体无线资源消耗
Figure FDA0003077834760000041
Figure FDA0003077834760000042
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1,g2,…,gI},|Icur|表示集合Icur的基,当前最优解码排序
Figure FDA0003077834760000043
当前最优解CBV是一个足够大的数,当前测试集合
Figure FDA0003077834760000044
首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,找出当前最优的Icur,test,使得有当前最小整体无线资源消耗的Icur,test,更新Icur,把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,插在该元素左边或右边,找出当前最优的Icur,test,使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*
最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*
2.如权利要求1所述的一种非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述步骤(4)中,算法OptOrder-Algorithm的求解步骤如下:
步骤4.1:设定Iall=Icur={g1A,g2A,…,gIA},
Figure FDA0003077834760000051
步骤4.2:开始while循环
Figure FDA0003077834760000052
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.6:设定
Figure FDA0003077834760000053
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m
步骤4.10:如果θ*,cur,test<CBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur,test
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall/CBS;
步骤4.14:当
Figure FDA0003077834760000054
时,结束步骤4.2的while循环;
步骤4.15:输出θ*=CBV以及t*
CN201810661506.5A 2018-06-25 2018-06-25 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 Active CN108770072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810661506.5A CN108770072B (zh) 2018-06-25 2018-06-25 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810661506.5A CN108770072B (zh) 2018-06-25 2018-06-25 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法

Publications (2)

Publication Number Publication Date
CN108770072A CN108770072A (zh) 2018-11-06
CN108770072B true CN108770072B (zh) 2021-10-29

Family

ID=63976790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810661506.5A Active CN108770072B (zh) 2018-06-25 2018-06-25 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法

Country Status (1)

Country Link
CN (1) CN108770072B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865298B (zh) * 2022-11-28 2023-08-18 徐州医科大学 一种面向主动健康监测系统的传输时延优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106937256B (zh) * 2017-01-12 2019-11-01 西安电子科技大学 一种基于非正交多址接入技术的协作多播传输方法
CN107466069A (zh) * 2017-07-17 2017-12-12 浙江工业大学 无线网络中基于双连接与非正交多址接入的能效优化方法
CN108040364A (zh) * 2017-11-07 2018-05-15 浙江工业大学 非正交多址链路中信道带宽与功率联合分配的线性搜索方法

Also Published As

Publication number Publication date
CN108770072A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN109195207B (zh) 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法
CN108632861B (zh) 一种基于深度强化学习的移动边缘计算分流决策方法
CN109819422B (zh) 一种基于Stackelberg博弈的异构车联网多模通信方法
US20230199720A1 (en) Priority-based joint resource allocation method and apparatus with deep q-learning
Sakib et al. A deep learning method for predictive channel assignment in beyond 5G networks
US11871251B2 (en) Method of association of user equipment in a cellular network according to a transferable association policy
CN113723620A (zh) 无线联邦学习中的终端调度方法和装置
CN111328052B (zh) 一种高密度无线网络中信道资源分配方法
CN109982300A (zh) NB-IoT中基于D2D通信的用户设备上行链路能量消耗最小化的方法
CN108770072B (zh) 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法
CN108462975B (zh) D2d无线供电通信网络中功率与时间联合分配方法
Huang et al. Throughput optimization in grant-free NOMA with deep reinforcement learning
Kuang et al. Client selection with bandwidth allocation in federated learning
CN108712755B (zh) 基于深度强化学习的非正交接入上行传输时间优化方法
CN109272167B (zh) 一种基于uudn和q神经网络的绿色能量合作方法
Li et al. Energy-aware irregular slotted aloha methods for wireless-powered iot networks
CN108418651A (zh) 一种双向无线供电中继系统安全传输方法
CN109451584B (zh) 一种多天线数能一体化通信网络的最大化上行吞吐量方法
CN108966325B (zh) 一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法
CN106330608A (zh) 在数能一体化通信网络中上行用户吞吐量公平性优化方法
Cao et al. Mobility-aware routing and caching: A federated learning assisted approach
CN108966324B (zh) 一种基于对分搜索式的非正交接入最优解码排序上行传输时间优化方法
CN115987375A (zh) 融合网络的电力设备关联与资源优化方法、系统及介质
CN106100995A (zh) 一种适用于电力线载波通信网络的路由方法
CN112887937B (zh) 一种基于路侧设备辅助的终端设备视频信息协作上传方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant