CN108770072B - 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 - Google Patents
一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 Download PDFInfo
- Publication number
- CN108770072B CN108770072B CN201810661506.5A CN201810661506A CN108770072B CN 108770072 B CN108770072 B CN 108770072B CN 201810661506 A CN201810661506 A CN 201810661506A CN 108770072 B CN108770072 B CN 108770072B
- Authority
- CN
- China
- Prior art keywords
- cur
- uplink transmission
- transmission time
- test
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/12—Wireless traffic scheduling
- H04W72/121—Wireless traffic scheduling for groups of terminals or users
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/12—Wireless traffic scheduling
- H04W72/1263—Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows
- H04W72/1268—Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows of uplink data flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/30—TPC using constraints in the total amount of available transmission power
- H04W52/34—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
- H04W52/346—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/542—Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:(1)在给定一种解码排序πm的条件下,优化问题描述为一个非凸性优化问题;(P1‑m)问题是在给定智能终端上传量的情况下找到最优的整体无线资源消耗,观察(P1‑m)问题知道它的目标函数只有一个变量;(2)和(3)通过深度强化学习算法来找到一个最优的上行传输时间,使得有最优的整体无线资源消耗;(4)提出算法OptOrder‑Algorithm找到最优的解码排序,再联合深度强化学习算法,输出全局最小整体无线资源消耗和全局最优上行传输时间。本发明提高了系统传输效率,获得更优质的无线网络体验质量,使得有最优的整体无线资源消耗。
Description
技术领域
本发明属于通信领域,一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。
背景技术
适应物联网(Internet of Thing,IoT)应用的大规模连接已被视为未来5G蜂窝系统的重要目标。非正交多址接入(Non-orthogonal Multiple Access,NOMA)使一组智能终端(Smart Terminal,ST)能够同时共享相同的频谱信道进行传输,为实现频谱高效数据传输的目标提供了一种有效的方法。我们考虑无线网络中的上行链路传输,其中智能终端(例如智能手表)使用NOMA技术将其数据发送到接入热点。我们旨在最大限度地减少整体无线资源消耗量,包括上行传输时间和上行传输总能量。
发明内容
为了克服现有技术的上行传输时间较长、智能终端能量消耗较大的不足,本发明提供一种最小化上行传输时间与所有智能终端总能量消耗的基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,本发明针对上行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:
(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,该强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,也即找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1A,g2A,…,gIA},|Icur|表示集合Icur的基,当前最优解码排序当前最优解CBV是一个足够大的数,当前测试集合首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur ,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur ,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,即插在该元素左边或右边,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur ,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*。
进一步,所述步骤(4)中,算法OptOrder-Algorithm的求解步骤如下:
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m;
步骤4.10:如果θ*,cur,test<CBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur ,test;
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall\CBS;
步骤4.15:输出θ*=CBV以及t*。
本发明的技术构思为:首先,考虑在蜂窝无线网络中,智能终端通过非正交接入技术传输数据实现最小化上行传输时间与所有智能终端总能量消耗来获得一定的经济效益和服务质量。在此处,考虑的前提是智能终端的发送数据能量消耗及上行传输时间的限制。在保证发送完成所有智能终端数据的条件下,实现最小化整体无线资源消耗与所有智能终端总能量消耗量;接着提出了算法OptOrder-Algorithm来找到最优的解码排序,算出全局最优上行传输时间和全局最小整体无线资源消耗。
本发明的有益效果主要表现在:1、对于上行整体而言,利用非正交接入技术大大提高了系统传输效率;2、对于上行整体而言,通过非正交接入技术获得更优质的无线网络体验质量;3、通过深度强化学习算法得到最优的上行传输时间,使得有最优的整体无线资源消耗(包括上行传输时间与所有智能终端总能量消耗)。
附图说明
图1是无线网络中多个智能终端和接入热点的上行场景示意图;
图2是3个STs的所有排序情况示意图;
图3是对应于算法OptOrder-Algorithm的5个STs说明示意图;
图4是找到最优的上行传输时间的方法流程图。
具体实施方式
下面结合附图对于本发明作进一步详细描述。
参照图1、图2、图3和图4,一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,实行该方法能在同时保证发送完成所有智能终端数据的条件下,使得上行传输时间与所有智能终端总能量消耗最小化,提高整个系统的无线网络体验质量。本发明应用于无线网络,如图1所示场景中。针对该目标设计对问题的优化方法包括如下步骤:
(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,该强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,也即找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1A,g2A,…,gIA},|Icur|表示集合Icur的基,当前最优解码排序当前最优解CBV是一个足够大的数,当前测试集合首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur ,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur ,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,即插在该元素左边或右边,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur ,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;算法OptOrder-Algorithm的求解步骤如下:
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m;
步骤4.10:如果θ*,cur,test<CBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur ,test;
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall\CBS;
步骤4.15:输出θ*=CBV以及t*;
最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*。
Claims (2)
1.一种非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:
在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:
0≤tm≤Tmax (1-3)
Variables:tm
下面将问题中的各个变量做一个说明,如下:
πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;
W:智能终端到接入热点的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giA:智能终端i到接入热点的信道功率增益;
Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;
(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (2-1)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤3.1:初始化强化学习中的评估网络、目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤3.6:最小化误差(y-Qθ(xT,a))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤3.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤3.2;
(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;
算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1,g2,…,gI},|Icur|表示集合Icur的基,当前最优解码排序当前最优解CBV是一个足够大的数,当前测试集合首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,找出当前最优的Icur,test,使得有当前最小整体无线资源消耗的Icur,test,更新Icur,把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中,此时Icur,test只有一个元素,插在该元素左边或右边,找出当前最优的Icur,test,使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能改变已确定的Icur,test集合中的元素位置排列,如此迭代直到最后一次迭代,找到全局最优的解码排序CBS,全局最小整体无线资源消耗θ*,全局最优上行传输时间t*;
最后,算法OptOrder-Algorithm输出的θ*代表(P1-m)问题中所求的全局最小整体无线资源消耗,(P1-m)问题中待求的全局最优上行传输时间t*。
2.如权利要求1所述的一种非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述步骤(4)中,算法OptOrder-Algorithm的求解步骤如下:
步骤4.3:设定CBV是一个足够大的数;
步骤4.4:开始for循环m=1:1:|Icur|;
步骤4.5:开始for循环h=0:1:|CBS|;
步骤4.7:如果h=0,设定Icur,test={Icur(m),CBS}
步骤4.8:否则如果h≠0,设定Icur,test={CBS(1:h),Icur(m),CBS(h+1:|CBS|)};
步骤4.9:得到Icur,test后,联合(2)和(3)深度强化学习算法计算出θ*,cur,test和t*,m;
步骤4.10:如果θ*,cur,test<CBV,设定CBV=θ*,cur,test,t*=t*,m,同时设定CBS=Icur,test;
步骤4.11:当h=|CBS|时,结束步骤4.5的for循环;
步骤4.12:当m=|Icur|时,结束步骤4.4的for循环;
步骤4.13:设定Icur=Iall/CBS;
步骤4.15:输出θ*=CBV以及t*。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810661506.5A CN108770072B (zh) | 2018-06-25 | 2018-06-25 | 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810661506.5A CN108770072B (zh) | 2018-06-25 | 2018-06-25 | 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108770072A CN108770072A (zh) | 2018-11-06 |
CN108770072B true CN108770072B (zh) | 2021-10-29 |
Family
ID=63976790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810661506.5A Active CN108770072B (zh) | 2018-06-25 | 2018-06-25 | 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108770072B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115865298B (zh) * | 2022-11-28 | 2023-08-18 | 徐州医科大学 | 一种面向主动健康监测系统的传输时延优化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106937256B (zh) * | 2017-01-12 | 2019-11-01 | 西安电子科技大学 | 一种基于非正交多址接入技术的协作多播传输方法 |
CN107466069A (zh) * | 2017-07-17 | 2017-12-12 | 浙江工业大学 | 无线网络中基于双连接与非正交多址接入的能效优化方法 |
CN108040364A (zh) * | 2017-11-07 | 2018-05-15 | 浙江工业大学 | 非正交多址链路中信道带宽与功率联合分配的线性搜索方法 |
-
2018
- 2018-06-25 CN CN201810661506.5A patent/CN108770072B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108770072A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109195207B (zh) | 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法 | |
CN108632861B (zh) | 一种基于深度强化学习的移动边缘计算分流决策方法 | |
CN109819422B (zh) | 一种基于Stackelberg博弈的异构车联网多模通信方法 | |
US20230199720A1 (en) | Priority-based joint resource allocation method and apparatus with deep q-learning | |
Sakib et al. | A deep learning method for predictive channel assignment in beyond 5G networks | |
US11871251B2 (en) | Method of association of user equipment in a cellular network according to a transferable association policy | |
CN113723620A (zh) | 无线联邦学习中的终端调度方法和装置 | |
CN111328052B (zh) | 一种高密度无线网络中信道资源分配方法 | |
CN109982300A (zh) | NB-IoT中基于D2D通信的用户设备上行链路能量消耗最小化的方法 | |
CN108770072B (zh) | 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 | |
CN108462975B (zh) | D2d无线供电通信网络中功率与时间联合分配方法 | |
Huang et al. | Throughput optimization in grant-free NOMA with deep reinforcement learning | |
Kuang et al. | Client selection with bandwidth allocation in federated learning | |
CN108712755B (zh) | 基于深度强化学习的非正交接入上行传输时间优化方法 | |
CN109272167B (zh) | 一种基于uudn和q神经网络的绿色能量合作方法 | |
Li et al. | Energy-aware irregular slotted aloha methods for wireless-powered iot networks | |
CN108418651A (zh) | 一种双向无线供电中继系统安全传输方法 | |
CN109451584B (zh) | 一种多天线数能一体化通信网络的最大化上行吞吐量方法 | |
CN108966325B (zh) | 一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法 | |
CN106330608A (zh) | 在数能一体化通信网络中上行用户吞吐量公平性优化方法 | |
Cao et al. | Mobility-aware routing and caching: A federated learning assisted approach | |
CN108966324B (zh) | 一种基于对分搜索式的非正交接入最优解码排序上行传输时间优化方法 | |
CN115987375A (zh) | 融合网络的电力设备关联与资源优化方法、系统及介质 | |
CN106100995A (zh) | 一种适用于电力线载波通信网络的路由方法 | |
CN112887937B (zh) | 一种基于路侧设备辅助的终端设备视频信息协作上传方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |