CN108712755B - 基于深度强化学习的非正交接入上行传输时间优化方法 - Google Patents
基于深度强化学习的非正交接入上行传输时间优化方法 Download PDFInfo
- Publication number
- CN108712755B CN108712755B CN201810477062.XA CN201810477062A CN108712755B CN 108712755 B CN108712755 B CN 108712755B CN 201810477062 A CN201810477062 A CN 201810477062A CN 108712755 B CN108712755 B CN 108712755B
- Authority
- CN
- China
- Prior art keywords
- uplink transmission
- transmission time
- mobile user
- reinforcement learning
- orrcm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 59
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000005457 optimization Methods 0.000 title claims abstract description 14
- 238000005265 energy consumption Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000012804 iterative process Methods 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims 1
- 230000001413 cellular effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
技术领域
本发明属于通信领域,一种基于深度强化学习的非正交接入上行传输时间优化方法。
背景技术
移动互联网业务的快速发展,对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源,利用非正交接入技术使移动用户同时共用同一信道为无线接入提供一种有效的方法,实现在未来的5G网中超高吞吐量和大规模连接的目标。
发明内容
为了克服现有技术的上行传输时间较长、所有移动用户总能量消耗较大的不足,本发明提供一种最小化上行传输时间与所有移动用户总能量消耗的基于深度强化学习的非正交接入上行传输时间优化方法,本发明针对上行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度强化学习的非正交接入上行传输时间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度强化学习的非正交接入上行传输时间优化方法,包括以下步骤:
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题 ORRCM(Overall Radio ResourceConsumption Minimization)问题, ORRCM指的是整体无线资源消耗最小化:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习系统由智能体和环境所组成;所有移动用户的上行传输时间 t和每个移动用户的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t 将不断被优化直到找到整体无线资源消耗(即上行传输时间与所有用户总能量消耗)的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率 p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标
y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令 k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗(包括上行传输时间与所有移动用户总能量消耗)。
本发明的技术构思为:首先,考虑在蜂窝无线网络中,移动用户通过非正交接入技术传输数据实现最小化上行传输时间与所有移动用户总能量消耗来获得一定的经济效益和服务质量。在此处,考虑的前提是移动用户的上传能量消耗及上行传输时间的限制。在保证发送完成所有移动用户数据量的条件下,实现最小化整体无线资源消耗。
本发明的有益效果主要表现在:1、对于上行整体而言,利用非正交接入技术大大提高了系统传输效率;2、对于移动用户而言,通过非正交接入技术获得更优质的无线网络体验质量;3、通过深度强化学习得到最优的上行传输时间t*,使得有最优的整体无线资源消耗 (包括上行传输时间与所有移动用户总能量消耗)。
附图说明
图1是无线网络中多个移动用户和基站的上行场景示意图。
图2是找到最优的上行传输时间t*的方法流程图。
具体实施方式
下面结合附图对于本发明作进一步详细描述。
参照图1和图2,一种基于深度强化学习的非正交接入上行传输时间优化方法,实行该方法能在同时保证发送完成所有移动用户数据量的条件下,使得上行传输时间与所有移动用户总能量消耗最小化,提高整个系统的无线网络体验质量。本发明可以应用于无线网络,如图1所示场景中。针对该目标设计对问题的优化方法主要包括如下步骤:
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题 ORRCM(Overall Radio ResourceConsumption Minimization)问题, ORRCM指的是整体无线资源消耗最小化:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习系统由智能体和环境所组成;所有移动用户的上行传输时间 t和每个移动用户的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t 将不断被优化直到找到整体无线资源消耗(即上行传输时间与所有用户总能量消耗)的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率 p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标
y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令 k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗(包括上行传输时间与所有移动用户总能量消耗)。
Claims (1)
1.一种基于深度强化学习的非正交接入上行传输时间优化方法,其特征在于,所述方法包括以下步骤:
在保证发送完成所有移动用户数据量的条件下,最小化上行传输时延和所有移动用户总能耗的优化问题描述为如下所示的优化问题ORRCM问题,ORRCM指的是整体无线资源消耗最小化:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:上行传输时间的权重因子;
β:上行传输总能量消耗的权重因子;
t:移动用户发送数据到基站的上行传输时间,单位是秒;
W:移动用户到基站的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
giB:移动用户i到基站的信道功率增益;
Tmax:移动用户发送数据到基站的最大上行传输时间,单位是秒;
(2)ORRCM问题表示如下:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
(3)通过强化学习算法来寻找一个最优的上行传输时间记为t*,该强化学习系统由智能体和环境所组成;所有移动用户的上行传输时间t和每个移动用户的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间t将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)所有移动用户的上行传输时间t和每个移动用户的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,使得有最优的整体无线资源消耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810477062.XA CN108712755B (zh) | 2018-05-18 | 2018-05-18 | 基于深度强化学习的非正交接入上行传输时间优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810477062.XA CN108712755B (zh) | 2018-05-18 | 2018-05-18 | 基于深度强化学习的非正交接入上行传输时间优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108712755A CN108712755A (zh) | 2018-10-26 |
CN108712755B true CN108712755B (zh) | 2021-02-26 |
Family
ID=63869299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810477062.XA Active CN108712755B (zh) | 2018-05-18 | 2018-05-18 | 基于深度强化学习的非正交接入上行传输时间优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108712755B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109561504B (zh) * | 2018-11-20 | 2020-09-01 | 北京邮电大学 | 一种基于深度强化学习的URLLC和eMBB的资源复用方法 |
CN109413623B (zh) * | 2018-12-25 | 2022-02-08 | 中国人民解放军军事科学院国防科技创新研究院 | 一种能量匮乏终端与流量匮乏终端间的协作计算迁移方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014208140A1 (ja) * | 2013-06-28 | 2014-12-31 | 株式会社Nttドコモ | 無線基地局、ユーザ端末及び無線通信方法 |
CN105722016A (zh) * | 2016-02-05 | 2016-06-29 | 中国矿业大学 | 分层m2m网络中网关和终端发射功率的协同控制方法 |
CN107708135A (zh) * | 2017-07-21 | 2018-02-16 | 上海交通大学 | 一种适用于移动边缘计算场景的资源分配方法 |
CN107819840A (zh) * | 2017-10-31 | 2018-03-20 | 北京邮电大学 | 超密集网络架构中分布式移动边缘计算卸载方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102372190B1 (ko) * | 2015-12-18 | 2022-03-08 | 삼성전자주식회사 | 무선 통신 시스템에서 스트리밍 데이터 전달을 위한 장치 및 방법 |
-
2018
- 2018-05-18 CN CN201810477062.XA patent/CN108712755B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014208140A1 (ja) * | 2013-06-28 | 2014-12-31 | 株式会社Nttドコモ | 無線基地局、ユーザ端末及び無線通信方法 |
CN105722016A (zh) * | 2016-02-05 | 2016-06-29 | 中国矿业大学 | 分层m2m网络中网关和终端发射功率的协同控制方法 |
CN107708135A (zh) * | 2017-07-21 | 2018-02-16 | 上海交通大学 | 一种适用于移动边缘计算场景的资源分配方法 |
CN107819840A (zh) * | 2017-10-31 | 2018-03-20 | 北京邮电大学 | 超密集网络架构中分布式移动边缘计算卸载方法 |
Non-Patent Citations (2)
Title |
---|
《非正交多址接入系统用户选择及功率分配算法研究》;高亚龙;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415;全文 * |
Yuan Wu;Jianchao Zheng;Kuanyang Guo;Liping Qian;Xuemin Sherm.《Secrecy guaranteed optimal traffic offloading via dual-connectivity in small cell networks》.《2016 8th International Conference on Wireless Communications & Signal Processing (WCSP)》.2016, * |
Also Published As
Publication number | Publication date |
---|---|
CN108712755A (zh) | 2018-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109474980B (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN114051748B (zh) | 使用机器学习优化蜂窝网络 | |
CN108834080B (zh) | 异构网络中基于多播技术的分布式缓存和用户关联方法 | |
CN109195207B (zh) | 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法 | |
CN114051222A (zh) | 一种车联网环境下基于联邦学习的无线资源分配和通信优化方法 | |
CN110602722B (zh) | 一种基于noma的联合内容推送和传输的设计方法 | |
CN105813189B (zh) | 一种蜂窝网中的d2d分布式功率优化方法 | |
CN111586646A (zh) | 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法 | |
CN108712755B (zh) | 基于深度强化学习的非正交接入上行传输时间优化方法 | |
CN112788764A (zh) | 针对noma超密集网络任务卸载和资源分配方法及系统 | |
CN115173922B (zh) | 基于cmaddqn网络的多波束卫星通信系统资源分配方法 | |
CN108668304B (zh) | 一种基于深度强化学习的非正交接入下行传输时间优化方法 | |
Lehong et al. | A survey of LoRaWAN adaptive data rate algorithms for possible optimization | |
Zheng et al. | Joint optimization of link scheduling and resource allocation in cooperative vehicular networks | |
CN104936234B (zh) | 一种用于lte系统中能效优化的联合动态资源分配方法 | |
CN110677176A (zh) | 一种基于能量效率与频谱效率的联合折中优化方法 | |
CN111465108A (zh) | 一种能量获取d2d异构网络中频效能效优化方法 | |
CN108810986B (zh) | 一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法 | |
CN108282762B (zh) | Lte-a网络大规模m2m通信上行数据传输方法 | |
CN108770072B (zh) | 一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法 | |
CN112887937B (zh) | 一种基于路侧设备辅助的终端设备视频信息协作上传方法 | |
CN109548048A (zh) | 一种通信网络中的干扰建模方法 | |
CN108770006B (zh) | 一种非正交接入上行传输时间优化方法 | |
Kim et al. | Cloud-based Wi-Fi network using immediate ACK in uplink data transmissions | |
CN105554894A (zh) | 移动网络中h2h和m2m终端发射功率协同控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |