CN108668304A - 一种基于深度强化学习的非正交接入下行传输时间优化方法 - Google Patents

一种基于深度强化学习的非正交接入下行传输时间优化方法 Download PDF

Info

Publication number
CN108668304A
CN108668304A CN201810477039.0A CN201810477039A CN108668304A CN 108668304 A CN108668304 A CN 108668304A CN 201810477039 A CN201810477039 A CN 201810477039A CN 108668304 A CN108668304 A CN 108668304A
Authority
CN
China
Prior art keywords
base station
downlink
mobile subscriber
downlink times
ddrcm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810477039.0A
Other languages
English (en)
Other versions
CN108668304B (zh
Inventor
吴远
张�成
倪克杰
陈佳
钱丽萍
黄亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810477039.0A priority Critical patent/CN108668304B/zh
Publication of CN108668304A publication Critical patent/CN108668304A/zh
Application granted granted Critical
Publication of CN108668304B publication Critical patent/CN108668304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于深度强化学习的非正交接入下行传输时间优化方法,包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,提出了一种满足移动用户的服务质量同时,在移动用户的下载量给定的情况下最小化基站的下行传输时间和基站总能量消耗;(2)通过强化学习算法来找到一个最优的下行传输时间t*,使得有最优的下行资源消耗;(3)不断重复迭代过程直到得到最优的下行传输时间t*,使得有最优的下行资源消耗。本发明提供一种最小化下行传输时间与基站总能量消耗的基于深度强化学习的非正交接入下行传输时间优化方法。

Description

一种基于深度强化学习的非正交接入下行传输时间优化方法
技术领域
本发明属于通信领域,一种基于深度强化学习的非正交接入下行传输时间优化方法。
背景技术
移动互联网业务的快速发展,对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源,利用非正交接入技术使移动用户同时共用同一信道为无线接入提供一种有效的方法,实现在未来的5G网中超高吞吐量和大规模连接的目标。我们旨在最小化下行传输时间与基站总能量消耗,在基站发送数据到对应移动用户的传输过程中。我们提出了一种基于深度强化学习的非正交接入下行传输时间优化方法。
发明内容
为了克服现有技术的下行传输时间较长、基站总能量消耗较大的不足,本发明提供一种最小化下行传输时间与基站总能量消耗的基于深度强化学习的非正交接入下行传输时间优化方法,本发明针对下行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度强化学习的非正交接入下行传输时间优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于深度强化学习的非正交接入下行传输时间优化方法,包括以下步骤:
(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;
在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM(Downloading-Duration ResourceConsumption Minimization)问题,DDRCM指的是下行资源消耗最小化:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:下行传输时间的权重因子;
β:下行传输总能量消耗的权重因子;
t:基站发送数据到移动用户的下行传输时间,单位是秒;
是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;
W:基站到移动用户的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
gBi:基站到移动用户i的信道功率增益;
基站需要发送到移动用户i的数据量,单位是兆比特;
基站最大下载能量消耗,单位是焦耳;
Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;
(2)DDRCM问题表示如下:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗(下行传输时间和基站总能量消耗),观察DDRCM问题知道它的目标函数只有一个变量t;
(3)通过强化学习算法来寻找一个最优的下行传输时间记为t*,该强化学习系统由智能体和环境所组成;基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,下行传输时间t将不断被优化直到找到下行资源消耗(即下行传输时间与基站总能量消耗)的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1
进一步,所述步骤(4)中,所述强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的下行传输时间t*,使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。
本发明的技术构思为:首先,考虑在蜂窝无线网络中,基站通过非正交接入技术传输数据实现最小化下行传输时间与基站总能量消耗来获得一定的经济效益和服务质量。在此处,考虑的前提是基站的下载能量消耗及下行传输时间的限制。在保证基站发送完成所有移动用户数据量的条件下,实现最小化下行资源消耗。
本发明的有益效果主要表现在:1、对于下行整体而言,利用非正交接入技术大大提高了系统传输效率;2、对于基站而言,通过非正交接入技术获得更优质的无线网络体验质量;3、通过深度强化学习得到最优的下行传输时间t*,使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。
附图说明
图1是无线网络中基站和多个移动用户的下行场景示意图。
图2是找到最优的下行传输时间t*的方法流程图。
具体实施方式
下面结合附图对于本发明作进一步详细描述。
参照图1和图2,一种基于深度强化学习的非正交接入下行传输时间优化方法,实行该方法能在同时保证基站发送完成所有移动用户数据量的条件下,使得下行传输时间与基站总能量消耗最小化,提高整个系统的无线网络体验质量。本发明可以应用于无线网络,如图1所示场景中。针对该目标设计对问题的优化方法包括如下步骤:
(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;
在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM(Downloading-Duration ResourceConsumption Minimization)问题,DDRCM指的是下行资源消耗最小化:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:下行传输时间的权重因子;
β:下行传输总能量消耗的权重因子;
t:基站发送数据到移动用户的下行传输时间,单位是秒;
是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;
W:基站到移动用户的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
gBi:基站到移动用户i的信道功率增益;
基站需要发送到移动用户i的数据量,单位是兆比特;
基站最大下载能量消耗,单位是焦耳;
Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;
(2)DDRCM问题表示如下:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗(下行传输时间和基站总能量消耗),可以观察DDRCM问题知道它的目标函数只有一个变量t;
(3)通过强化学习算法来寻找一个最优的下行传输时间记为t*,该强化学习系统由智能体和环境所组成;基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(x+,a);在智能体和环境不断交互更新下,下行传输时间t将不断被优化直到找到下行资源消耗(即下行传输时间与基站总能量消耗)的最小值,智能体的更新方式为:
Qθ(x+,a)=r(xT,a)+γmaxQθ′(x++1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1
强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的下行传输时间t*,使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。

Claims (2)

1.一种基于深度强化学习的非正交接入下行传输时间优化方法,其特征在于,所述方法包括以下步骤:
(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;
在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题,DDRCM指的是下行资源消耗最小化:
DDRCM:
0≤t≤Tmax (1-3)
Variables:t
下面将问题中的各个变量做一个说明,如下:
α:下行传输时间的权重因子;
β:下行传输总能量消耗的权重因子;
t:基站发送数据到移动用户的下行传输时间,单位是秒;
是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;
W:基站到移动用户的信道带宽,单位是赫兹;
n0:信道背景噪声的频谱功率密度;
gBi:基站到移动用户i的信道功率增益;
基站需要发送到移动用户i的数据量,单位是兆比特;
基站最大下载能量消耗,单位是焦耳;
Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;
(2)DDRCM问题表示如下:
DDRCM:
s.t.constraint(1-1)
constraint(1-2)
Variable:0≤t≤Tmax
DDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗,观察DDRCM问题知道它的目标函数只有一个变量t;
(3)通过强化学习算法来寻找一个最优的下行传输时间记为t*,该强化学习系统由智能体和环境所组成;基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,下行传输时间t将不断被优化直到找到下行资源消耗的最小值,智能体的更新方式为:
Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1-5)
其中,各参数定义如下:
θ:评估网络中的参数;
θ′:目标网络中的参数;
xT:在时刻T,系统所处状态;
Qθ(xT,a):在状态xt下采取动作a所得到的Q值;
r(xT,a):在状态xt下采取动作a所得到的奖励;
γ:奖励衰减比重;
(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1
2.如权利要求1所述的一种基于深度强化学习的非正交接入下行传输时间优化方法,其特征在于,所述步骤(4)中,所述强化学习的迭代过程为:
步骤4.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;
步骤4.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;
步骤4.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;
步骤4.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;
步骤4.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);
步骤4.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预测得更准;
步骤4.7:每隔S步,将评估网络的参数赋值给目标网络,同时令k=k+1,回到步骤4.2;
步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的下行传输时间t*,使得有最优的下行资源消耗。
CN201810477039.0A 2018-05-18 2018-05-18 一种基于深度强化学习的非正交接入下行传输时间优化方法 Active CN108668304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810477039.0A CN108668304B (zh) 2018-05-18 2018-05-18 一种基于深度强化学习的非正交接入下行传输时间优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810477039.0A CN108668304B (zh) 2018-05-18 2018-05-18 一种基于深度强化学习的非正交接入下行传输时间优化方法

Publications (2)

Publication Number Publication Date
CN108668304A true CN108668304A (zh) 2018-10-16
CN108668304B CN108668304B (zh) 2021-08-03

Family

ID=63776581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810477039.0A Active CN108668304B (zh) 2018-05-18 2018-05-18 一种基于深度强化学习的非正交接入下行传输时间优化方法

Country Status (1)

Country Link
CN (1) CN108668304B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819522A (zh) * 2019-03-15 2019-05-28 电子科技大学 一种平衡能耗与用户服务质量的用户带宽资源分配方法
CN109951219A (zh) * 2019-02-02 2019-06-28 浙江大学 一种低成本的大规模非正交多接入方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016171494A1 (ko) * 2015-04-22 2016-10-27 엘지전자 주식회사 무선 통신 시스템에서 신호를 송수신하는 방법 및 이를 수행하는 장치
CN106411486A (zh) * 2015-07-31 2017-02-15 电信科学技术研究院 一种上行解调导频的发送接收方法及装置
CN107426735A (zh) * 2017-03-28 2017-12-01 东南大学 一种智能电网通信底衬式频谱接入方法
CN107846240A (zh) * 2017-12-20 2018-03-27 黑龙江科技大学 一种下行多输入单输出非正交多址接入系统功率分配方法
CN108040364A (zh) * 2017-11-07 2018-05-15 浙江工业大学 非正交多址链路中信道带宽与功率联合分配的线性搜索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016171494A1 (ko) * 2015-04-22 2016-10-27 엘지전자 주식회사 무선 통신 시스템에서 신호를 송수신하는 방법 및 이를 수행하는 장치
CN106411486A (zh) * 2015-07-31 2017-02-15 电信科学技术研究院 一种上行解调导频的发送接收方法及装置
CN107426735A (zh) * 2017-03-28 2017-12-01 东南大学 一种智能电网通信底衬式频谱接入方法
CN108040364A (zh) * 2017-11-07 2018-05-15 浙江工业大学 非正交多址链路中信道带宽与功率联合分配的线性搜索方法
CN107846240A (zh) * 2017-12-20 2018-03-27 黑龙江科技大学 一种下行多输入单输出非正交多址接入系统功率分配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951219A (zh) * 2019-02-02 2019-06-28 浙江大学 一种低成本的大规模非正交多接入方法
CN109819522A (zh) * 2019-03-15 2019-05-28 电子科技大学 一种平衡能耗与用户服务质量的用户带宽资源分配方法
CN109819522B (zh) * 2019-03-15 2021-08-24 电子科技大学 一种平衡能耗与用户服务质量的用户带宽资源分配方法

Also Published As

Publication number Publication date
CN108668304B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
Zhang et al. Double coded caching in ultra dense networks: Caching and multicast scheduling via deep reinforcement learning
CN110493826A (zh) 一种基于深度强化学习的异构云无线接入网资源分配方法
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
CN109951897A (zh) 一种能耗与延迟约束下的mec卸载方法
CN108112082A (zh) 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108834109B (zh) 全双工主动窃听下基于q学习的d2d协同中继功率控制方法
He et al. Resource allocation based on graph neural networks in vehicular communications
CN108834080A (zh) 异构网络中基于多播技术的分布式缓存和用户关联方法
CN108153830A (zh) 无线通信网络中基于学习的主动缓存控制方法
CN105813189B (zh) 一种蜂窝网中的d2d分布式功率优化方法
CN108632861A (zh) 一种基于深度强化学习的移动边缘计算分流决策方法
Tian et al. Optimization-oriented RAW modeling of IEEE 802.11 ah heterogeneous networks
Mosleh et al. Coordinated data assignment: A novel scheme for big data over cached cloud-RAN
CN107864507B (zh) 基于量子猴群搜索机制的认知无线电功率控制方法
CN108668304A (zh) 一种基于深度强化学习的非正交接入下行传输时间优化方法
CN107592650A (zh) 一种室外到室内通信系统中高能效的资源分配方法
CN108712755A (zh) 一种基于深度强化学习的非正交接入上行传输时间优化方法
CN109272167B (zh) 一种基于uudn和q神经网络的绿色能量合作方法
Kuang et al. Client selection with bandwidth allocation in federated learning
CN107071881A (zh) 一种基于博弈论的小蜂窝网络分布式能量分配方法
CN109104768B (zh) 一种基于模拟退火算法的非正交多址接入联合带宽和速率分配方法
CN108810986A (zh) 一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法
CN107396383B (zh) 一种基于平均场博弈的移动通信基站能效优化方法
CN107249213A (zh) 一种d2d通信中频谱效率最大化的功率分配方法
CN107249212A (zh) 一种d2d通信中能效最大化的功率分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant