CN111526592B - 一种用于无线干扰信道中的非协作多智能体功率控制方法 - Google Patents

一种用于无线干扰信道中的非协作多智能体功率控制方法 Download PDF

Info

Publication number
CN111526592B
CN111526592B CN202010289045.0A CN202010289045A CN111526592B CN 111526592 B CN111526592 B CN 111526592B CN 202010289045 A CN202010289045 A CN 202010289045A CN 111526592 B CN111526592 B CN 111526592B
Authority
CN
China
Prior art keywords
neural network
deep neural
actor
local
weight vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010289045.0A
Other languages
English (en)
Other versions
CN111526592A (zh
Inventor
张蔺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010289045.0A priority Critical patent/CN111526592B/zh
Publication of CN111526592A publication Critical patent/CN111526592A/zh
Application granted granted Critical
Publication of CN111526592B publication Critical patent/CN111526592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开一种用于无线干扰信道中的非协作多智能体功率控制方法,应用于通信技术领域,针对现有技术存在的不能为5G和未来无线网络提供一种同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制的问题;本发明采用分布式执行‑集中式训练的结构;每个无线发射机有一个本地深度神经网络,每一个本地深度神经网络的输入为该对无线收发机观测到的本地无线环境状态信息,输出为该无线发射机的发射功率;每一个本地深度神经网络的权值向量在核心网络进行集中式训练;实现了同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制的效果。

Description

一种用于无线干扰信道中的非协作多智能体功率控制方法
技术领域
本发明属于通信技术领域,特别涉及一种无线网络干扰信道中的功率控制技术。
背景技术
随着移动互联网技术的高速发展,无线终端设备数量呈指数级增加。海量的无线设备推动了无线网络流量爆炸式增长,给传统蜂窝网络的无线接入能力带来了巨大的挑战。为了应对这个挑战,国际电信联盟3GPP(第三代伙伴计划)启动了异构蜂窝网络的标准化。传统蜂窝和异构蜂窝的主要区别在于,传统蜂窝中通过部署一个宏基站为宏小区的所有用户提供无线接入服务,而异构蜂窝通过在宏基站的周围规划多个微小区,并在每个微小区中部署一个小基站为微小区内的用户提供灵活的无线接入服务。相比于传统蜂窝网络,异构蜂窝网络有两大明显优势。一方面,异构蜂窝网络能够将传统蜂窝网宏基站的无线流量卸载到小基站,减小用户无线请求时延,提升用户体验。另一方面,异构蜂窝网络拉近了基站与用户间的距离,减小了无线信号的传输损耗,提高无线信号的传输速率和能量效率。
异构蜂窝网络在改变传统蜂窝网络架构的同时也增加了无线资源管理的难度。频谱资源的匮乏使得多个微小区共用同一段频谱资源(同频部署),这导致同频部署的微小区之间会产生严重的干扰,降低和传输速率。为了有效地抑制微小区之间的干扰并最大化微小区和传输速率,需要为每个微小区的小基站分配最优的传输功率。小基站的最优传输功率分配不仅与微小区内部的无线信道状态信息有关,也与微小区之间的信道状态信息有关。但是,微小区的分布式部署使得微小区之间的信道状态信息难于实时获取,这给最优传输功率分配带来了巨大的挑战。
针对异构蜂窝网络中微小区之间信道状态信息难以实时获取并导致小基站传输功率难以实时联合优化的问题,本项目研究在既不能获取实时微小区全局信道状态信息也不存在小基站间协作的情况下,小基站只基于本地信息对传输功率进行动态优化的理论与技术。本项目拟采用多智能体深度强化学习框架,通过将每个小基站视为一个智能体深度神经网络,利用微小区历史全局信息对其进行训练,使得每个智能体具有全局视野。收敛后的智能体深度神经网络能够只基于本地信息动态地优化传输功率并提高微小区和速率。
异构蜂窝网络中小基站的功率分配属于NP-hard问题。针对NP-hard问题,一般不存在快速的最优解法。现有功率控制方法可以大致分为三类:基于迭代优化的方法、基于深度学习的方法、基于深度增强学习的方法。
(1)两种经典的基于迭代优化的方法包括加权最小均方差(weighted minimummean square error,WMMSE)方法和分式规划(fractional programming,FP)方法。在该类方法中,计算节点首先收集干扰信道的全局信道状态信息(channel state information,CSI),然后通过迭代的方法计算一个次优的功率分配方案;
(2)基于深度学习的方法中,智能体首先收集大量的历史全局信道状态信息,并利用WMMSE或者FP方法计算出每一个全局信道状态信息下相应的次优功率分配方案,用深度神经网络(deep neural network,DNN)来学习全局子信道状态信息与次优功率分配之间的关系。待深度神经网络收敛后,将未来每一个时刻的全局信道状态信息输入到该深度神经网络中,该深度神经网络能够快速输出一个功率分配方案。
(3)基于深度强化学习的方法中,智能体通过不断调整功率分配方案与环境进行交互,累计经验,并利用一个深度神经网络从经验中学习智能体观察到的无线环境状态、功率分配方案、网络和速率之间的关系。待深度神经网络收敛后,智能体将未来每个时刻观察到的无线环境状态输入到该深度神经网络中,该深度神经网络能够快速输出一个功率分配方案。
无线网络干扰信道中的三类功率控制方法详细比较见表1所示。
表1无线网络干扰信道中现有功率控制方法的比较
Figure BDA0002449693820000021
现有的三类方法的比较见表1。但是,典型的异构蜂窝网络中有以下两个特点:第一,无线信道变化快;第二,不同的收发机之间难以协作。基于此,现有的三类功率控制方法都不能直接用于异构蜂窝网中,即现有的三类功率控制方法不能为5G和未来无线网络提供一种同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制方法。
发明内容
为解决上述技术问题,本发明提出一种同时具有非协作、计算复杂度低、高性能、适合快速变化信道环境的功率控制方法。
本发明采用的技术方案为:一种用于无线干扰信道中的非协作多智能体功率控制方法,基于的计算框架为:
在每一个基站建立一个本地深度神经网络,在核心网络中为每一个本地深度神经网络建立一个演员深度神经网络与对应的目标演员深度神经网络,还包括在核心网络建立一个评判家深度神经网络与对应的目标评判家深度神经网络,所述核心网络还包括记忆回放缓存;基站与核心网络之间通过具有Td时延的双向反馈连路进行数据交换;
所述方法的实现过程为:
S1、每一个基站在每一个时隙将本地状态信息输入本地深度神经网络得到发射功率,同时在每一个时隙将本地经验和辅助信息上传至核心网络;
S2、经过Td时延,核心网络根据同时收到的所有本地经验和辅助信息,构造全局经验,并将全局经验存放至记忆回放缓存中;
S3、核心网络根据记忆回放缓存中存储的全局经验,对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练;
S4、核心网络每隔Tu时间向基站传输最新的演员深度神经网络权值向量,用于更新本地深度神经网络权值向量;所述本地深度神经网络的输入为对应基站的无线发射机与无线接收机观测到的本地无线环境状态信息,输出为对应基站的无线发射机的发射功率。
在步骤S1之前还包括随机经验积累阶段,具体过程为:
A1、每一个基站在每一个时隙随机选取发射功率,同时在每一个时隙将本地经验和辅助信息上传至核心网络;
A2、经过Td时延,核心网络根据同时收到的所有本地经验和辅助信息,构造全局经验,并将全局经验存放至记忆回放缓存中;
A3、重复步骤A1和步骤A2直到记忆回放缓存中有D个全局经验;
A4、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验,对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练;
A5、核心网络每隔Tu时间向基站传输最新的演员深度神经网络权值向量;
A6、若基站未收到最新的演员深度神经网络权值向量,则返回步骤A1;否则基站根据第一次收到最新的演员深度神经网络权值向量更新本地深度神经网络权值向量,并利用最新的本地深度神经网络配置发射功率。
步骤S3或步骤A4的具体实现过程为:
所述评判家深度神经网络以及目标评判家深度神经网络的输入为全局状态信息与全局动作,输出为在该全局状态信息下采用该全局动作的长期回报值估计;当前时刻的评判家深度神经网络权值向量通过最小化损失函数来进行更新;当前时刻的目标评判家深度神经网络权值向量根据上一时刻的评判家深度神经网络权值向量与上一时刻的目标评判家深度神经网络权值向量进行更新;
所述演员深度神经网络、目标演员深度神经网络的输入为对应基站的无线发射机与无线接收机观测到的本地无线环境状态信息,输出为对应基站的无线发射机的发射功率;
当前时刻的演员深度神经网络权值通过最大化平均长期全局回报值进行更新;当前时刻的目标演员深度神经网络权值向量根据上一时刻的演员深度神经网络权值向量与上一时刻目标演员深度神经网络权值向量进行更新。
所述本地经验为基站的无线发射机与无线接收机观测到的本地无线环境状态信息。
所述辅助信息为用户接收到的来自每个非本地发射机的干扰。
所述演员深度神经网络与目标演员深度神经网络与对应的本地深度神经网络结构相同。
所述评判家深度神经网络以及目标评判家深度神经网络网络结构相同。
所述演员深度神经网络权值向量根据最大化平均长期回报值进行更新。
本发明的有益效果:本发明提出的分布式执行-集中式训练的结构与集中式训练方法,每个无线发射机有一个本地深度神经网络,每一个本地深度神经网络的输入为该对无线收发机观测到的本地无线环境状态信息,输出为该无线发射机的发射功率,实现分布式执行;每一个本地深度神经网络的权值向量在核心网络进行集中式训练,实现集中式训练;本发明的方法同时具有非协作、计算复杂度低、高性能的优点;与现有方法相比,本发明的方法只需要将本地观察到的数据输入本地神经网络优化传输功率,采用分布式执行的架构,使得本发明的方法能适合快速变化信道环境;并且本发明的方法相比于现有方法和速率性能更好。
附图说明
图1为本发明的功率控制方法框架;
图2为本发明实施例提供的异构蜂窝网模型;
图3为本发明实施例提供的本地/演员/目标演员深度神经网络结构;
图4为本发明实施例提供的评判家/目标评判家深度神经网络结构;
图5为本发明实施例提供的仿真模型;
其中,图5(a)为两层异构蜂窝网络场景,图5(b)为三层异构蜂窝网络场景;
图6为两层异构蜂窝网络中不同功率控制方法的和速率性能比较;
其中,图6(a)为深度神经网络训练阶段和速率性能比较,图6(b)为测试阶段和速率性能比较;
图7为三层异构蜂窝网络中不同功率控制方法的和速率性能比较;
其中,图7(a)为深度神经网络训练阶段和速率性能比较,图7(b)为测试阶段和速率性能比较。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图1-7对本发明内容进一步阐释。
本发明的功率控制算法框架如图1所示,本发明的框架具有分布式执行-集中式训练的结构。所述分布式执行为:每个无线发射机有一个本地深度神经网络,每一个本地深度神经网络的输入为该对无线收发机观测到的本地无线环境状态信息,输出为该无线发射机的发射功率;所述集中式训练为:每一个本地深度神经网络的权值向量在核心网络进行集中式训练。
为了进行集中式训练,核心网络中需要预留一个记忆回放缓存用于存放网络全局经验,并建立多个演员深度神经网络和相应的目标演员深度神经网络,以及建立一个评判家深度神经网络和相应的目标评论家深度神经网络。本发明中建立目标演员深度神经网络和目标评判家深度神经网络是为了分别使演员深度神经网络和评判家深度神经网络的训练更加稳定。
其中,每一组演员深度神经网络和目标演员深度神经网络对应着一个本地深度神经网络,并与其对应的本地深度神经网络具有相同的网络结构,相同的网络结构使得每一个训练后的演员深度神经网络权重向量可以用于更新其对应的本地深度神经网络。
评判家深度神经网络与目标评判家深度神经网络具有相同的网络结构,评判家深度神经网络用于评判各个演员深度神经网络输出的发射功率对系统和速率的影响并指导其权重的更新。
无线发射机与核心网络通过一条具有Td传输时延的双向反馈链路实现数据交换。一方面,无线发射机需要向核心网络上传每一个时刻的本地经验和辅助信息,核心网络整合所有发射机的本地经验和辅助信息构造全局经验,并将其存放在记忆回放缓存中。另一方面,核心网络每隔Tu将每一个最新的演员深度神经网络权值向量下发给对应的无线发射机用于更新其本地深度神经网络。
以下结合具体场景对本发明的内容进行说明:
如图2所示,在一个典型的异构蜂窝网中,多个基站(发射机)共用一个频段给不同用户(接收机)提供无线下行数据传输服务,同时产生严重的同频干扰。不失一般性,假设一个基站只服务一个用户,将N组由基站-用户构成的收发机对编号为n∈N={1,2,…,N},并分别用基站n和用户n指代第n组基站-用户对中的基站和用户,下文中将第n组基站-用户对称作无线收发机n,即基站n为无线发射机n,用户n为无线接收机n。
无线信道系数由大尺度衰减系数和小尺度衰落系数组成。将基站n与用户k之间的大尺度衰减系数和小尺度锐利衰落系数分别表示为φn,k和hn,k,那么基站n与用户k之间的无线信道系数可以表示为
Figure BDA0002449693820000061
相应的信道增益系数可以表示为
Figure BDA0002449693820000062
整个系统的信道增益矩阵可以表示为
Figure BDA0002449693820000063
其中gn,k为信道增益矩阵中第n行第k列的元素。在无线通信系统中,大尺度衰减系数φn,k与基站n和用户k的相对位置相关,一般在很长一段时间内保持不变;小尺度锐利衰落系数hn,k是一个服从为均值为1的锐利分布随机变量,一般在一个时隙内保持恒定,在多个时隙之间随机变化。
将基站n在时刻t的发射功率表示为pn(t),发送的单位功率信号表示为xn(t)。那么用户n在时刻t接收到的信号为
Figure BDA0002449693820000071
其中,δn(t)是用户n处的噪声,其功率为σ2。因此,用户n处在时刻t的信干噪比为
Figure BDA0002449693820000072
相应的单位带宽下行传输速率(比特每秒每赫兹,bps)为rn(t)=log2(1+γn(t)) (3)
本发明的目标是通过优化在时刻t中所有基站n的发射功率pn(t)来最大化和速率,即
Figure BDA0002449693820000073
Figure BDA0002449693820000074
其中,pn,max是基站n的最大发射功率。
基于上述场景,本发明的相关参数定义如下:
sn表示无线收发机n观察到的本地无线环境状态;on表示无线收发机n观察到的本地无线环境辅助信息;an表示基站n设置的发射功率,rn表示无线收发机n获得的直接回报,即传输速率;s′n表示无线收发机n观察到的新本地无线环境状态;o′n表示无线收发机n观察到的本地无线环境新辅助信息;无线收发机n的一个本地经验的定义为en={sn,an,rn,s'n},表示基站n在sn下采用发射功率an后获取传输速率rn,本地无线状态变化到s'n;一个网络全局经验定义为E={s1,…,sN,so,a1,…,aN,R,s′1,…,s'N,s'o},其中{s1,…,sn,so}表示全局状态信息,包含N对无线收发机观察到的本地无线环境状态信息和核心网络整合所有发射机辅助信息{o1,…,oN}构成的其他全局状态信息so,{a1,…,an}表示全局动作,包括包含N个无线发射机的发射功率,观察到的本地无线环境状态信息an表示第n个无线发射机的发射功率,R表示在全局状态{s1,…,sn,so},N个无线发射机采用发射功率{a1,…,an},核心网络所获得的全局回报,{s′1,…,s'N,s'o}表示变化后的全局网络状态信息,包括N组无线收发机观察到的新本地无线环境状态信息和核心网络整合所有无线发射机辅助信息{o′1,…,o'N}构成的新的其他全局状态信息s'o
将N个本地深度神经网络表示为
Figure BDA0002449693820000081
(n∈N),其中,sn表示无线收发机n观察到的本地无线环境状态,
Figure BDA0002449693820000082
表示为在无线发射机n处的本地深度神经网络权值向量。
将N个演员深度神经网络表示为
Figure BDA0002449693820000083
(n∈N),其中,
Figure BDA0002449693820000084
表示为第n个演员深度神经网络权值向量。相应地,将N个演员深度神经网络对应的目标演员深度神经网络表示为
Figure BDA0002449693820000085
(n∈N),其中,
Figure BDA0002449693820000086
表示为第n个演员深度神经网络对应的目标演员深度神经网络的权值向量。
将评判家深度神经网络表示为Q(s1,…,sn,so,a1,…,an;θ(c)),其中,{s1,…,sn,so}表示全局状态信息,包含N对无线收发机观察到的本地无线环境状态信息和核心网络整合所有无线发射机辅助信息构成的其他全局状态信息so,{a1,…,an}表示全局动作,包括an表示第n个无线发射机的发射功率,θ(c)为评判家深度神经网络权值向量。相应地,将目标评判家深度神经网络表示为Q-(s1,…,sn,so,a1,…,an;θ(c-)),其中,θ(c-)为目标评判家深度神经网络权值向量。
需要说明的是,本地深度神经网络、演员深度神经网络以及目标演员深度神经网络的输入都是无线收发机的本地状态信息,输出是无线发射机的发射功率;评判家深度神经网络与目标评判家深度神经网络的输入包括全局状态信息和全局动作,输出是对在该全局状态信息下采用该全局动作的长期回报值估计,长期回报值越大说明在该全局状态信息下采用该全局动作能获得的系统和速率越大。
相关参数的设计过程为:
D1、本地状态sn的设计为包括当前时刻与上一时刻的本地信息,上一时刻的本地信息包括:基站n和用户n之间的无线信道增益,基站n的发射功率,用户n接收到的总干扰功率,用户n处的信干噪比,基站n和用户n之间的传输速率;当前时刻的本地信息包括:基站n和用户n之间的无线信道增益,用户n接收到的总干扰功率;具体的以t时刻的本地状态为例,具体涉及过程为:
在t时刻开始阶段,基站n和用户n的本地信息包括t-1时刻的本地信息(基站n和用户n之间的无线信道增益,基站n的发射功率,用户n接收到的总干扰功率,用户n处的信干噪比,基站n和用户n之间的传输速率),和t时刻开始阶段的本地信息(基站n和用户n之间的无线信道增益,用户n接收到的总干扰功率)。需要说明的是,用户n在t时刻开始阶段接收到的总干扰功率产生过程如下:在t时刻开始阶段,尽管无线信道已经相对t-1时刻发生了变化,由于新的发射功率还未确定,所有基站仍然使用t-1时刻的发射功率传输数据,并且造成相互干扰。因此,在t时刻开始阶段,我们将本地状态sn设计为:
Figure BDA0002449693820000091
其中,gn,n(t-1)为时刻t-1信道增益矩阵中第n行第n列的元素,pn(t-1)表示时刻t-1中所有基站n的发射功率,pk(t-1)表示时刻t-1中所有基站k的发射功率,gk,n(t-1)表示时刻t-1信道增益矩阵中第k行第n列的元素,gn,n(t)为时刻t信道增益矩阵中第n行第n列的元素,gk,n(t)表示时刻t信道增益矩阵中第k行第n列的元素。
D2、基站n的行为an设计为基站的发射功率,以t时刻基站n的本地行为设计an(t)为例:将在t时刻基站n的本地行为设计为an(t)=pn(t)。
D3、直接回报rn设计为本地传输速率,以t时刻基站n和用户n获得的直接回报rn(t)为例:将在t时刻基站n和用户n获得的直接回报设计为本地传输速率rn(t)。
D4、本地经验en设计为包括当前时刻与上一时刻的本地状态、上一时刻基站n的行为、上一时刻的直接回报,以t时刻的本地经验为例,其表达式为:
en(t)={sn(t-1),an(t-1),rn(t-1),sn(t)} (6)
D5、辅助信息on设计为用户接收来自每个非本地发射机的干扰,以t时刻辅助信息的设计为例:将t时刻辅助信息on设计为用户接收来自每个非本地发射机的干扰,即,
Figure BDA0002449693820000101
D6、全局经验E设计为包括上一时刻所有本地状态、上一时刻所有基站的动作、上一时刻的全局回报、上一时刻的全局辅助信息、当前时刻的所有本地状态以及当前时刻的全局辅助信息;以t时刻的全局经验E为例:由于无线发射机与核心网络的数据交换具有Td时延,将在t时刻的全局经验E表示为
Figure BDA0002449693820000102
其中,R(t-1-Td)表示核心网络在t-1-Td时刻所获得的全局回报,即和传输速率。对于任意n∈{1,2,…,N},核心网络可以从本地经验en(t-Td)中直接获取sn(t-1-Td),sn(t-Td)和an(t-1-Td);利用en(t-Td)中的rn(t-1)直接计算
Figure BDA0002449693820000103
利用en(t-1-Td)中和辅助信息on(t-1-Td)构造so(t-1-Td)=G(t-1-Td);利用en(t-Td)和辅助信息on(t-Td)构造so(t-Td)=G(t-Td)。
以构造so(t-Td)=G(t-Td)为例,根据定义,G(t-Td)由gn,n(t-Td),
Figure BDA0002449693820000104
和gn,k(t-Td),
Figure BDA0002449693820000105
组成;其中,gn,n(t-Td)包含在en(t-Td)中,gn,k(t-Td),
Figure BDA0002449693820000106
可以通过en(t-Td)中的pn(t-1-Td)和ok(t-Td)中的pn(t-1-Td)gn,k(t-Td)直接计算得到。核心网络可以通过类似的方法构造so(t-1-Td)=G(t-1-Td)。
D7、本地/演员/目标演员深度神经网络设计:由于本地深度神经网络、演员深度神经网络、目标演员深度神经网络结构相同,此处以演员深度神经网络结构设计为例进行说明,如图3所示,将演员深度神经网络设计为5层全连接网络。第一层是输入层。由于输入的本地状态sn具有7个元素,所以输入层有
Figure BDA0002449693820000111
个神经元。第二层和第三层的神经元数量分别表示为
Figure BDA0002449693820000112
Figure BDA0002449693820000113
第四层的神经元数量为1,激活函数为Sigmod函数,其作用是输出一个0到1之间的数值。第五层的神经元个数为1,作用是将上一层输出的0到1之间的数值线性放缩到一个0到pn,max之间的发射功率pn。本领域的技术人员应注意,本地深度神经网络、演员深度神经网络、目标演员深度神经网络的结构不限于本实施例中所给出的这一种,在实际应用中,通过修改层数与神经元个数等参数也可以设计为其他结构。
D8、评判家/目标评判家深度神经网络设计:由于评判家深度神经网络、目标评判家深度神经网络结构相同,此处以评判家深度神经网络结构设计为例进行说明,如图4所示,评判家深度神经网络包含状态模块、动作模块和混合状态-动作模块。状态模块是一个三层的全连接神经网络。状态模块的第一层为全局状态信息的输入提供接口,由于全局状态信息具有7N+N2个数据,所以该层有
Figure BDA0002449693820000114
个神经元。状态模块的第二层和第三层的神经元数量分别表示为
Figure BDA0002449693820000115
Figure BDA0002449693820000116
动作模块是一个两层的全连接神经网络。动作模块的第一层为全局动态的输入提供接口,由于全局动作具有N个数据,所以该层有
Figure BDA0002449693820000117
个神经元。动作模块第二层的神经元数量表示为
Figure BDA0002449693820000118
混合状态-动作模块是一个三层的全连接神经网络。混合状态-动作模块的第一层由状态模块的最后一层和动作模块的最后一层拼接而成,该层有
Figure BDA0002449693820000119
个神经元。混合状态-动作模块的第二层的神经元数量表示为
Figure BDA00024496938200001110
混合状态-动作模块的第三层神经元数量为1,作用是输出在该全局状态信息下采用该全局动作的长期回报数值。本领域的技术人员应注意,评判家深度神经网络、目标评判家深度神经网络的结构不限于本实施例中所给出的这一种,在实际应用中,通过修改层数与神经元个数等参数也可以设计为其他结构。
本发明具体的功率控制方法实现过程包括以下三个阶段:
1、初始化:
11、根据步骤D7,在每一个基站处建立一个本地深度神经网络
Figure BDA0002449693820000121
(n∈N),并在核心网络中为每一个本地深度神经网络分别建立一个演员深度神经网络
Figure BDA0002449693820000122
(n∈N)以及相应的目标演员深度神经网络
Figure BDA0002449693820000123
(n∈N)。
12、根据步骤D8,在核心网络建立一个评判家深度神经网络Q(s1,…,sn,so,a1,…,an;θ(c))和相应的目标评判家神经网络Q-(s1,…,sn,so,a1,…,an;θ(c-))。
13、随机初始化
Figure BDA0002449693820000124
(n∈N)和θ(c),并初始化
Figure BDA0002449693820000125
(n∈N)和θ(c-)=θ(c)
14、为记忆回放缓存预留M个单位的全局经验存储空间,记忆回放缓存的工作方式是先进先出。
2、随机累积经验:
21、所有基站在每一个时隙都随机选取发射功率,同时在每一个时隙将本地经验en(见步骤D4)和辅助信息on(见步骤D5)上传至核心网络。
22、经过Td时延,核心网络同时收到所有本地经验en和辅助信息on,并构造全局经验E(见步骤D6)存放在记忆回放缓存中。
23、重复步骤21和步骤22直到记忆回放缓存中有D个全局经验,本实施例中D的取值一般取2的幂次方,如16,32,64,128,256,具体值根据仿真中的性能选取。
24、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验,并用(10)、(12)、(15)、(16)更新评判家深度神经网络、目标评判家深度神经网络、演员深度神经网络、目标演员深度神经网络。
25、核心网络每隔Tu时间向基站n,(n∈N)传输最新的演员深度神经网络权值向量
Figure BDA0002449693820000126
26、重复步骤21、步骤22,步骤24、步骤25,直到基站n,(n∈N)第一次收到最新的演员深度神经网络权值向量
Figure BDA0002449693820000127
并用于更新本地深度神经网络权值向量,
Figure BDA0002449693820000128
3、深度神经网络训练:
31、基站n∈N在每一个时刻开始阶段将本地状态sn(见设计D1)输入本地深度神经网络得到发射功率
Figure BDA0002449693820000131
其中
Figure BDA0002449693820000132
为均值为0,标准差为υ的高斯随机变量,其作用是保证基站能够持续不断的探索新的功率控制策略。同时,基站n∈N将本地经验en(见设计D4)和辅助信息on(见设计D5)上传至核心网络。
32、经过Td时延,核心网络同时收到所有本地经验en和辅助信息on,并构造全局经验E(见设计D6)存放在记忆回放缓存中。
33、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验,并用式(10)、(12)、(15)、(16)更新评判家深度神经网络、目标评判家深度神经网络、演员深度神经网络、目标演员深度神经网络;本步骤包括以下两个部分:
A、评判家深度神经网络训练方法
为了训练评判家深度神经网络,我们首先从记忆回放缓存中随机采样D个全局经验,并将采样的全局经验集合表示为D。然后,我们采用随机梯度下降方法最小化损失函数
Figure BDA0002449693820000133
来更新θ(c),即
Figure BDA0002449693820000134
其中,
Figure BDA0002449693820000135
η∈[0,1]为折扣因子,α(c)∈[0,1]为评判家深度神经网络的学习率。
为了使得评判家深度神经网络的训练更加稳定,本实施例中目标评判家深度神经网络权值向量更新方法为:
θ(c-)(t)=τ(c)θ(c)(t-1)+(1-τ(c)(c-)(t-1) (12)
其中,τ(c)为目标评判家深度神经网络权值向量更新速率,θ(c-)(t)表示t时刻目标评判家深度神经网络权值向量,θ(c)(t-1)表示t-1时刻评判家深度神经网络权值向量,θ(c-)(t-1)表示t-1时刻目标评判家深度神经网络权值向量。
评判家深度神经网络用于评判各个演员深度神经网络输出的发射功率对系统和速率的影响并指导其权重的更新,具体体现见本实施例中B部分。
B、演员深度神经网络训练方法
每一个演员深度神经网络的训练目标是最大化平均长期回报值,即
Figure BDA0002449693820000141
我们对
Figure BDA0002449693820000142
求偏导数得到
Figure BDA0002449693820000143
Figure BDA0002449693820000144
的更新算法为:
Figure BDA0002449693820000145
其中,
Figure BDA0002449693820000146
为演员深度神经网络的学习率,
Figure BDA0002449693820000147
表示t时刻第n个演员深度神经网络权值向量,
Figure BDA0002449693820000148
表示t-1时刻第n个演员深度神经网络权值向量。
目标演员深度神经网络权值向量更新方法为:
Figure BDA0002449693820000149
其中,
Figure BDA00024496938200001410
为目标评判家深度神经网络权值向量更新速率,
Figure BDA00024496938200001411
表示t时刻第n个目标演员深度神经网络权值向量,
Figure BDA00024496938200001412
表示t-1时刻第n个目标演员深度神经网络权值向量。
需要说明的是,利用全局经验进行训练使得评判家深度神经网络能够快速学习到全局状态信息与最大化和速率的全局功率控制策略之间的对应关系。在评判家深度神经网络的评判/指导下进行训练和权值更新,每一个演员深度神经网络能够快速学习到本地无线环境状态信息与最大化和速率功率控制方案的对应关系。从而,如果我们用演员深度神经网络权值向量取更新基站处的本地深度神经网络权值向量,那么基站也能够仅根据本地无线环境状态信息,优化传输功率并最大化和速率。
34、核心网络每隔Tu时间向基站n,(n∈N)传输最新的演员深度神经网络权值向量
Figure BDA0002449693820000151
35、基站n,(n∈N)一旦收到最新的演员深度神经网络权值向量
Figure BDA0002449693820000152
便更新本地深度神经网络权值向量,
Figure BDA0002449693820000153
36、重复步骤31-步骤35直到所有神经网络权值向量收敛,收敛即神经网络权值向量在训练的过程中几乎不变。
停止训练,测试收敛后的深度神经网络:
基站n∈N在每一个时刻开始阶段将本地状态sn(见步骤D1)输入本地深度神经网络得到发射功率
Figure BDA0002449693820000154
如表2所示,本发明的方法与现有方法比较结果可知,本发明的方法同时具有非协作、计算复杂度低、高性能的优点,且适合快速变化信道环境的功率控制。
表2本发明的功率控制方法与现有功率控制方法的比较
Figure BDA0002449693820000155
采用本发明的功率控制方法测试器在两层和三层异构锋网络场景中的性能,并与现有的WMMSE方法、FP方法、全功率方法、随机功率方法进行比较。
两层异构蜂窝网络场景:五个基站的二维坐标分别为(0,0),(500,0),(0,500),(-500,0),(0,-500),单位为米,覆盖范围分别为1000米,200米,200米,200米,200米。五个基站的最大发射功率分别为30dBm,23dBm,23dBm,23dBm,23dBm。每个基站所服务的用户在其覆盖范围内随机生成。
三层异构蜂窝网络场景:九个基站的二维坐标分别为(0,0),(500,0),(0,500),(-500,0),(0,-500),(700,0),(0,700),(-700,0),(0,-700)单位为米,覆盖范围分别为1000米,200米,200米,200米,200米,100米,100米,100米,100米。九个基站的最大发射功率分别为30dBm,23dBm,23dBm,23dBm,23dBm,20dBm,20dBm,20dBm,20dBm。每个基站所服务的用户在其覆盖范围内随机生成。
我们采用的路径损耗模型为120.9+37.6log10(d),单位为dB,其中d为收发机之间的距离,单位为米。我们采用的阴影衰落服从标准差为8dB的对数正态分布。我们设置每个用户处的噪声功率σ2=-114dBm,核心网络与基站之间的数据传输延迟为Td=50个时隙,核心网络向基站发送最新深度神经网络频率为Tu=100个时隙,核心网络中记忆回放缓存大小为M=1000个全局经验。
本地深度神经网络参数如下:第一层
Figure BDA0002449693820000161
线性激活函数;第二层
Figure BDA0002449693820000162
Relu激活函数;第三层
Figure BDA0002449693820000163
sigmoid激活函数;第四层
Figure BDA0002449693820000164
线性激活函数;持续探索功率控制策略随机变量
Figure BDA0002449693820000165
为均值为0,标准差为2的高斯分布。
演员深度神经网络参数如下:第一层
Figure BDA0002449693820000166
线性激活函数;第二层
Figure BDA0002449693820000167
relu激活函数;第三层
Figure BDA0002449693820000168
sigmoid激活函数;第四层
Figure BDA0002449693820000169
线性激活函数;学习率为
Figure BDA00024496938200001610
的Adam优化器;批量采样D=128;目标演员深度神经网络权值更新因子
Figure BDA00024496938200001611
评判家深度神经网络参数如下:状态模块第一层
Figure BDA00024496938200001612
线性激活函数;状态模块第二层
Figure BDA00024496938200001613
relu激活函数;状态模块第三层
Figure BDA00024496938200001614
线性激活函数;行为模块第一层
Figure BDA0002449693820000171
线性激活函数;行为模块第二层
Figure BDA0002449693820000172
线性激活函数;混合状态-行为模块第二层
Figure BDA0002449693820000173
relu激活函数;混合状态-行为模块第三层
Figure BDA0002449693820000174
线性激活函数。
图6和图7给出了本发明的功率控制方法,WMMSE方法,FP方法,全功率方法,随机功率方法在两层异构蜂窝网络和三层异构蜂窝网络中的和速率性能比较。从图6、7中可以看出,本发明为能够快速学习到优于现有的四种功率控制方法的功率控制方法。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
本发明提出的分布式执行-集中式训练的结构,核心在于怎样集中式训练使得分布式执行更加有效;现有的集中式训练方法训练出来的本地深度神经网络配置本地发射功率,除了需要本地状态信息,还需要一部分全局状态信息。
本发明基于分布式执行-集中式训练结构,提出了新的集中式训练方法,使得分布式执行更加有效;利用本发明提出的训练方法训练出来的深度神经网络配置本地发射功率,只需要本地状态信息,不需要任何全局状态信息,能够减小获取全局信息的开销和时延,而且性能比现有的算法更好。
本发明的集中式训练方法相比于现有的训练方法存在以下区别:
收发机与核心网的交互信息和交互过程、本地状态设计、本地回报函数设计、本地经验设计、发射机的功率控制方法;
本发明提出的全新的相关设计包括:全局经验设计、演员深度神经网络设计、评判家深度神经网络设计、演员和评判家深度神经网络参数更新方法;本领域的技术人员应注意,这些新的设计除了本发明给出的例子外还存在许多其他形式,本领域的技术人员可知,通过调整其中一个参数,即可得到一个新的实现方式。

Claims (8)

1.一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,基于的计算框架为:
在每一个基站建立一个本地深度神经网络,在核心网络中为每一个本地深度神经网络建立一个演员深度神经网络与对应的目标演员深度神经网络,还包括在核心网络建立一个评判家深度神经网络与对应的目标评判家深度神经网络,所述核心网络还包括记忆回放缓存;基站与核心网络之间通过具有Td时延的双向反馈连路进行数据交换;
所述方法的实现过程为:
S1、每一个基站在每一个时隙将本地状态信息输入本地深度神经网络得到发射功率,同时在每一个时隙将本地经验和辅助信息上传至核心网络;本地经验设计为包括当前时刻与上一时刻的本地状态、上一时刻基站的行为、上一时刻的直接回报;辅助信息设计为用户接收来自每个非本地发射机的干扰;
S2、经过Td时延,核心网络根据同时收到的所有本地经验和辅助信息,构造全局经验,并将全局经验存放至记忆回放缓存中;全局经验设计为包括上一时刻所有本地状态、上一时刻所有基站的动作、上一时刻的全局回报、上一时刻的全局辅助信息、当前时刻的所有本地状态以及当前时刻的全局辅助信息;
S3、核心网络根据记忆回放缓存中存储的全局经验,对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练;
评判家深度神经网络与目标评判家深度神经网络的训练过程为:
首先从记忆回放缓存中随机采样D个全局经验,并将采样的全局经验集合表示为D;然后,采用随机梯度下降方法最小化损失函数L(θ(c)):
Figure FDA0003516678920000011
来更新评判家深度神经网络权值向量θ(c),即
Figure FDA0003516678920000012
其中,
Figure FDA0003516678920000013
Q(s1,…,sn,so,a1,…,an;θ(c))表示评判家深度神经网络,{s1,…,sn,so}表示全局状态信息,{a1,…,an}表示全局动作,Q-(s′1,…,s′N,s′o,a1,…,aN;θ(c-))表示目标评判家神经网络,{s′1,…,s′N,s′o}表示变化后的全局网络状态信息,η∈[0,1]为折扣因子,α(c)∈[0,1]为评判家深度神经网络的学习率;
目标评判家深度神经网络权值向量更新方法为:
θ(c-)(t)=τ(c)θ(c)(t-1)+(1-τ(c)(c-)(t-1)
其中,τ(c)为目标评判家深度神经网络权值向量更新速率,θ(c-)(t)表示t时刻目标评判家深度神经网络权值向量,θ(c)(t-1)表示t-1时刻评判家深度神经网络权值向量,θ(c-)(t-1)表示t-1时刻目标评判家深度神经网络权值向量;
演员深度神经网络与目标演员深度神经网络的训练过程为:
每一个演员深度神经网络的训练目标是最大化平均长期回报值,即
Figure FDA0003516678920000021
其中,
Figure FDA0003516678920000022
表示演员深度神经网络对应的本地深度神经网络,n∈N;
对演员深度神经网络权值向量
Figure FDA0003516678920000023
求偏导数得到
Figure FDA0003516678920000024
Figure FDA0003516678920000025
的更新算法为:
Figure FDA0003516678920000026
其中,
Figure FDA0003516678920000027
为演员深度神经网络的学习率,
Figure FDA0003516678920000028
表示t时刻第n个演员深度神经网络权值向量,
Figure FDA0003516678920000031
表示t-1时刻第n个演员深度神经网络权值向量;
目标演员深度神经网络权值向量更新方法为:
Figure FDA0003516678920000032
其中,
Figure FDA0003516678920000033
为目标评判家深度神经网络权值向量更新速率,
Figure FDA0003516678920000034
表示t时刻第n个目标演员深度神经网络权值向量,
Figure FDA0003516678920000035
表示t-1时刻第n个目标演员深度神经网络权值向量;
S4、核心网络每隔Tu时间向基站传输最新的演员深度神经网络权值向量,用于更新本地深度神经网络权值向量;所述本地深度神经网络的输入为对应基站的无线发射机与无线接收机观测到的本地无线环境状态信息,输出为对应基站的无线发射机的发射功率。
2.根据权利要求1所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,在步骤S1之前还包括随机经验积累阶段,具体过程为:
A1、每一个基站在每一个时隙随机选取发射功率,同时在每一个时隙将本地经验和辅助信息上传至核心网络;
A2、经过Td时延,核心网络根据同时收到的所有本地经验和辅助信息,构造全局经验,并将全局经验存放至记忆回放缓存中;
A3、重复步骤A1和步骤A2直到记忆回放缓存中有D个全局经验;
A4、核心网络在每一个时隙从记忆回放缓存中随机采样D个全局经验,对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练;
A5、核心网络每隔Tu时间向基站传输最新的演员深度神经网络权值向量;
A6、若基站未收到最新的演员深度神经网络权值向量,则返回步骤A1;否则基站根据第一次收到最新的演员深度神经网络权值向量更新本地深度神经网络权值向量,并利用最新的本地深度神经网络配置发射功率。
3.根据权利要求1或2所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,对演员深度神经网络、目标演员深度神经网络、评判家深度神经网络以及目标评判家深度神经网络进行集中训练,具体实现过程为:
所述评判家深度神经网络以及目标评判家深度神经网络的输入为全局状态信息与全局动作,输出为在该全局状态信息下采用该全局动作的长期回报值估计;当前时刻的评判家深度神经网络权值向量通过最小化损失函数来进行更新;当前时刻的目标评判家深度神经网络权值向量根据上一时刻的评判家深度神经网络权值向量与上一时刻的目标评判家深度神经网络权值向量进行更新;
所述演员深度神经网络、目标演员深度神经网络的输入为对应基站的无线发射机与无线接收机观测到的本地无线环境状态信息,输出为对应基站的无线发射机的发射功率;
当前时刻的演员深度神经网络权值通过最大化平均长期全局回报值进行更新;当前时刻的目标演员深度神经网络权值向量根据上一时刻的演员深度神经网络权值向量与上一时刻目标演员深度神经网络权值向量进行更新。
4.根据权利要求3所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,所述本地经验为基站的无线发射机与无线接收机观测到的本地无线环境状态信息。
5.根据权利要求4所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,所述辅助信息为用户接收到的来自每个非本地发射机的干扰。
6.根据权利要求5所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,所述演员深度神经网络与目标演员深度神经网络与对应的本地深度神经网络结构相同。
7.根据权利要求6所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,所述评判家深度神经网络以及目标评判家深度神经网络网络结构相同。
8.根据权利要求7所述的一种用于无线干扰信道中的非协作多智能体功率控制方法,其特征在于,所述演员深度神经网络权值向量根据最大化平均长期回报值进行更新。
CN202010289045.0A 2020-04-14 2020-04-14 一种用于无线干扰信道中的非协作多智能体功率控制方法 Active CN111526592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010289045.0A CN111526592B (zh) 2020-04-14 2020-04-14 一种用于无线干扰信道中的非协作多智能体功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010289045.0A CN111526592B (zh) 2020-04-14 2020-04-14 一种用于无线干扰信道中的非协作多智能体功率控制方法

Publications (2)

Publication Number Publication Date
CN111526592A CN111526592A (zh) 2020-08-11
CN111526592B true CN111526592B (zh) 2022-04-08

Family

ID=71902186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010289045.0A Active CN111526592B (zh) 2020-04-14 2020-04-14 一种用于无线干扰信道中的非协作多智能体功率控制方法

Country Status (1)

Country Link
CN (1) CN111526592B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114314B (zh) * 2021-04-15 2022-03-11 东南大学 融合混类增强与自编码器的大规模mimo性能提升方法
CN113191487B (zh) * 2021-04-28 2023-04-07 重庆邮电大学 基于分布式ppo算法的自适应连续功率控制方法
CN113891289B (zh) * 2021-11-02 2023-05-02 中国联合网络通信集团有限公司 功率调整方法、服务器和终端
CN114205899B (zh) * 2022-01-18 2023-04-07 电子科技大学 一种基于深度强化学习的异构网高能效功率控制方法
CN115811788B (zh) * 2022-11-23 2023-07-18 齐齐哈尔大学 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109639377A (zh) * 2018-12-13 2019-04-16 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110401964A (zh) * 2019-08-06 2019-11-01 北京邮电大学 一种面向用户为中心网络基于深度学习的功率控制方法
CN110430150A (zh) * 2019-08-09 2019-11-08 电子科技大学 一种基于神经网络的蜂窝移动通信系统接收机设计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9497785B2 (en) * 2014-06-02 2016-11-15 Intel Corporation Techniques for exchanging beamforming information for a dual connection to user equipment
US10334456B2 (en) * 2017-07-06 2019-06-25 Futurewei Technologies, Inc. Optimizing cellular networks using deep learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109639377A (zh) * 2018-12-13 2019-04-16 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110401964A (zh) * 2019-08-06 2019-11-01 北京邮电大学 一种面向用户为中心网络基于深度学习的功率控制方法
CN110430150A (zh) * 2019-08-09 2019-11-08 电子科技大学 一种基于神经网络的蜂窝移动通信系统接收机设计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"No-reference Stereoscopic Image Quality Assessment Using Binocular Self-similarity and Deep Neural Network";Yaqi Lv、Mei Yu;《Signal Processing: Image Communication》;20160930;第47卷;全文 *
"超密集网络高能效资源管理算法研究";黎伟;《中国博士学位论文全文数据库 (信息科技辑)》;20200115(第01期);全文 *
"面向下一代无线通信网络的干扰管理技术研究";秦彩;《中国博士学位论文全文数据库 (信息科技辑)》;20190815(第08期);全文 *
R3-190835 "Status Quo and way forward for UE RRM policy handling";Ericsson;《3GPP tsg_ran\wg3_iu》;20190215;全文 *

Also Published As

Publication number Publication date
CN111526592A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN109743210B (zh) 基于深度强化学习的无人机网络多用户接入控制方法
Zhao et al. Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) assisted UAV communications
Chen et al. Echo state learning for wireless virtual reality resource allocation in UAV-enabled LTE-U networks
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
Pan et al. Artificial intelligence-based energy efficient communication system for intelligent reflecting surface-driven vanets
Wu et al. 3D aerial base station position planning based on deep Q-network for capacity enhancement
CN113596785A (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN115173922B (zh) 基于cmaddqn网络的多波束卫星通信系统资源分配方法
Xu et al. Joint user scheduling and beam selection in mmWave networks based on multi-agent reinforcement learning
CN113490219B (zh) 一种面向超密集组网的动态资源分配方法
Xia et al. Toward digitalizing the wireless environment: A unified A2G information and energy delivery framework based on binary channel feature map
CN114885340A (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
Moorthy et al. FlyBeam: echo state learning for joint flight and beamforming control in wireless UAV networks
CN115811788B (zh) 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
Fonseca et al. Adaptive height optimization for cellular-connected UAVs: A deep reinforcement learning approach
CN116634450A (zh) 一种基于强化学习的动态空地异构网络用户关联增强方法
CN115765826A (zh) 一种面向按需服务的无人机网络拓扑重构方法
CN114423070A (zh) 一种基于d2d的异构无线网络功率分配方法及系统
CN107872255A (zh) 适用于大规模mimo蜂窝移动通信网络的导频调度方法
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant