CN113261016A - 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对 - Google Patents

使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对 Download PDF

Info

Publication number
CN113261016A
CN113261016A CN201980087345.6A CN201980087345A CN113261016A CN 113261016 A CN113261016 A CN 113261016A CN 201980087345 A CN201980087345 A CN 201980087345A CN 113261016 A CN113261016 A CN 113261016A
Authority
CN
China
Prior art keywords
dqn
network
deep
encoded
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980087345.6A
Other languages
English (en)
Other versions
CN113261016B (zh
Inventor
C·桑卡兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Networks Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Networks Oy filed Critical Nokia Networks Oy
Publication of CN113261016A publication Critical patent/CN113261016A/zh
Application granted granted Critical
Publication of CN113261016B publication Critical patent/CN113261016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0452Multi-user MIMO systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0686Hybrid systems, i.e. switching and simultaneous transmission
    • H04B7/0695Hybrid systems, i.e. switching and simultaneous transmission using beam selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Radio Transmission System (AREA)

Abstract

提供了用于在一组一个或多个用户设备(UE)之间调度无线电资源的系统、方法、装置和计算机程序产品。一种方法可以包括将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值,将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded),为波束组合的序列中的每个波束组合提供唯一指定仓,通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵,以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。

Description

使用基于强化学习的深度Q网络(DQN)的单发多用户多输入多 输出(MU-MIMO)资源配对
技术领域
一些示例实施例总体上可以涉及移动或无线电信系统(诸如长期演进(LTE)或第五代(5G)无线电接入技术或新无线电(NR)接入技术)或其他通信系统。例如,某些实施例可以涉及在这样的通信系统中用于用户设备(UE)的无线电资源的调度。
背景技术
移动或无线电信系统的示例可以包括通用移动电信系统(UMTS)陆地无线电接入网(UTRAN)、长期演进(LTE)演进型UTRAN(E-UTRAN)、高级LTE(LTE-A)、MulteFire、LTE-APro和/或第五代(5G)无线电接入技术或新无线电(NR)接入技术。第五代(5G)无线系统是指下一代(NG)无线电系统和网络架构。5G主要建立在新无线电(NR)上,但是5G(或NG)网络也可以建立在E-UTRA无线电上。据估计,NR将提供10-20G比特/s量级或更高的比特率,并且将至少支持增强型移动宽带(eMBB)和超可靠低延迟通信(URLLC)以及大型机器类型通信(mMTC)。预计NR将提供超宽带和超鲁棒的低时延连接性以及大规模联网以支持物联网(IoT)。随着IoT和机器对机器(M2M)通信的日益普及,对能够满足低功耗、低数据速率和长电池寿命需求的网络的需求将日益增长。注意,在5G中,可以向用户设备提供无线电接入功能的节点(即,类似于E-UTRAN中的节点B或LTE中的eNB)在建立在NR无线电上时可以被称为gNB,而在建立在E-UTRA无线电上时可以被称为NG-eNB。
发明内容
另一实施例涉及一种方法,该方法可以包括:将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);为波束组合的序列中的每个波束组合提供唯一指定仓(bin);通过深度Q网络(DQN)传递包括状态表示的矩阵;以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
另一实施例涉及一种装置,该装置可以包括至少一个处理器和包括计算机程序代码的至少一个存储器。至少一个存储器和计算机程序代码被配置为与至少一个处理器一起引起该装置至少:将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);为波束组合的序列中的每个波束组合提供唯一指定仓;通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵;以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
另一实施例涉及一种装置,该装置可以包括:编码部件,用于将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;添加部件,用于将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);提供部件,用于为波束组合的序列中的每个波束组合提供唯一指定仓;传递部件,用于通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵;以及输出部件,用于通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
另一实施例涉及一种装置,该装置可以包括:被配置用于将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值的电路系统;被配置用于将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)的电路系统;被配置用于为波束组合的序列中的每个波束组合提供唯一指定仓的电路系统;被配置用于通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵的电路系统;以及被配置用于通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)的电路系统。
另一实施例涉及一种计算机可读介质,该计算机可读介质包括存储在其上的程序指令,该程序指令用于至少执行一种方法,该方法包括:将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);为波束组合的序列中的每个波束组合提供唯一指定仓;通过深度Q网络(DQN)传递包括状态表示的矩阵;以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
附图说明
为了适当地理解示例实施例,应当参考附图,在附图中:
图1示出了根据实施例的系统,该系统描绘了形成多个波束以将信号能量聚焦在不同方向上的子小区;
图2示出了根据实施例的方法的示例,该方法使用比例公平(PF)值的矩阵(D)和指定的一组规则来通过在基于强化学习的深度Q网络(DQN)公式中将矩阵条目视为像素值来提供解决方案;
图3示出了根据实施例的给定的从产生一定奖励的状态矩阵中选择动作的示例;
图4示出了根据实施例的将每个状态描绘为图像(即,PF度量作为像素值)的示例矩阵;
图5示出了基于一个示例的描绘编码和解码操作的示例的表;
图6示出了根据某些实施例的方法的示例流程图;以及
图7示出了根据某些实施例的装置的示例框图。
具体实施方式
将容易理解,如本文中的附图中一般性地描述和示出的某些示例实施例的组件可以以多种不同配置来布置和设计。因此,对于用于在一组UE之间调度无线电资源(例如,应用多用户多输入多输出(MU-MIMO))的系统、方法、装置和计算机程序产品的一些示例实施例的以下详细描述并非旨在限制某些实施例的范围,而是代表所选择的示例实施例。
在整个说明书中描述的示例实施例的特征、结构或特性可以在一个或多个示例实施例中以任何合适的方式组合。例如,在整个说明书中,短语“某些实施例”、“一些实施例”或其他类似语言的使用是指以下事实:结合一个实施例而描述的特定特征、结构或特性可以被包括在至少一个实施例中。因此,在整个说明书中短语“在某些实施例中”、“在一些实施例中”、“在其他实施例中”或其他类似语言的出现不一定全都是指同一组实施例,并且在一个或多个示例实施例中,所描述的特征、结构或特性可以以任何合适的方式组合。
另外,如果需要,下面讨论的不同功能或步骤可以以不同的顺序和/或彼此同时执行。此外,如果需要,所描述的功能或步骤中的一个或多个可以是可选的或可以组合。这样,以下描述应当被认为仅是对某些示例实施例的原理和教导的说明,而不是对其的限制。
本文中描述的某些实施例涉及例如以非迭代(单发(one-shot))方式在一组一个或多个争用UE之间调度无线电资源以使整个该组UE中的总吞吐量最大化的主题。一些实施例可以适用于5G以及其他类型的RAN和MU-MIMO。另外,某些实施例可以利用基于强化学习、Q学习和/或卷积神经网络的深度Q学习作为机器学习框架。
在多用户MIMO(MU-MIMO)系统中,具有多个天线的基站(BS)可以与多个用户通信。通常,BS在每个天线处放大和移动传输或接收信号的相位,以改善数据流的信号质量(即,分集合并)或者同时向一个或多个用户发送或接收多个数据流(即,空间复用)。天线处信号的放大、相移和合并可以被认为是对信号施加一组“权重”并且相对于天线取向朝着某个空间方向形成“波束”。每个波束可以增强朝向一些方向的相对接收/传输信号强度,而降低朝向其他方向的相对信号强度。
在5G MU-MIMO中,每个小区具有多个子小区,每个子小区具有其自己的天线阵列,并且每个子小区中可以具有多个UE。如图1的示例所示,子小区使用天线阵列形成多个波束,该多个波束旨在将信号能量聚焦在小区的覆盖区域内的不同方向上。基于其位置,UE可以选择波束之一作为其最佳波束。
小区中的调度器以每个传输时间间隔(TTI)为单位将波束指配(即,配对)给活动UE,并且目的是使总系统吞吐量最大化。基于控制信道或其他限制,可以同时调度的UE数目可能存在限制。
一些先前的方法已经提出了一种迭代解决方案,其中在每次迭代中,进行单个配对,并且然后进入下一阶段以进行下一配对,以此类推,直到最大数目的配对完成(例如,如果需要5个配对,则在得出最终波束指配之前完成5次迭代)。但是,当在实时执行波束选择时可能存在关键时间限制时,这样的迭代方法可能会占用宝贵的处理时间。处理时间与需要选择的波束数目成线性比例,并且这对于时间关键的实时调度需求可能不是理想的。
一种方法使用比例公平(PF)值的矩阵(D)和指定的一组规则(使得能够针对矩阵进行马尔可夫演化)来通过在基于强化学习的深度Q网络(DQN)公式中将矩阵条目视为像素值来提供解决方案。根据该方法,指配以迭代方式进行,在这种方式中,基于为当前迭代而选择的UE波束,矩阵D针对下一迭代而改变。图2中描绘了这种方法的一个示例。
如图3的示例所示,给定当前矩阵(状态St),可以选择小区(动作At),从而得到奖励(Rt+1),它是与小区相对应的PF度量),将其添加到累积回报中。在某些行和/或列中的小区可能无法用于下一状态(St+1)。目的是找到最佳策略(π*),该最佳策略将状态映射到动作以使累积回报
Figure BDA0003140830700000051
最大化,其中0≤γ≤1是折扣参数。
最佳动作-值函数(Q*)定义为:Q*(s,a)=maxπE[Gt/St=s,At=a,π],其中π是将状态映射到动作的策略。换言之,Q*(s,a)是在看到状态s并且采取动作a之后通过遵循任何策略可获取的最大预期回报。Q*使用神经网络作为函数逼近器(具有权重θ)来估计,即,Q*(s,a)≈Q(s,a;θ)。
如图4的示例所示,将每个状态视为图像(即,PF度量作为像素值),则每个状态存在结构/图案。神经网络在针对结构化数据得到良好特征方面非常有效。卷积层在检测图像中的局部图案方面非常出色。例如,多层卷积神经网络(CNN)与Q网络相结合产生深度Q网络(DQN),这是为求解Q*而提出的一种强大框架。目的是让DQN玩游戏足够次数使得基于其在游戏阶段所获取的奖励,能够找到从任何初始状态到最终状态的最佳路径以使累积奖励最大化。一旦DQN被训练,在线解决方案涉及以迭代方式将状态St,St+1,...传递通过经训练的DQN以获取选择。
示例实施例提供了一种方法,该方法实现了单发配对,其中一次执行所有配对和/或选择,从而消除了对迭代的需要(因此,如果需要5个配对,则一次确定其中的所有5个)。
在下文中,从值的矩阵中选择条目的广泛框架被称为选择波束问题。由于存在有限数目的选择或迭代(因为在任何给定TTI中可以指配的波束数目是有限的),一个实施例被配置为枚举波束的所有可能选择组合。然后,一些实施例为单发选择过程提供了至少两种解决方案。一种解决方案是基于回归的方法,另一种解决方案是基于分类的方法,下面将对其进行更详细的讨论。
如上所述,一些实施例可以利用Q学习或深度Q网络(DQN)方法。根据DQN方法,Q函数Q(s,a)给出在状态s下选择动作a的立即奖励r和从下一状态s'向前的最佳奖励之和:
Figure BDA0003140830700000061
其中s'是当动作a被选择时由系统从状态s访问的下一状态。
根据回归方法的一个实施例,每个可能的波束选择或组合的序列(例如,波束到UE的每个可能的配对)可以被编码为唯一数值。根据示例,波束组合的可能序列中的每个波束组合具有相关联的Q值。在该实施例中,在任何阶段的Q值被添加到波束编码数值上,并且在本文讨论的示例中,该组合值可以被称为Qencoded。在实施例中,可以给每个波束的序列赋予唯一指定仓,即,没有其他序列的Qencoded值落入该指定仓中。然后,可以执行在线过程,在该在线过程中,状态表示/输入矩阵通过经训练的DQN被传递,并且结果输出唯一地标识所选择的波束的序列和最大化Q值。换言之,在该实施例中,经训练的DQN的输出可以包括应当被选择的最佳波束序列的Qencoded
根据分类方法的一个实施例,与波束序列相对应的数值可以被转换为二进制代码,并且DQN可以被训练以预测二进制代码(每个阶段的Q值可以从对应的二进制代码中获取)。
如上所述,在回归方法的一个实施例中,可以利用经训练的DQN来输出用于选择的最佳波束。根据某些实施例,可以在训练过程中使用迭代,其中训练使得迭代的每个阶段学习其可以采取的最佳动作以及从下一阶段开始的最佳动作序列。一旦被训练,在在线过程中,第一阶段本身可以预测整个动作的序列(即,St能够预测所有波束选择,而无需通过DQN传递St+1、St+2等)。
根据某些实施例,DQN的训练可以包括令M=波束(或可能动作)的总数并且令n=要被选择的波束(动作)的最大数目。在每次迭代中,动作选择的最大数目=M+1,对应于选择M个未选择波束之一,或者不选择任何其他波束的空动作(动作M)。空动作确保并非总是需要选择n个波束,而是可以选择k≤n个波束。
在一个实施例中,可能动作序列的总数可以由下式给出:
Figure BDA0003140830700000071
其中
Figure BDA0003140830700000072
代表在从M个波束中选择k个波束时的可能组合的数目。每个动作序列(Ak)具有Ak=[a0,a1,...,ak-1](迭代0到k-1)的形式,1≤k≤n,其中ai∈{0,1,...M-1}代表在迭代i中被选择的波束,0≤i≤k-1。动作序列Ak被编码为
Figure BDA0003140830700000081
使得逆
Figure BDA0003140830700000082
得到唯一Ak
根据一些实施例,将序列的总数限制为L需要在重新布置Ak=[a0,a1,...,ak-1]中的动作使得ai<ai+1之后对动作序列进行编码(即,单个组合表示序列中动作的所有排列)。一个实施例可以包括:令
Figure BDA0003140830700000083
(即,>Qmax),并且令β≥1代表被用于增加仓间隔的比例因子,使得
Figure BDA0003140830700000084
为整数,并且
Figure BDA0003140830700000085
在某些实施例中,通过设计,针对序列Ak的代码
Figure BDA0003140830700000086
跨所有可能动作序列Ak(1≤k≤n)是唯一的。因此,针对动作序列Ak的指定仓是
Figure BDA0003140830700000087
Ak的Qencoded值将严格落入该仓中。
根据一些实施例,编码和解码可以如下执行。其中Q(S)代表针对状态S的Q值,其中Q实现动作序列为Ak,Q(S)可以编码为:
Figure BDA0003140830700000088
注意,在本文中描述的示例实施例中,Qencoded捕获从当前迭代直到最终状态(即,动作序列)的所有动作以及Q值。然后,给定Qencoded(S),Q值Q(S)可以解码为:
Figure BDA0003140830700000089
(即,余数运算)。
Figure BDA00031408307000000810
(以及因此动作序列Ak)可以解码为:
Figure BDA00031408307000000811
(整数除法,即,商运算)。
鉴于以上情况,在示例实施例中,用于DQN的Q学习训练/更新是:
Figure BDA00031408307000000812
(注意,只有Q值用于max操作,而不是编码的Q值),其中Snext(a)是在状态S下采取动作a之后的结果状态,Q(Snext(a))和Ak是通过对Qencoded(Snext(a),Ak)进行解码而被获取的。Q(S)编码为:
Figure BDA0003140830700000091
,其中Ak+1=[a0=a*,Ak],其中a*为上述最大实现动作(即,Ak+1是通过在Ak之前添加当前阶段的最佳动作来获取的)。注意,根据本文中描述的示例实施例,动作序列Ak可以表示向(多个)UE的(多个)波束的指配。
根据某些实施例,可以在DQN批量拟合过程中使用Qencoded(S)值(使用适当设计的卷积神经网络CNN)来获取经训练的DQN。因此,每个阶段都能够从其下游阶段提取(解码)Q值和对应动作序列,执行其计算并且计算新的Q值和新的动作序列(通过在所提取的动作序列之前添加其最佳动作)并且将该结果(编码)传递到其上游阶段。
图5示出了一个表,该表基于以下示例描绘了编码和解码操作的示例:令M=7个波束(波束0至6),n=4个选择(迭代I1至I4的动作),β=1,并且
Figure BDA0003140830700000092
(即,每个指定仓的大小)=3(因此,任何Q值都不会大于3)。在该示例中,动作序列的长度可以为1、2、3或4,并且如图所示为每个序列指配有完全可逆代码(为了限制表的大小,仅示出了23个序列)。出于说明目的,将Q值生成为在(0,3)范围内的随机值;并且所得到的编码的Q值(Qencoded)如图所示。还示出了如何从Qencoded值中提取(解码)代码和Q值的示例。注意,图5仅示出了一个示例,并且其他实施例不限于图5所示的示例。例如,其他实施例可以包括不同数目的波束、选择、编码方案和/或仓大小。
根据示例实施例,一旦DQN如上所述被训练并且是时间进行实时预测了,则不需要迭代来计算最佳动作序列(即,最佳波束选择),因为第一阶段将已经学会预测最佳动作序列——单发过程是通过经训练的DQN传递初始状态S以获取Qencoded(S,Ak);解码Qencoded(S,Ak)提供了所选择的动作序列Ak(即,所有波束指配)。
如上所述,回归方法的一个实施例使用实数/连续值的Qencoded值。如上所述,另一实施例可以采用分类方法。根据该实施例,由于Q(S)可以从
Figure BDA0003140830700000101
中计算,因此
Figure BDA0003140830700000102
可以转换为二进制比特流表示,并且训练DQN以仅学习和预测该二进制比特流。由于存在
Figure BDA0003140830700000103
个可能动作序列,因此DQN将需要至少
Figure BDA0003140830700000104
位作为输出来预测动作序列(每个Ak将被编码为唯一B位序列)。在实施例中,可以使用多于B个比特来向该过程添加冗余以提高性能。这种分类方法也可以用于有监督学习设置中,其中期望的动作序列Ak是我们希望神经网络(例如,深度神经网络DNN)学习的某种其他算法的结果。
图6示出了根据一个实施例的用于选择MU-MIMO波束以指配给一个或多个活动UE的方法的示例流程图。在实施例中,图6的方法可以利用DQN来选择用于指配给(多个)UE的波束以使总系统吞吐量最大化。在某些示例实施例中,图6的流程图可以由诸如LTE或5G NR等3GPP通信系统中的网络实体或网络节点执行。例如,在一些示例实施例中,图6的方法可以由LTE、5G或NR系统中的基站、eNB、gNB等执行。
在一个实施例中,图6的方法可以包括:在600处,将MU-MIMO波束组合的每个可能的序列(即,(多个)波束到(多个)UE的每个可能的配对)编码为唯一数值。在610处,将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)。例如,在某些实施例中,波束组合中的每个波束组合可以具有相关联的Q值,并且这是被添加到对波束组合进行编码的唯一数值中的Q值。
根据实施例,该方法可以包括,在620处,为波束组合的序列中的每个波束组合提供唯一指定仓,例如,使得没有其他波束组合的序列将使其经Q编码的值(Qencoded)落入该指定仓内。在某些实施例中,该方法然后可以包括:在630处,通过DQN传递包括输入状态表示的矩阵。根据一个实施例,该方法还可以包括:在640处,通过DQN输出一个或多个最佳波束以指配给一个或多个UE。例如,输出640可以包括输出(多个)所选择的波束的序列的唯一标识符和最大化Q值。换言之,在一个实施例中,DQN可以被配置为针对应当被选择以指配给(多个)UE的(的)最佳波束组合来输出经Q编码的值(Qencoded)。在一个实施例中,该方法还可以包括:在650处,向(多个)UE指配通过深度Q网络(DQN)被输出的(多个)最佳波束。
根据一些实施例,图6的方法还可以包括训练DQN使得所有最佳波束在经训练的DQN的第一阶段被预测。换言之,根据示例,DQN的训练使得训练迭代的每个阶段学习其可以采取的最佳动作以及从下一阶段开始的最佳动作序列。一旦DQN被训练,则在在线过程中,第一阶段本身就可以预测整个动作的序列(即,St能够预测所有波束选择,而无需通过DQN传递St+1、St+2等)。
在一个实施例中,DQN的训练可以包括将表示到(多个)UE的(多个)波束的指配的动作序列Ak编码为代码
Figure BDA0003140830700000111
使得逆
Figure BDA0003140830700000112
得到唯一Ak,其中每个上述动作序列Ak具有Ak=[a0,a1,...,ak-1]的形式,1≤k≤n,并且ai∈{0,1,...,M-1}代表在迭代i中选择的波束,0≤i≤k-1。然后,根据实施例,可能动作序列的总数由下式给出:
Figure BDA0003140830700000113
其中
Figure BDA0003140830700000114
代表在从M个波束中选择k个波束时可能组合的数目,并且其中M表示波束的总数,以及n表示要被选择的波束的最大数目。根据某些实施例,将序列的总数限制为L可以包括在重新布置Ak=[a0,a1,...,ak-1]中的动作使得ai<ai+1之后对动作序列进行编码。
在一些实施例中,针对波束组合的每个序列的指定仓的大小可以由下式给出:
Figure BDA0003140830700000115
其中
Figure BDA0003140830700000116
表示在任何迭代处遇到的Q值的上界,并且β≥1代表用于增加仓间隔的比例因子,使得
Figure BDA0003140830700000117
为整数。此外,在实施例中,针对动作序列Ak的代码
Figure BDA0003140830700000118
跨所有可能动作序列Ak是唯一的,并且针对动作序列Ak的指定仓由
Figure BDA0003140830700000119
给出。
根据某些实施例,编码600可以包括将Q(S)编码为
Figure BDA0003140830700000121
其中Q(S)代表针对状态S的Q值,其中Q实现动作序列为Ak。然后,给定Qencoded,该方法还可以包括如下解码Q值Q(S):
Figure BDA0003140830700000122
(即,余数运算),并且如下解码
Figure BDA0003140830700000123
Figure BDA0003140830700000124
(整数除法,即,商运算)。
在一个实施例中,DQN的训练还可以包括计算
Figure BDA0003140830700000125
其中Snext(a)是在状态S下采取动作a之后的结果状态,Q(Snext(a))和Ak是通过对Qencoded(Snext(a),Ak)进行解码而被获取的,将Q(S)编编码为:
Figure BDA0003140830700000126
,其中Ak+1=[a0=a*,Ak],其中a*为最大实现动作,并且在DQN批量拟合过程中使用Qencoded(S)值来获取经训练的DQN。结果,经训练的DQN的每个阶段都能够从其下游阶段提取(解码)Q值和对应动作序列,执行其计算并且计算新的Q值和新的动作序列(通过在所提取的动作序列之前添加其最佳动作)并且将该结果(编码)传递到其上游阶段。
根据另一实施例,DQN的训练可以包括将
Figure BDA0003140830700000127
转换为二进制比特流表示,并且训练DQN以学习和预测该二进制比特流。
图7示出了根据一个示例实施例的装置10的示例。在一个示例实施例中,装置10可以是通信网络中或服务于这样的网络的节点、主机或服务器。例如,装置10可以是与无线电接入网(诸如LTE网络、5G或NR、或可以受益于等效过程其他无线电系统)相关联的基站、节点B、演进型节点B(eNB)、5G节点B或接入点、下一代节点B(NG-NB或gNB)、WLAN接入点、移动性管理实体(MME)和/或订阅服务器。
应当理解,在一些示例实施例中,装置10可以包括作为分布式计算系统的边缘云服务器,在这种分布式计算系统中,服务器和无线电节点可以是经由无线电路径或经由有线连接而彼此通信的独立装置,或者它们可以位于同一实体中并且经由有线连接进行通信。例如,在装置10表示gNB的某些示例实施例中,它可以被配置为划分gNB功能的中央单元(CU)和分布式单元(DU)架构。在这样的架构中,CU可以是包括gNB功能(诸如用户数据的传输、移动性控制、无线电接入网共享、定位和/或会话管理等)的逻辑节点。CU可以在前传接口上控制DU的操作。根据功能划分选项,DU可以是包括gNB功能子集的逻辑节点。应当注意,本领域普通技术人员将理解,装置10可以包括图7中未示出的组件或特征。
如图7的示例中所示,装置10可以包括用于处理信息并且执行指令或操作的处理器12。处理器12可以是任何类型的通用或专用处理器。实际上,例如,处理器12可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和基于多核处理器架构的处理器中的一种或多种。虽然在图7中示出了单个处理器12,但是根据其他示例实施例,可以利用多个处理器。例如,应当理解,在某些示例实施例中,装置10可以包括可以形成可以支持多处理的多处理器系统的两个或更多处理器(例如,在这种情况下,处理器12可以表示多处理器)。在某些示例实施例中,多处理器系统可以紧密耦合或松散耦合(例如,以形成计算机集群)。
处理器12可以执行与装置10的操作相关联的功能,包括例如天线增益/相位参数的预编码,形成通信消息的各个比特的编码和解码,信息的格式化,以及对装置10的整体控制,包括与通信资源的管理相关的过程。
装置10还可以包括或耦合到用于存储可以由处理器12执行的信息和指令的至少一个存储器14(内部或外部),存储器14可以耦合到处理器12。存储器14可以是一个或多个存储器并且是适合于本地应用环境的任何类型,并且可以使用任何合适的易失性或非易失性数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器、和/或可移动存储器。例如,存储器14可以包括随机存取存储器(RAM)54、只读存储器(ROM)44、非易失性存储器、诸如磁盘或光盘等静态存储器、硬盘驱动器(HDD)、或任何其他类型的非瞬态机器或计算机可读介质的任何组合。例如,在一个实施例中,装置10可以包括非易失性介质64。在一个实施例中,非易失性介质64可以是可移动介质。存储器14和/或介质64可以存储软件、计算机程序代码或指令。存储在存储器14或介质64中的指令可以包括在由处理器12执行时使得装置10能够执行本文中描述的任务的程序指令或计算机程序代码。
在一个示例实施例中,装置10还可以包括或耦合到(内部或外部)驱动器或端口,该驱动器或端口被配置为接受和读取外部计算机可读存储介质,诸如光盘、USB驱动器、闪存驱动器或任何其他存储介质。例如,外部计算机可读存储介质可以存储用于由处理器12和/或装置10执行的计算机程序或软件。
在一些示例实施例中,装置10还可以包括或耦合到一个或多个天线15以向装置10传输信号和/或数据以及从装置10接收信号和/或数据。装置10还可以包括或耦合到被配置为传输和接收信息的收发器18。收发器18可以包括例如可以耦合到(多个)天线15的多个无线电接口。无线电接口可以对应于多种无线电接入技术,包括以下中的一种或多种:GSM、NB-IoT、LTE、5G、WLAN、BT-LE、射频标识符(RFID)、超宽带(UWB)、MulteFire等。无线电接口可以包括诸如滤波器、转换器(例如,数模转换器等)、映射器、快速傅立叶变换(FFT)模块等组件,以生成用于经由一个或多个下行链路进行传输的符号并且接收符号(例如,经由上行链路)。收发器18可以包括用于下和/或上变频RF信号的一个或多个RF链,例如包括双工器、前端RF放大器、混频器、滤波器、压控振荡器等,上述各项中的部分或全部的激活可以根据示例实施例被激活。
这样,收发器18可以被配置为将信息调制到载波波形上以供(多个)天线15传输,并且解调经由(多个)天线15接收的信息以供装置10的其他元件进一步处理。在其他示例实施例中,收发器18可以能够直接传输和接收信号或数据。另外地或替代地,在一些示例实施例中,装置10可以包括输入和/或输出设备(I/O设备)。
在一个示例实施例中,存储器14可以存储在由处理器12执行时提供功能的软件模块。例如,这些模块可以包括为装置10提供操作系统功能的操作系统。存储器还可以存储用于为装置10提供附加功能的一个或多个功能模块,诸如应用或程序。装置10的组件可以以硬件或硬件和软件的任何合适的组合来实现。
根据一些示例实施例,处理器12和存储器14可以被包括在处理电路系统或控制电路系统中,或者可以形成处理电路系统或控制电路系统的一部分。另外,在一些示例实施例中,收发器18可以被包括在收发电路系统中,或者可以形成收发器电路系统的一部分。
如本文中使用的,术语“电路系统”可以是指仅硬件电路系统实现(例如,模拟和/或数字电路系统)、硬件电路和软件的组合、模拟和/或数字硬件电路与软件/固件的组合、一起工作以将装置(例如,装置10)配置为执行各种功能的具有软件的(多个)硬件处理器(包括数字信号处理器)的任何部分、和/或(多个)硬件电路和/或(多个)处理器、或其部分,其使用软件进行操作,但是在操作不需要软件时该软件可以不存在。作为另外的示例,如本文中使用的,术语“电路系统”还可以涵盖仅硬件电路或处理器(或多个处理器)、或硬件电路或处理器的一部分、及其随附的软件和/或固件的实现。术语电路系统还可以涵盖例如服务器、蜂窝网络节点或设备、或其他计算或网络设备中的基带集成电路。
如上所述,在示例实施例中,装置10可以是网络节点或RAN节点,诸如基站、接入点、节点B、eNB、gNB、WLAN接入点等。根据示例实施例,装置10可以由存储器14和处理器12控制以执行与本文中描述的任何示例实施例相关联的功能,诸如图6所示的流程图。另外,在某些实施例中,装置10可以包括或实现图1所示的系统。例如,在示例实施例中,装置10可以被配置为执行用于选择MU-MIMO波束以指配给一个或多个UE(例如,使用DQN来使总系统吞吐量最大化)的过程。
例如,在一些示例实施例中,装置10可以由存储器14和处理器12控制以将MU-MIMO波束组合的每个可能序列(即,(多个)波束到(多个)UE的每个可能的配对)编码为唯一数值,并且将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)。例如,在某些实施例中,波束组合中的每个波束组合可以具有相关联的Q值,该Q值被添加到对波束组合进行编码的唯一数值中。
根据实施例,装置10可以由存储器14和处理器12控制以为波束组合的序列中的每个波束组合提供唯一指定仓。结果是,波束组合的每个序列将使其经Q编码的值落入唯一仓内,并且没有其他波束组合的序列将使其经Q编码的值落入该指定仓内。在某些实施例中,装置10可以由存储器14和处理器12控制以通过DQN传递包括针对波束组合中的每个波束的状态表示的矩阵,该DQN已经被训练为输出(多个)波束的最佳选择。根据一个实施例,装置10可以由存储器14和处理器12控制以通过DQN输出一个或多个最佳波束以指配给一个或多个UE。例如,DQN可以被配置为输出(多个)所选择的波束的序列的唯一标识符和最大化Q值。换言之,在一个实施例中,DQN可以被配置为针对应当被选择以指配给(多个)UE的(多个)最佳波束组合来输出经Q编码的值(Qencoded)。在实施例中,装置10然后可以由存储器14和处理器12控制以向(多个)UE指配通过DQN输出的(多个)最佳波束。
根据一些实施例,装置10可以由存储器14和处理器12控制以训练DQN使得所有最佳波束在经训练的DQN的第一阶段被预测。例如,DQN的训练可以使得训练迭代的每个阶段学习其可以采取的最佳动作以及从下一阶段开始的最佳动作序列。因此,一旦DQN被训练,则在在线过程中,仅第一阶段就可以预测整个动作的序列(即,St能够预测所有波束选择,因此无需通过DQN传递St+1、St+2等)。
在实施例中,装置10可以由存储器14和处理器12控制以通过以下方式来训练DQN:将表示到(多个)UE的(多个)波束的指配的动作序列Ak编码为代码
Figure BDA0003140830700000171
使得逆
Figure BDA0003140830700000172
得到唯一Ak,其中每个上述动作序列Ak具有Ak=[a0,a1,...,ak-1]的形式,1≤k≤n,并且ai∈{0,1,...M-1}代表在迭代i中选择的波束,0≤i≤k-1。然后,根据实施例,可能动作序列的总数由下式给出:
Figure BDA0003140830700000173
其中
Figure BDA0003140830700000174
代表在从M个波束中选择k个波束时可能组合的数目,并且其中M表示波束的总数,以及n表示要被选择的波束的最大数目。根据某些实施例,将序列的总数限制为L可以包括在重新布置Ak=[a0,a1,...,ak-1]中的动作使得ai<ai+1之后对动作序列进行编码。
在一些实施例中,针对波束组合的每个序列的指定仓的大小可以由下式给出:
Figure BDA0003140830700000175
其中
Figure BDA0003140830700000176
表示在任何迭代处遇到的Q值的上界,并且β≥1代表被用于增加仓间隔的比例因子,使得
Figure BDA0003140830700000177
为整数。此外,在实施例中,针对动作序列Ak的代码
Figure BDA0003140830700000178
跨所有可能动作序列Ak是唯一的,并且针对动作序列Ak的指定仓由
Figure BDA0003140830700000179
给出。
根据某些实施例,装置10可以由存储器14和处理器12控制以将Q(S)编码为
Figure BDA00031408307000001710
其中Q(S)代表针对状态S的Q值,其中Q实现动作序列为Ak。然后,给定Qencoded,装置10可以由存储器14和处理器12控制以如下解码Q值Q(S):
Figure BDA00031408307000001711
并且如下解码
Figure BDA00031408307000001712
Figure BDA00031408307000001713
(整数除法,即,商运算)。
在一个实施例中,装置10还可以由存储器14和处理器12控制以通过计算
Figure BDA0003140830700000181
来训练DQN,其中Snext(a)是在状态S下采取动作a之后的结果状态,Q(Snext(a))和Ak是通过对Qencoded(Snext(a),Ak)进行解码而被获取的,将Q(S)编编码为:
Figure BDA0003140830700000182
其中Ak+1=[a0=a*,Ak],其中a*为最大实现动作,并且在DQN批量拟合过程中使用Qencoded(S)值来获取经训练的DQN。结果是,经训练的DQN的每个阶段都能够从其下游阶段提取(解码)Q值和对应动作序列,执行其计算并且计算新的Q值和新的动作序列(通过在所提取的动作序列之前添加其最佳动作)并且将该结果(编码)传递到其上游阶段。
根据另一实施例,装置10可以由存储器14和处理器12控制以将
Figure BDA0003140830700000183
转换为二进制比特流表示并且训练DQN以学习和预测该二进制比特流。
因此,某些示例实施例提供了若干技术改进、增强和/或优点。例如,某些实施例提供了快速有效地计算MU-MIMO波束选择和用户配对的方法,该方法可以优于传统的启发式和组合搜索方案。实际上,当将本文中描述的示例实施例的性能与流行的迭代贪婪方法进行比较时,示例实施例优于这些迭代方法,并且因此释放了可以被用于通信系统中的其他关键任务的处理时间。这样,示例实施例可以提高网络和网络节点(包括例如接入点、基站/eNB/gNB和移动设备或UE)的性能、时延和/或吞吐量。因此,某些示例实施例的使用改善了通信网络及其节点的功能。
在一些示例实施例中,本文中描述的任何方法、过程、信令图、算法或流程图的功能可以通过存储在存储器或其他计算机可读或有形介质中并且由处理器执行的软件和/或计算机程序代码或部分代码来实现。
在一些示例实施例中,一种装置可以包括或与至少一个软件应用、模块、单元或实体相关联,该软件应用、模块、单元或实体被配置为由至少一个操作处理器执行的算术运算或其程序或部分(包括添加或更新的软件例程)。程序(也称为程序产品或计算机程序,包括软件例程、小程序和宏)可以存储在任何装置可读数据存储介质中,并且包括用于执行特定任务的程序指令。
计算机程序产品可以包括一个或多个计算机可执行组件,当程序运行时,该计算机可执行组件被配置为执行一些示例实施例。一个或多个计算机可执行组件可以是至少一个软件代码或其部分。实现示例实施例的功能所需要的修改和配置可以作为例程来执行,例程可以作为添加或更新的软件例程来实现。软件例程可以下载到装置中。
作为示例,软件或计算机程序代码或其部分可以是源代码形式、目标代码形式或某种中间形式,并且可以存储在某种载体、分发介质或计算机可读介质中,这些载体或介质可以是能够承载程序的任何实体或设备。这样的载体可以包括例如记录介质、计算机存储器、只读存储器、光电和/或电载体信号、电信信号和软件分发包。根据所需要的处理能力,计算机程序可以在单个电子数字计算机中执行,也可以分布在多个计算机之间。计算机可读介质或计算机可读存储介质可以是非瞬态介质。
在其他示例实施例中,该功能可以由装置(例如,装置10)中包括的硬件或电路系统来执行,例如通过使用专用集成电路(ASIC)、可编程门阵列(PGA)、现场可编程门阵列(FPGA)或硬件和软件的任何其他组合。在又一实施例中,该功能可以被实现为信号,即,一种可以由从互联网或其他网络下载的电磁信号来承载的无形手段。
根据一个示例实施例,诸如节点、设备或相应组件等装置可以被配置为电路系统、计算机或微处理器(诸如单芯片计算机元件)或芯片组,至少包括用于提供用于算术运算的存储容量的存储器和用于执行算术运算的运算处理器。
本领域普通技术人员将容易地理解,与所公开的相比,如上所述的示例实施例可以以不同顺序的步骤和/或使用不同配置的硬件元件来实践。因此,尽管已经基于这些示例性优选实施例描述了一些实施例,但是对于本领域技术人员而言很清楚的是,某些修改、变化和替代构造将是很清楚的,同时仍然在示例实施例的精神和范围内。因此,为了确定示例实施例的界限,应当参考所附权利要求。

Claims (27)

1.一种方法,包括:
将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;
将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);
为波束组合的所述序列中的每个波束组合提供唯一指定仓;
通过深度Q网络(DQN)传递包括状态表示的矩阵;以及
通过所述深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
2.根据权利要求1所述的方法,其中所述输出还包括输出所述一个或多个最佳波束的所述经Q编码的值(Qencoded)。
3.根据权利要求1或2所述的方法,还包括向所述用户设备(UE)指配通过所述深度Q网络(DQN)被输出的所述一个或多个最佳波束。
4.根据权利要求1至3中任一项所述的方法,其中所述深度Q网络(DQN)被训练,使得在经训练的所述深度Q网络(DQN)的第一阶段,所有所述一个或多个最佳波束被预测。
5.根据权利要求1至4中任一项所述的方法,还包括训练所述深度Q网络(DQN),其中所述训练包括:
将动作序列Ak编码为代码
Figure FDA0003140830690000011
使得逆
Figure FDA0003140830690000012
得到唯一Ak,所述Ak表示向所述用户设备(UE)的(多个)波束的指配;
其中每个所述动作序列Ak具有Ak=[a0,a1,...,ak-1]的形式,1≤k≤n,并且ai∈{0,1,...M-1}代表在迭代i中选择的所述波束,0≤i≤k-1;
其中可能动作序列的总数由下式给出:
Figure FDA0003140830690000013
其中
Figure FDA0003140830690000014
代表在从M个波束中选择k个波束时的可能组合的数目;并且
其中M表示波束的总数,并且n表示要被选择的波束的最大数目。
6.根据权利要求5所述的方法,其中将序列的所述总数限制为L包括:在重新布置Ak=[a0,a1,...,ak-1]中的所述动作使得ai<ai+1之后对动作序列进行编码。
7.根据权利要求1至6中任一项所述的方法,其中针对波束组合的每个序列的所述指定仓的大小由下式给出:
Figure FDA0003140830690000021
其中
Figure FDA0003140830690000022
表示在任何迭代处遇到的所述Q值的上界,并且β≥1代表用于增加仓间隔的比例因子,使得
Figure FDA0003140830690000023
为整数。
8.根据权利要求5至7中任一项所述的方法,其中针对动作序列Ak的所述代码
Figure FDA0003140830690000024
跨所有可能动作序列Ak是唯一的,并且针对动作序列Ak的所述指定仓由
Figure FDA0003140830690000025
给出。
9.根据权利要求7或8中任一项所述的方法,还包括将Q(S)编码为
Figure FDA0003140830690000026
其中Q(S)代表针对状态S的所述Q值,其中Q实现动作序列为Ak
10.根据权利要求9所述的方法,给定Qencoded,所述方法还包括:
如下解码所述Q值Q(S):
Figure FDA0003140830690000027
以及
如下解码
Figure FDA00031408306900000210
Figure FDA0003140830690000028
11.根据权利要求5至10中任一项所述的方法,其中所述深度Q网络(DQN)的所述训练还包括:
计算
Figure FDA0003140830690000029
其中Snext(a)是在状态S下采取动作a之后的结果状态,Q(Snext(a))和Ak是通过对Qencoded(Snext(a),Ak)进行解码而被获取的;
将Q(S)编码为:
Figure FDA0003140830690000031
其中Ak+1=[a0=a*,Ak],其中a*为最大实现动作;以及
在所述深度Q网络(DQN)批量拟合过程中使用Qencoded(S)值(称为回归方法)来获取经训练的深度Q网络(DQN)。
12.根据权利要求5至10中任一项所述的方法,其中所述深度Q网络(DQN)的所述训练替代地包括(称为分类方法):
Figure FDA0003140830690000032
转换为二进制比特流表示并且训练所述深度Q网络(DQN)以学习和预测所述二进制比特流。
13.一种装置,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器,
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少:
将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;
将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);
为波束组合的所述序列中的每个波束组合提供唯一指定仓;
通过深度Q网络(DQN)传递矩阵,所述矩阵包括针对所述波束组合中的每个波束组合的状态表示;以及
通过所述深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
14.根据权利要求13所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少:输出所述一个或多个最佳波束的所述经Q编码的值(Qencoded)。
15.根据权利要求13或14所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少:向所述用户设备(UE)指配通过所述深度Q网络(DQN)输出的所述一个或多个最佳波束。
16.根据权利要求13至15中任一项所述的装置,其中所述深度Q网络(DQN)被训练,使得在经训练的所述深度Q网络(DQN)的第一阶段,所有所述一个或多个最佳波束被预测。
17.根据权利要求13至16中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少:训练所述深度Q网络(DQN),其中所述训练包括:
将动作序列Ak编码为代码
Figure FDA0003140830690000041
使得逆
Figure FDA0003140830690000042
得到唯一Ak,所述Ak表示向所述用户设备(UE)的(多个)波束的指配;
其中每个所述动作序列Ak具有Ak=[a0,a1,...,ak-1]的形式,1≤k≤n,并且ai∈{0,1,...M-1}代表在迭代i中被选择的所述波束,0≤i≤k-1;
其中可能动作序列的总数由下式给出:
Figure FDA0003140830690000043
其中
Figure FDA0003140830690000044
代表在从M个波束中选择k个波束时的可能组合的数目;并且
其中M表示波束的总数,并且n表示要被选择的波束的最大数目。
18.根据权利要求17所述的装置,其中将序列的所述总数限制为L包括:在重新布置Ak=[a0,a1,...,ak-1]中的所述动作使得ai<ai+1之后对动作序列进行编码。
19.根据权利要求13至18中任一项所述的装置,其中针对波束组合的每个序列的所述指定仓的大小由下式给出:
Figure FDA0003140830690000045
其中
Figure FDA0003140830690000046
表示在任何迭代处遇到的所述Q值的上界,并且β≥1代表用于增加仓间隔的比例因子,使得
Figure FDA0003140830690000047
为整数。
20.根据权利要求17至19中任一项所述的装置,其中针对动作序列Ak的所述代码
Figure FDA0003140830690000048
跨所有可能动作序列Ak是唯一的,并且针对动作序列Ak的所述指定仓由
Figure FDA0003140830690000051
给出。
21.根据权利要求19或20中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少:
将Q(S)编码为
Figure FDA0003140830690000052
其中Q(S)代表针对状态S的所述Q值,其中Q实现动作序列为Ak
22.根据权利要求21所述的装置,其中给定Qencoded,所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少:
如下解码所述Q值Q(S):
Figure FDA0003140830690000053
以及
如下解码
Figure FDA0003140830690000058
Figure FDA0003140830690000054
23.根据权利要求17至22中任一项所述的装置,其中所述深度Q网络(DQN)的所述训练还包括:
计算
Figure FDA0003140830690000055
其中Snext(a)是在状态S下采取动作a之后的结果状态,Q(Snext(a))和Ak是通过对Qencoded(Snext(a),Ak)进行解码而被获取的;
将Q(S)编码为:
Figure FDA0003140830690000056
其中Ak+1=[a0=a*,Ak],其中a*为最大实现动作;以及
在所述深度Q网络(DQN)批量拟合过程中使用Qencoded(S)值来获取经训练的深度Q网络(DQN)。
24.根据权利要求17至222中任一项所述的装置,其中所述深度Q网络(DQN)的所述训练还包括:
Figure FDA0003140830690000057
转换为二进制比特流表示并且训练所述深度Q网络(DQN)以学习和预测所述二进制比特流。
25.一种装置,包括:
编码部件,用于将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值;
添加部件,用于将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded);
提供部件,用于为波束组合的所述序列中的每个波束组合提供唯一指定仓;
传递部件,用于通过深度Q网络(DQN)传递矩阵,所述矩阵包括针对所述波束组合中的每个波束组合的状态表示;以及
输出部件,用于通过所述深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。
26.一种装置,包括:
被配置用于将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值的电路系统;
被配置用于将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)的电路系统;
被配置用于为波束组合的所述序列中的每个波束组合提供唯一指定仓的电路系统;
被配置用于通过深度Q网络(DQN)传递矩阵的电路系统,所述矩阵包括针对所述波束组合中的每个波束组合的状态表示;以及
被配置用于通过所述深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)的电路系统。
27.一种计算机可读介质,包括存储在其上的程序指令,所述程序指令用于至少执行根据权利要求1至12中任一项所述的方法。
CN201980087345.6A 2018-11-05 2019-11-05 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对 Active CN113261016B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20185937 2018-11-05
FI20185937 2018-11-05
PCT/EP2019/080217 WO2020094630A1 (en) 2018-11-05 2019-11-05 One shot multi-user multiple-input multiple-output (mu-mimo) resource pairing using reinforcement learning based deep q network (dqn)

Publications (2)

Publication Number Publication Date
CN113261016A true CN113261016A (zh) 2021-08-13
CN113261016B CN113261016B (zh) 2024-08-23

Family

ID=68470515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980087345.6A Active CN113261016B (zh) 2018-11-05 2019-11-05 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对

Country Status (4)

Country Link
US (1) US12040856B2 (zh)
EP (1) EP3877914A1 (zh)
CN (1) CN113261016B (zh)
WO (1) WO2020094630A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904704A (zh) * 2021-09-27 2022-01-07 西安邮电大学 一种基于多智能体深度强化学习的波束预测方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113068146B (zh) * 2021-03-22 2021-11-02 天津大学 一种密集型毫米波车辆网络中的多基站波束联合选择方法
CN113285740B (zh) * 2021-05-20 2023-02-14 东南大学 一种基于强化学习的波束训练方法
CN114340017B (zh) * 2022-03-17 2022-06-07 山东科技大学 一种具有eMBB和URLLC混合服务的异构网络资源切片方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101558619A (zh) * 2006-10-26 2009-10-14 高通股份有限公司 多址无线通信系统中的码书交换方法和装置
US20100020891A1 (en) * 2008-07-23 2010-01-28 Sony Corporation Wireless communication system, wireless communication apparatus and wireless communication method, encoding apparatus and encoding method, and computer program
WO2011140262A1 (en) * 2010-05-04 2011-11-10 Qualcomm Incorporated Method and apparatus for optimizing power distribution between symbols
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8750400B2 (en) 2010-01-04 2014-06-10 Broadcom Corporation Method and system for an iterative multiple user multiple input multiple output (MU-MIMO) communication system
US9144076B2 (en) 2011-09-18 2015-09-22 Nec Laboratories America, Inc. User pairing and resource allocation for downlink multiuser multi-input-multi-output in long term evolution advanced systems
DE112018003399T5 (de) * 2017-07-01 2020-03-12 Intel Corporation Verfahren und vorrichtungen für fahrzeugfunkkommunikationen
US10375585B2 (en) * 2017-07-06 2019-08-06 Futurwei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN112204580B (zh) 2018-03-27 2024-04-12 诺基亚通信公司 使用深度q网络促进资源配对的方法和装置
US10637544B1 (en) * 2018-04-24 2020-04-28 Genghiscomm Holdings, LLC Distributed radio system
EP3815255A1 (en) 2018-06-28 2021-05-05 Nokia Technologies OY Methods and apparatuses of multi-user multiple-input multiple-output beam selection and user pairing using deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101558619A (zh) * 2006-10-26 2009-10-14 高通股份有限公司 多址无线通信系统中的码书交换方法和装置
US20100020891A1 (en) * 2008-07-23 2010-01-28 Sony Corporation Wireless communication system, wireless communication apparatus and wireless communication method, encoding apparatus and encoding method, and computer program
WO2011140262A1 (en) * 2010-05-04 2011-11-10 Qualcomm Incorporated Method and apparatus for optimizing power distribution between symbols
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A. KLAUTAU, P. BATISTA, N. GONZÁLEZ-PRELCIC, Y. WANG AND R. W. HEATH: "5G MIMO data for machine learning: Application to beam-selection using deep learning", INFORMATION THEORY AND APPLICATIONS WORKSHOP (ITA), pages 1 - 9 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904704A (zh) * 2021-09-27 2022-01-07 西安邮电大学 一种基于多智能体深度强化学习的波束预测方法

Also Published As

Publication number Publication date
WO2020094630A1 (en) 2020-05-14
CN113261016B (zh) 2024-08-23
EP3877914A1 (en) 2021-09-15
US20220045726A1 (en) 2022-02-10
US12040856B2 (en) 2024-07-16

Similar Documents

Publication Publication Date Title
CN112368950B (zh) 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置
CN114390580B (zh) 波束上报方法、波束信息确定方法及相关设备
CN113261016B (zh) 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对
Wang et al. Hybrid precoder and combiner design with low-resolution phase shifters in mmWave MIMO systems
Cheng et al. Computation offloading in cloud-RAN based mobile cloud computing system
US11546040B2 (en) Apparatus and method for designing a grid-of-beams using machine learning
Alevizos et al. Limited feedback channel estimation in massive MIMO with non-uniform directional dictionaries
CN104640222A (zh) 多输入输出系统的导频调度方法及协同设备
Tran et al. Dynamic radio cooperation for downlink cloud-RANs with computing resource sharing
CN113348641A (zh) 用于物理层设计的概率成形
Zhu et al. Joint antenna and user scheduling in the massive MIMO system over time-varying fading channels
CN111630788A (zh) 用于非线性预编码的装置和方法
CN108667501B (zh) 模数混合波束赋形的网络设备、方法和控制器
US9184895B2 (en) Method and apparatus of interference alignment in cellular network
Luong et al. Joint beamforming and remote radio head selection in limited fronthaul C-RAN
JP2023502488A (ja) 大規模多次元無線システムのための無線x2xアクセス及び受信機についての方法
Ha et al. Computation capacity constrained joint transmission design for c-rans
CN105743552B (zh) 一种mimo反馈基站、终端、系统及方法
Gu et al. Graph Neural Network for Distributed Beamforming and Power Control in Massive URLLC Networks
EP3878114A1 (en) Processing of uplink data streams
WO2018138009A1 (en) Methods and apparatuses for transmit weights
CN103188525B (zh) 一种视频传输、接收方法及装置
Hong et al. Multiuser hybrid phase-only analog/digital beamforming with genetic algorithm
CN113508538B (zh) 描绘每路径角度和延迟信息的信道状态信息(csi)反馈增强
CN114513212A (zh) 一种极化编码方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant