CN114173421A - 基于深度强化学习的LoRa逻辑信道及功率分配方法 - Google Patents

基于深度强化学习的LoRa逻辑信道及功率分配方法 Download PDF

Info

Publication number
CN114173421A
CN114173421A CN202111410709.5A CN202111410709A CN114173421A CN 114173421 A CN114173421 A CN 114173421A CN 202111410709 A CN202111410709 A CN 202111410709A CN 114173421 A CN114173421 A CN 114173421A
Authority
CN
China
Prior art keywords
lora
energy efficiency
determining
network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111410709.5A
Other languages
English (en)
Other versions
CN114173421B (zh
Inventor
古博
秦臻
李锦铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111410709.5A priority Critical patent/CN114173421B/zh
Publication of CN114173421A publication Critical patent/CN114173421A/zh
Application granted granted Critical
Publication of CN114173421B publication Critical patent/CN114173421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的LoRa逻辑信道及功率分配方法,该方法包括:首先获取LoRa设备对应的环境信息,然后根据该环境信息,训练获得基于深度强化学习的分配模型;通过环境信息和训练好的分配模型,确定LoRa设备对应的目标分配策略;其中,目标分配策略为LoRa设备对应的扩频因子、信道以及传输功率,则网关将目标分配策略广播到LoRa设备,以使LoRa设备选择对应的目标分配策略进行数据传输。逻辑信道是指特定扩频因子与信道的组合,在本申请实施例中,通过基于深度强化学习的分配模型,为LoRa设备合适的扩频因子、信道以及传输功率,有助于提高LoRa网络的网络性能。本申请可广泛应用于深度强化学习领域。

Description

基于深度强化学习的LoRa逻辑信道及功率分配方法
技术领域
本申请涉及深度强化学习领域,尤其涉及一种基于深度强化学习的LoRa逻辑信道及功率分配方法。
背景技术
低功耗广域网(Low Power Wide Area Network,LPWAN)由于其出色的网络容量和较低的能量消耗,被广泛应用于工业物联网中。作为LPWAN通信技术中的一种,LoRa(LongRange Radio,远距离无线电)因其优秀的传输性能受到广泛关注。在LoRa技术中,通过为不同的LoRa设备分配不同的扩频因子,可以实现信道的复用。LoRa技术通过灵活地选择扩频因子和信道,并为设备分配不同的传输功率,可以增大网络容量,避免网络内冲突的产生以及信道资源的浪费,从而达到提高网络的性能的目的。
但是,现有技术中大多由LoRa设备自主随机选择扩频因子、信道和传输功率,因此可能出现当LoRa设备数量较少,却分配到比较大的扩频因子的情况,这将导致传输速率降低,浪费信道资源;也可能出现当LoRa设备数量较多,将多个LoRa设备分配到同一个信道或者同一扩频因子中的情况,这导致网络中出现冲突,网络性能下降。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种基于深度强化学习的LoRa逻辑信道及功率分配方法。
本申请实施例提供了一种基于深度强化学习的LoRa逻辑信道及功率分配方法,包括:获取LoRa设备对应的环境信息;根据所述环境信息,训练基于深度强化学习的分配模型;根据所述分配模型和所述环境信息,确定所述LoRa设备对应的目标分配策略;将所述目标分配策略广播到所述LoRa设备,以使所述LoRa设备选择对应的所述目标分配策略进行数据传输;其中,所述目标分配策略为所述LoRa设备对应的扩频因子、信道以及传输功率;其中,所述目标分配策略对应LoRa网络的系统能效的最优值,所述LoRa网络包括多个LoRa设备。
可选地,所述方法还包括训练所述分配模型的步骤,具体包括:根据第一网络和当前状态的所述环境信息,确定第一系统能效;根据所述第一系统能效,确定分配策略;根据分配策略,确定环境奖励信号;将训练经验存入经验池,所述训练经验包括当前状态的所述环境信息、所述分配策略、所述环境奖励信号以及下一状态的所述环境信息;当所述经验池的容量大于容量阈值,确定训练经验集;所述训练经验集包括从所述经验池中随机抽取的若干条训练经验;根据第二网络和所述训练经验集,确定第二系统能效和目标能效;根据所述第二系统能效和所述目标能效,对网络参数进行迭代更新;根据所述第二系统能效和所述目标能效,确定损失函数;当所述损失函数收敛,确定当前状态的所述第二系统能效为所述最优值,并确定所述最优值对应的所述目标分配策略;其中,所述第一网络和所述第二网络的结构相同。
可选地,所述网络参数包括第一网络参数和第二网络参数,所述根据所述第二系统能效和所述目标能效,对网络参数进行迭代更新,包括:根据所述第二系统能效和目标能效,更新所述第二网络对应的所述第二网络参数;每隔预设数量的时间步,将所述第一网络对应的所述第一网络参数更新为当前状态的所述第二网络参数。
可选地,所述环境信息包括信道状态信息、所述LoRa设备到网关的距离和所述LoRa设备的CAD结果。
可选地,所述根据所述第一系统能效,确定分配策略,包括:根据-贪婪方案确定最大的所述第一系统能效所对应的所述分配策略。
可选地,所述根据所述第二系统能效和所述目标能效,确定损失函数,包括:根据所述第二系统能效和所述目标能效,通过均方方差来计算损失函数。
可选地,确定所述系统能效的步骤具体如下:根据所述LoRa设备对所述信道的访问情况、所述LoRa设备在所述信道中的所述传输功率、所述LoRa设备在所述信道上的信道增益以及加性高斯白噪声,确定所述LoRa设备的信干噪比;根据所述信干噪比以及信道带宽,确定所述LoRa设备在所述信道上的最大传输功率;根据所述传输功率和所述LoRa设备的固定功耗,确定所述LoRa设备的总功耗;根据所述最大传输功率和所述总功耗,确定单个所述LoRa设备的设备能效;根据多个所述LoRa设备的设备能效,确定所述系统能效。
可选地,确定所述系统能效的步骤还包括:确定所述传输功率小于或等于预设的发射阈值;确定所述访问情况用0或1表示;确定单个所述LoRa设备最多使用一个所述信道;确定分配到同一个所述信道的所述LoRa设备的数量小于或等于预设的设备阈值;确定所述LoRa设备所述信干噪比大于或等于预设的接收阈值。
可选地,所述方法还包括:当所述LoRa设备的所述信干噪比大于或等于预设的接收阈值,确定所述环境奖励信号为所有所述LoRa设备的设备能效之和;当所述LoRa设备的所述信干噪比小于预设的接收阈值,确定所述环境奖励信号为0。
本申请实施例的有益效果如下:首先获取LoRa设备对应的环境信息,然后根据该环境信息,训练获得基于深度强化学习的分配模型;通过环境信息和训练好的分配模型,确定LoRa设备对应的目标分配策略;其中,目标分配策略为LoRa设备对应的扩频因子、信道以及传输功率,则网关将目标分配策略广播到LoRa设备,以使LoRa设备选择对应的目标分配策略进行数据传输。逻辑信道是指特定扩频因子与信道的组合,在本申请实施例中,通过基于深度强化学习的分配模型,为LoRa设备合适的扩频因子、信道以及传输功率,有助于提高LoRa网络的网络性能。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的LoRa网络的示意图;
图2为本申请实施例提供的计算系统能效的步骤流程图;
图3为本申请实施例提供的基于深度强化学习的LoRa逻辑信道及功率分配方法的步骤流程图;
图4为本申请实施例提供的训练所述分配模型的步骤流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
参照图1,图1为本申请实施例提供的LoRa网络的示意图,在图1所示的LoRa网络中包括多个LoRa设备110以及LoRa网关120。相关技术中,每个LoRa设备都随机自主分配到一个扩频因子(spreading factor,SF)和一个信道(channel,CH),并根据该SF和CH进行数据传输。逻辑信道是指特定扩频因子与信道的组合,例如扩频因子7与信道1的组合是一个逻辑信道,扩频因子9与信道3的组合是另一个逻辑信道,LoRa设备需要根据不同的逻辑信道进行数据传输。
如图1所示,LoRa设备1和LoRa设备2使用的信道相同,都是CH=1,但是LoRa设备1和LoRa设备2所使用的SF不同,因此LoRa设备1和LoRa设备2可以共享一个信道,互不干扰。但如图1中的LoRa设备1和LoRa设备3使用了相同的SF和CH,则LoRa设备1和LoRa设备3之间则会产生较强的干扰,这对于LoRa设备的数据传输显然是不利的。
并且,当LoRa设备是自主随机选择SF、CH和P(power,本申请实施例中指传输功率),可能出现当LoRa设备数量较少,却分配到比较大的扩频因子的情况,这将导致传输速率降低,浪费信道资源;另外也可能出现当LoRa设备数量较多,将多个LoRa设备分配到同一个信道或者同一扩频因子中的情况,这导致网络中出现冲突,网络性能下降。
可见,在尽量避免LoRa网络中设备发生冲突的前提下,为多个LoRa设备合理分配合适的SF、CH和P,能够有助于提高LoRa网络的网络性能,减少信道资源的浪费。基于此,本申请实施例提供了一种基于深度强化学习的LoRa逻辑信道及功率分配方法,并在以下内容中展开阐述。
首先,本申请中的“设备”均指LoRa网络中的LoRa设备。在本申请实施例中,将LoRa网络的网络性能建模为系统能效的最大化问题,也就是说,通过限制接入同个信道的设备数目以及设备接收阈值的前提,首先尽量避免LoRa网络的冲突,并保证LoRa设备的通信质量;然后在上述前提下,通过本申请实施例中的基于深度强化学习的分配模型来对SF、CH以及P三者的搭配进行优化,使整个LoRa网络的系统能效尽量最大化,从而达到提高网络性能,节约网络资源的目的。
又由于LoRa网络中往往包括多个LoRa设备,因此整个LoRa网络的系统能效可以看做是多个LoRa设备自身的设备能效之和。下面阐述计算系统能效的步骤。参照图2,图2为本申请实施例提供的计算系统能效的步骤流程图,该方法包括但不限于步骤S200-S240:
S200、根据LoRa设备对信道的访问情况、LoRa设备在信道中的传输功率、LoRa设备在信道上的信道增益以及加性高斯白噪声,确定LoRa设备的信干噪比;
具体地,将信道表示为
Figure BDA0003373663270000041
将设备表示为
Figure BDA0003373663270000042
t用于表示数据传输的时隙,则LoRa设备对信道的访问情况可以用bm,n来表示,bm,n表示设备m对信道n的访问情况,bm,n=1表示设备m分配给信道n,否则bm,n=0。LoRa设备在信道中的传输功率用pm,n表示,pm,n设备m在信道n中的传输功率。假设LoRa网关通过接收来自设备的包含信道状态信息的上行链路消息,可以获得理想的信道状态信息,则在时隙=t中,网关在通道n上接收的信号如下式(1):
Figure BDA0003373663270000043
其中,i表示在信道n上除了m以外的其他设备,hm,n(t)代表t时刻设备m在信道n上的信道增益,zm(t)为加性高斯白噪声(AWGN),服从
Figure BDA0003373663270000051
是对环境噪声的模拟,该噪声的强度是一个均值为0,方差为
Figure BDA0003373663270000052
的随机值。
因此,根据LoRa设备对信道的访问情况、LoRa设备在信道中的传输功率、LoRa设备在信道上的信道增益加性高斯白噪声,可以确定LoRa设备的信干噪比。LoRa网关通过信道n接收的设备m的信干噪比SINRm,n可以表示为下式(2):
Figure BDA0003373663270000053
如上式(2),分母中的第一项表示使用相同CH和SF的其他设备对当前LoRa设备造成的干扰,第二项为模拟环境噪声的AWGN。分母中的第一项中的δm,i表示一个介于0与1之间的系数,代表了当前信道上其他设备对本设备的影响是有一定随机性的。
S210、根据信干噪比以及信道带宽,确定LoRa设备在信道上的最大传输功率;
具体地,基于香农定理,根据信干噪比以及信道带宽,可以确定LoRa设备在信道上的最大传输功率。设备m在信道n上的理论最大传输速率可以表示用Rm,n(t)来表示,Rm,n(t)符合下式(3):
Rm,n(t)=Bmlog2(1+SINRm,n) (3)
其中,Bm表示信道带宽。
S220、根据传输功率和LoRa设备的固定功耗,确定LoRa设备的总功耗;
具体地,LoRa设备的总功耗包括传输功率pm,n(t)所需的实际功率消耗以及LoRa设备因待机等行为所产生的固定的功率消耗,因设置大于1的常数εm,n,用εm,npm,n(t)代表实现传输功率pm,n(t)所需的实际功率消耗;另外,用C表示LoRa设备的固定功耗,用Pm,n表示设备m在信道n上的总功耗,则单个LoRa设备的总功耗Pm,n符合下式(4):
Pm,n=εm,npm,n(t)+C (4)
S230、根据最大传输功率和总功耗,确定单个LoRa设备的设备能效;
具体地,单个LoRa设备的设备能效可以用ηm,n表示,ηm,n满足下式(5):
Figure BDA0003373663270000054
S240、根据多个LoRa设备的设备能效,确定系统能效;
具体地,上述内容中也提到,LoRa网络整体的系统能效为网络内多个LoRa设备的设备能效之和,又因为本申请实施例是从最大化系统能效的方向来提高网络性能,因此系统能效作为建模的目标P1,P1可以表示为下式(5):
P1:
Figure BDA0003373663270000061
如上式(5),P1表示通过优化bm,n(t)(LoRa设备访问的CH)、pm,n(t)(LoRa设备的发射频率)以及K(LoRa设备的SF)的组合方式,使得系统能效P1达到最大化。
可以理解的是,为了避免LoRa设备之间的网络冲突,并且进一步保证LoRa设备的通信质量,需要为P1设定一定的约束条件,本申请实施例中提出5个约束条件C1-C5,分别如下式(6)-式(10):
s.t.C1:0≤pm,n(t)≤pmax, (6)
C2:bm,n(t)∈{0,1}, (7)
C3:
Figure BDA0003373663270000062
C4:
Figure BDA0003373663270000063
C5:
Figure BDA0003373663270000064
其中,C1表示确定设备传输功率小于或等于预设的发射阈值,具体是设备的传输功率要在区间[0,pmax]之内;C2表示确定LoRa设备对信道的访问情况用0或1表示,也就是限制了bm,n(t)的取值为0或1;C3表示确定单个LoRa设备最多使用一个信道;C4表示确定分配到同一个信道的LoRa设备的数量小于或等于预设的设备阈值,具体是分配到同一信道的设备数目不能超过Λmax个;C5表示确定LoRa设备信干噪比大于或等于预设的接收阈值,具体是设备的SINR必须大于一定阈值才能被成功接收。
通过步骤步骤S200-S240,本申请实施例提供了计算LoRa网络系统能效的方法,下面开始阐述通过本申请实施例中的基于深度强化学习的分配模型来对SF、CH和P进行合理分配的方案,该方案能够使系统能效最大化,令LoRa网络的性能提高。
参考图3,图3为本申请实施例提供的基于深度强化学习的LoRa逻辑信道及功率分配方法的步骤流程图,该方法包括但不限于步骤S300-S330:
S300、获取LoRa设备对应的环境信息;
具体地,在本申请实施例中,LoRa设备可以看做一个智能体,在LoRa网络中,LoRa设备可以观测到自身对应的环境信息,并将这些环境信息作为位于网关的基于深度强化学习的分配模型的输入。
在本申请实施例中,LoRa设备对应的环境信息包括信道状态信息、LoRa设备到网关的距离和LoRa设备的CAD结果。信道状态信息包括信道增益,例如:将信道表示为
Figure BDA0003373663270000071
将设备表示为
Figure BDA0003373663270000072
t用于表示数据传输的时隙,如用gm,n(t)表示设备m在信道n上的信道增益,并用
Figure BDA0003373663270000073
表示网关接收到的信道状态信息,则满足下式(11):
Figure BDA0003373663270000074
又例如,用dm(t)表示设备m与网关之间的距离,并用
Figure BDA0003373663270000075
表示LoRa设备到网关的距离,则满足下式(12):
Figure BDA0003373663270000076
又例如,基于LoRa的特性,多个设备可以通过采用7到12范围内的不同SF来访问同一个信道,因此用户可以进行CAD检测,如果设备主动探测的信道被占用,那么CAD就报告成功,反之则报告失败。用K表示SF的取值,也就是K={7,8,…,12},用αm,k(t)来表示设备m使用不同的SF访问不同的CH的CAD结果,并用
Figure BDA0003373663270000077
表示LoRa设备的CAD结果,则满足下式(13):
Figure BDA0003373663270000078
S310、根据环境信息,训练基于深度强化学习的分配模型;
具体地,将步骤S200获得的环境信息,对基于深度强化学习的分配模型进行训练,该分配模型用于根据环境信息,输出LoRa设备的分配策略,该分配策略是指LoRa设备的SF、CH和P的组合方案。本申请实施例利用该分配模型为LoRa网络中的所有LoRa设备分配SF和CH,并决定每个LoRa设备的传输功率P。
在本申请实施例中,基于深度强化学习的分配模型是以DQN(deep Q-network,深度Q网络)算法为基础的,DQN是一种融合了神经网络和Q-learning的深度强化学习算法,深度学习通过代理学习如何通过与环境的持续交互来将状态映射到动作以最大化长期回报,而强化学习则是使用奖励来指导代理商做出更好的决定。
由于本申请实施例使用的分配模型是以DQN为基础,在DQN网络中,有两个结构相同的神经网络,分别称为第一网络和第二网络。第一网络为target Q-网络,对应的第一网络参数为θtarget,主要是用于评估最优动作的Q值;而第二网络为train Q-网络,对应的第二网络参数为θtrain,主要用于选择对应最大Q值的动作。这两组参数将动作选择和策略评估分离,降低了估计Q值过程中的过拟合风险。另外,DQN中还设置了经验池来存储智能体所产生的经验,并从经验池中随机采样得到的经验作为train Q-网络的输入,来对其进行参数更新,这样不仅可以大大减少训练所需要的内存和计算资源,同时降低了数据之间的耦合性。
根据上述DQN网络的基本架构,下面开始阐述本申请实施例中训练基于深度强化学习的分配模型的过程。参照图4,图4为本申请实施例提供的训练分配模型的步骤流程图,该方法包括但不限于步骤S400-S480:
S400、根据第一网络和当前状态的环境信息,确定第一系统能效;
具体地,将当前状态下LoRa设备观测到的环境信息输入target Q-网络(第一网络),上述内容已经提到,环境信息包括信道状态信息、LoRa设备到网关的距离和LoRa设备的CAD结果,将环境信息作为DQN网络中的观测状态si,i表示观测状态的前后顺序,下一状态的观测状态可以用si+1来表示。将环境信息作为DQN网络中的观测状态si输入target Q-网络,则target Q-网络可以根据上述步骤S200-S230来计算执行不同动作ai所所得到的不同Q值,因此该执行动作ai实际上就是执行SF、CH和P的不同组合,也就是本申请实施例中的分配策略;而Q值实际上就是SF、CH和P的不同组合所对应的系统能效,因此将该Q值称为第一系统能效。
也就是说,将当前状态的环境信息输入target Q-网络(第一网络),能够得到不同动作ai所对应的多个第一系统能效。
S410、根据第一系统能效,确定分配策略;
具体地,上述内容中提到,本申请实施例所实现的基于深度强化学习的LoRa逻辑信道及功率分配方法,其目的是将LoRa网络的系统能效最大化。因此在本步骤中,本申请实施例使用∈-贪婪方案来制定动作ai,∈-贪婪方案主要是指其中有1-∈的概率去选择满足当前Q值最大的动作,有∈的概率随机在动作空间内进行选择。因此在本申请实施例中,选择最大的第一系统能效(也就是target Q-网络输出的最大Q值)所对应的动作ai作为当前状态的分配策略。进一步地,动作ai(分配策略)可以用下式(14)-式(16)来表示:
Figure BDA0003373663270000085
Figure BDA0003373663270000086
Figure BDA0003373663270000091
其中
Figure BDA0003373663270000092
表示所有设备的CH分配决策,
Figure BDA0003373663270000093
表示所有设备的SF分配决策,
Figure BDA0003373663270000094
表示所有设备的P选择决策。
S420、根据分配策略,确定环境奖励信号;
具体地,根据步骤S410所确定的分配策略,执行该分配策略,则可以获得对应的环境奖励信号。由于本申请实施例的基于深度强化学习的分配模型是为了在确保满足SF阈值的基础上最大化系统能效,因此可以设置奖励信号rt如下式(17):
Figure BDA0003373663270000095
如式(17)所示,θSF表示预设的接收阈值。式(17)表示当LoRa设备的信干噪比SINRm,n大于或等于预设的接收阈值θSF,确定环境奖励信号rt为所有LoRa设备的设备能效之和
Figure BDA0003373663270000096
否则,当LoRa设备的信干噪比SINRm,n小于预设的接收阈值θSF,确定环境奖励信号为0。
因此,执行完分配策略后,根据LoRa设备的信干噪比SINRm,n确定对应的环境奖励信号。
S430、将训练经验存入经验池,训练经验包括当前状态的环境信息、分配策略、环境奖励信号以及下一状态的环境信息;
具体地,根据上述内容,用si表示当前状态的环境信息,用ai表示分配策略,用ri表示环境奖励信号,用si+1表示下一状态的环境信息,则将(si,ai,ri,si+1)来表示一条训练经验,并将该条训练经验存入经验池。
S440、当经验池的容量大于容量阈值,确定训练经验集;训练经验集包括从经验池中随机抽取的若干条训练经验;
具体地,经过多轮训练计算,经验池中会存储多条训练经验,当经验池的容量大于容量阈值,则从经验池中随机抽取出若干条训练经验作为训练经验集,进行下一步的训练。
需要说明的是,由于训练经验之间具有一定的连续性,所以需要对经验池中的训练经验进行随机抽取,以降低训练经验集中多条训练经验之间的相关性。另外,抽取的训练经验的样本量不宜太大,有助于加快训练速度。
S450、根据第二网络和训练经验集,确定第二系统能效和目标能效;
具体地,根据上述内容,第一网络(target Q-网络)和第二网络(train Q-网络)的结构相同,其中target Q-网络的参数是从train Q-网络中按照一定频率复制而来。因此将训练经验集输入train Q-网络,能够获得的输出是q{s,a|θtrain}a∈A,q{s,a|θtrain}a∈A表示在状态s下,参数为的神经网络输出动作a所获得的期望回报,将该期望回报称为第二系统能效。并根据环境奖励信号和第二系统能效,确定目标能效,用yi表示目标能效,则yi符合下式(18):
yi=r′i+μq(s′i,argmaxq(s′i,a′itrain)|θtarget) (18)
其中,r′i是指从环境得到的回报值,μ是指学习率。
S460、根据第二系统能效和目标能效,对网络参数进行迭代更新;
具体地,本申请实施例中根据第二系统能效和目标能效对网络参数进行迭代更新。具体是基于梯度下降的方法,根据第二系统能效和目标能效对第二网络的第二网络参数θtrain进行迭代更新,更新满足下式(19):
Figure BDA0003373663270000101
另外,每隔预设数量的时间步,将第一网络对应的第一网络参数更新为当前状态的第二网络参数。
S470、根据第二系统能效和目标能效,确定损失函数;
具体地,根据第二系统能效和目标能效,通过均方方差来计算损失函数,用L(θtrain)来表示损失函数,则损失函数符合下式(20):
Figure BDA0003373663270000102
S480、当损失函数收敛,确定当前状态的第二系统能效为最优值,并确定最优值对应的目标分配策略;
具体地,通过不断地迭代更新,直至损失函数收敛,则分配模型训练完成。此时计算得到的第二系统能效则已经在约束条件范围内趋近于最优值,则说明当前最优值所对应的分配策略最合理,LoRa网络中的LoRa设备应用该分配策略对应的SF、CH和P,能够在尽量避免网络冲突和保证LoRa设备通信质量的前提下,令整个LoRa网络的系统能效达到最大值,因此确定最优值对应的当前状态的分配策略为目标分配策略。
通过步骤S400-S480,本申请实施例提供了基于DQN的分配模型的训练过程,该分配过程能够通过与环境进行不断交互来更新训练策略,从而实现计算LoRa网络的最大系统能效的目的。
根据上述步骤S400-S480,步骤S310阐述完毕,下面开始阐述步骤S320。
S320、根据分配模型和环境信息,确定LoRa设备对应的目标分配策略;
具体地,将LoRa设备观测到的环境信息,输入训练好的分配模型中,则分配模型会输出LoRa设备对应的目标分配策略。其中,目标分配策略为LoRa设备对应的扩频因子、信道以及传输功率,也就是LoRa设备对应的SF、CH和P。
S330、将目标分配策略广播到LoRa设备,以使LoRa设备选择对应的目标分配策略进行数据传输;
具体地,网关将分配模型所输出的目标分配策略广播到网络内所有LoRa设备中,令LoRa设备选择自身对应的目标分配策略进行数据传输,从而令LoRa网络的网络性能最大化。
通过步骤S300-S330,本申请实施例提供了一种基于深度强化学习的LoRa逻辑信道及功率分配方法,首先获取LoRa设备对应的环境信息,该环境信息作为基于深度强化学习的分配模型的观测状态,输入到分配模型之中进行训练。基于DQN的分配模型通过第一网络来选择执行的动作(分配策略),并将执行动作后的环境奖励信号和下一状态的环境信息,连同当前状态的环境信息以及分配策略存入经验池。从经验池中随机抽取少量训练经验输入第二网络进行训练,确定分配模型的损失函数,通过梯度下降不断更新第二网络的第二网络参数,并且定期更新第一网络参数;在损失函数收敛后,完成分配模型的训练。由该分配模型对LoRa网络中多个LoRa设备的扩频因子(SF)、信道(CH)以及传输功率(P)进行分配,确定LoRa设备对应的目标分配策略,并由网关将目标分配策略广播到LoRa设备,以使LoRa设备选择对应的目标分配策略进行数据传输。本申请实施例通过基于深度强化学习的分配模型,为LoRa设备合适的扩频因子、信道以及传输功率,有助于实现LoRa网络系统能效的最大化,有助于提高LoRa网络的网络性能。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,包括:
获取LoRa设备对应的环境信息;
根据所述环境信息,训练基于深度强化学习的分配模型;
根据所述分配模型和所述环境信息,确定所述LoRa设备对应的目标分配策略;
将所述目标分配策略广播到所述LoRa设备,以使所述LoRa设备选择对应的所述目标分配策略进行数据传输;
其中,所述目标分配策略为所述LoRa设备对应的扩频因子、信道以及传输功率;
其中,所述目标分配策略对应LoRa网络的系统能效的最优值,所述LoRa网络包括多个LoRa设备。
2.根据权利要求1所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,所述方法还包括训练所述分配模型的步骤,具体包括:
根据第一网络和当前状态的所述环境信息,确定第一系统能效;
根据所述第一系统能效,确定分配策略;
根据分配策略,确定环境奖励信号;
将训练经验存入经验池,所述训练经验包括当前状态的所述环境信息、所述分配策略、所述环境奖励信号以及下一状态的所述环境信息;
当所述经验池的容量大于容量阈值,确定训练经验集;所述训练经验集包括从所述经验池中随机抽取的若干条训练经验;
根据第二网络和所述训练经验集,确定第二系统能效和目标能效;
根据所述第二系统能效和所述目标能效,对网络参数进行迭代更新;
根据所述第二系统能效和所述目标能效,确定损失函数;
当所述损失函数收敛,确定当前状态的所述第二系统能效为所述最优值,并确定所述最优值对应的所述目标分配策略;
其中,所述第一网络和所述第二网络的结构相同。
3.根据权利要求2所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,所述网络参数包括第一网络参数和第二网络参数,所述根据所述第二系统能效和所述目标能效,对网络参数进行迭代更新,包括:
根据所述第二系统能效和目标能效,更新所述第二网络对应的所述第二网络参数;
每隔预设数量的时间步,将所述第一网络对应的所述第一网络参数更新为当前状态的所述第二网络参数。
4.根据权利要求2所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于:
所述环境信息包括信道状态信息、所述LoRa设备到网关的距离和所述LoRa设备的CAD结果。
5.根据权利要求2所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,所述根据所述第一系统能效,确定分配策略,包括:
根据ε-贪婪方案确定最大的所述第一系统能效所对应的所述分配策略。
6.根据权利要求2所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,所述根据所述第二系统能效和所述目标能效,确定损失函数,包括:
根据所述第二系统能效和所述目标能效,通过均方方差来计算损失函数。
7.根据权利要求2所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,确定所述系统能效的步骤具体如下:
根据所述LoRa设备对所述信道的访问情况、所述LoRa设备在所述信道中的所述传输功率、所述LoRa设备在所述信道上的信道增益以及加性高斯白噪声,确定所述LoRa设备的信干噪比;
根据所述信干噪比以及信道带宽,确定所述LoRa设备在所述信道上的最大传输功率;
根据所述传输功率和所述LoRa设备的固定功耗,确定所述LoRa设备的总功耗;
根据所述最大传输功率和所述总功耗,确定单个所述LoRa设备的设备能效;
根据多个所述LoRa设备的设备能效,确定所述系统能效。
8.根据权利要求7所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,确定所述系统能效的步骤还包括:
确定所述传输功率小于或等于预设的发射阈值;
确定所述访问情况用0或1表示;
确定单个所述LoRa设备最多使用一个所述信道;
确定分配到同一个所述信道的所述LoRa设备的数量小于或等于预设的设备阈值;
确定所述LoRa设备所述信干噪比大于或等于预设的接收阈值。
9.根据权利要求7所述的基于深度强化学习的LoRa逻辑信道及功率分配方法,其特征在于,所述方法还包括:
当所述LoRa设备的所述信干噪比大于或等于预设的接收阈值,确定所述环境奖励信号为所有所述LoRa设备的设备能效之和;
当所述LoRa设备的所述信干噪比小于预设的接收阈值,确定所述环境奖励信号为0。
CN202111410709.5A 2021-11-25 2021-11-25 基于深度强化学习的LoRa逻辑信道及功率分配方法 Active CN114173421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111410709.5A CN114173421B (zh) 2021-11-25 2021-11-25 基于深度强化学习的LoRa逻辑信道及功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111410709.5A CN114173421B (zh) 2021-11-25 2021-11-25 基于深度强化学习的LoRa逻辑信道及功率分配方法

Publications (2)

Publication Number Publication Date
CN114173421A true CN114173421A (zh) 2022-03-11
CN114173421B CN114173421B (zh) 2022-11-29

Family

ID=80481036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111410709.5A Active CN114173421B (zh) 2021-11-25 2021-11-25 基于深度强化学习的LoRa逻辑信道及功率分配方法

Country Status (1)

Country Link
CN (1) CN114173421B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622887A (zh) * 2022-12-16 2023-01-17 南方电网数字电网研究院有限公司 基于加权效用函数的LoRa网络参数分配方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109526012A (zh) * 2019-01-24 2019-03-26 重庆邮电大学 一种基于可靠性的LoRaWAN网络扩频因子分配方法
CN110099019A (zh) * 2019-04-24 2019-08-06 西安电子科技大学 基于深度学习的LoRa调制信号检测方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
WO2020108309A1 (zh) * 2018-11-27 2020-06-04 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备
CN111372313A (zh) * 2020-02-14 2020-07-03 西北大学 基于LoRa上行传输系统的高能效资源分配方法
CN111541508A (zh) * 2020-04-21 2020-08-14 中山大学 基于短期DER与最优负载的LoRaWAN扩频因子分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020108309A1 (zh) * 2018-11-27 2020-06-04 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备
CN109526012A (zh) * 2019-01-24 2019-03-26 重庆邮电大学 一种基于可靠性的LoRaWAN网络扩频因子分配方法
CN110099019A (zh) * 2019-04-24 2019-08-06 西安电子科技大学 基于深度学习的LoRa调制信号检测方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN111372313A (zh) * 2020-02-14 2020-07-03 西北大学 基于LoRa上行传输系统的高能效资源分配方法
CN111541508A (zh) * 2020-04-21 2020-08-14 中山大学 基于短期DER与最优负载的LoRaWAN扩频因子分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁娜娜: "基于深度学习的低信噪比LoRa信号识别研究", 《中国优秀硕士论文全文数据库(信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622887A (zh) * 2022-12-16 2023-01-17 南方电网数字电网研究院有限公司 基于加权效用函数的LoRa网络参数分配方法及装置
CN115622887B (zh) * 2022-12-16 2023-06-27 南方电网数字电网研究院有限公司 基于加权效用函数的LoRa网络参数分配方法及装置

Also Published As

Publication number Publication date
CN114173421B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN113692021B (zh) 一种基于亲密度的5g网络切片智能资源分配方法
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
KR20200081630A (ko) 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체
CN105379412A (zh) 一种控制多个无线接入节点的系统和方法
CN113382477B (zh) 应用于无线网络用户间上行干扰建模的方法
Combes et al. Self-organizing relays: Dimensioning, self-optimization, and learning
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
EP2566273A1 (en) Method for dynamically determining sensing time in cognitive radio network
CN114173421B (zh) 基于深度强化学习的LoRa逻辑信道及功率分配方法
CN110461006A (zh) 降低wlan干扰方法、装置及终端设备
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN112312299A (zh) 服务卸载方法、装置及系统
CN103686755A (zh) 一种认知无线电实现最优传输的在线学习方法
US9813922B2 (en) System and method for resource management in heterogeneous wireless networks
JP2022039617A (ja) 時系列予測システム、時系列予測方法及びコンピュータプログラム
CN113157344A (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN115002239B (zh) 数据汇聚方法及系统
Fan et al. Robust dynamic spectrum access in uncertain channels: A fuzzy payoffs game approach
CN108513328B (zh) 一种移动通信设备部分重叠信道稳健共享接入方法及装置
Sun et al. EWA Selection strategy with channel handoff scheme in cognitive radio
CN117873689B (zh) 一种任务分配方法、装置、设备和计算机可读存储介质
CN113630906B (zh) 无线自组织网络中断补偿方法及装置
CN116828542A (zh) 电力负荷终端接入响应方法、系统、管理系统、设备及存储介质
CN117592580A (zh) 能源联邦学习数据选择方法、装置和能源联邦学习系统
WO2020244735A1 (en) Method and apparatus for setting a configurable system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant