CN111385894B - 一种基于在线强化学习的传输模式选择方法及装置 - Google Patents

一种基于在线强化学习的传输模式选择方法及装置 Download PDF

Info

Publication number
CN111385894B
CN111385894B CN202010187389.0A CN202010187389A CN111385894B CN 111385894 B CN111385894 B CN 111385894B CN 202010187389 A CN202010187389 A CN 202010187389A CN 111385894 B CN111385894 B CN 111385894B
Authority
CN
China
Prior art keywords
value
action
strategy
strategy value
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010187389.0A
Other languages
English (en)
Other versions
CN111385894A (zh
Inventor
王瑶
梁云
尹喜阳
郭延凯
岳顺民
田文峰
黄凤
孙晓艳
黄莉
黄辉
李春龙
邓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Global Energy Interconnection Research Institute
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Global Energy Interconnection Research Institute filed Critical State Grid Corp of China SGCC
Priority to CN202010187389.0A priority Critical patent/CN111385894B/zh
Publication of CN111385894A publication Critical patent/CN111385894A/zh
Application granted granted Critical
Publication of CN111385894B publication Critical patent/CN111385894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于在线强化学习的传输模式选择方法及装置,其中,该方法包括:获取窄带物联网系统节点的当前时隙状态信息;根据所述当前状态信息利用探索‑利用策略执行动作;计算当所述窄带物联网系统节点执行完动作后的奖励值;获取所述窄带物联网系统节点的下一时隙状态信息;根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;根据所述新预估策略值和所述第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点可以选择能效最大的传输模式选择方案。

Description

一种基于在线强化学习的传输模式选择方法及装置
技术领域
本发明涉及电力窄带物联网领域,具体涉及一种基于在线强化学习的传输模式选择方法及装置。
背景技术
电力环境下的物联网是一个实现电网基础设施、人员以及所在环境识别、感知、互联与控制的网络系统。考虑到窄带物联网(Narrow Band Internet of Things,NB-IoT)基站边缘的节点可能覆盖不足从而导致中断概率很高,并且难以满足服务需求。为了提高NB-IoT系统在该电力物联网场景中的覆盖能力,从通信技术和资源分配管理方面出发,相关技术中考虑采用正交多址技术(Orthogonal Multipel Access,OMA)和非正交多址接入技术(Non-Orthogonal Multipel Access,NOMA)混合传输机制,同时具有直接传输和中继协作传输两种传输模式。
相关技术中,对传输模式的选择主要使用普通编程算法进行研究,但是由于在NB-IoT网络环境中,网络状态实时变化,普通的动态编程算法无法进行计算,不能对传输模式进行智能选择。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的在NB-IoT网络环境中,网络状态实时变化,普通的动态编程算法无法进行计算的缺陷,从而提供一种基于在线强化学习的传输模式选择方法及装置。
根据第一方面,本发明实施例公开了一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,包括如下步骤:步骤a:获取窄带物联网系统节点的当前时隙状态信息;步骤b:根据所述当前状态信息利用探索-利用策略执行动作;步骤c:计算当所述窄带物联网系统节点执行完动作后的奖励值;步骤d:获取所述窄带物联网系统节点的下一时隙状态信息;步骤e:根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;步骤f:根据所述第一动作策略值更新预估动作策略值,得到新预估策略值;步骤g:根据所述新预估策略值和所述第一动作策略值选择传输模式。
结合第一方面,在第一方面第一实施方式中,所述步骤c包括:
Figure GDA0003895701920000021
其中,r表示奖励值,
Figure GDA0003895701920000022
表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述步骤g包括:比较所述新预估策略值和所述第一动作策略值;当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。
结合第一方面第二实施方式,在第一方面第三实施方式中,当所述新预估策略值小于所述第一动作策略值时,根据所述第一动作策略值选择传输模式。
结合第一方面第三实施方式,在第一方面第四实施方式中,所述方法还包括:根据更新后的Q函数更新所述第一动作策略值,得到第二动作策略值;将所述第二动作策略值和新预估策略值作为新的预设动作策略值和新的预估动作策略值,返回执行所述步骤a-步骤g。
根据第二方面,本发明实施例还公开了一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与基站的信息传输,包括:第一获取模块,用于获取窄带物联网系统节点的当前时隙状态信息;执行模块,用于根据所述当前状态信息利用探索-利用策略执行动作;计算模块,用于计算当所述窄带物联网系统节点执行完动作后的奖励值;第二获取模块,用于获取所述窄带物联网系统节点的下一时隙状态信息;第一更新模块,用于根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;第二更新模块,用于根据所述第一动作策略值更新预估动作策略值,得到新预估策略值;选择模块,用于根据所述新预估策略值和所述第一动作策略值选择传输模式。
结合第二方面,在第二方面第一实施方式中,所述计算模块包括:
Figure GDA0003895701920000031
其中,r表示奖励值,
Figure GDA0003895701920000032
表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。
结合第二方面第一实施方式,在第二方面第二实施方式中,所述选择模块包括:比较模块,用于比较所述新预估策略值和所述第一动作策略值;第一选择子模块,用于当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。
根据第三方面,本发明实施例还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一实施方式所述基于在线强化学习的传输模式选择方法的步骤。
根据第四方面,本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一实施方式所述的基于在线强化学习的传输模式选择方法的步骤。
本发明技术方案,具有如下优点:
本发明提供的基于在线强化学习的传输模式选择方法及装置,通过获取窄带物联网系统节点的当前时隙状态信息,根据所述当前状态信息利用探索-利用策略执行动作,计算当所述窄带物联网系统节点执行完动作后的奖励值,获取所述窄带物联网系统节点的下一时隙状态信息;根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值,根据所述第一动作策略值更新预估动作策略值,得到新预估策略值,根据所述新预估策略值和所述第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中基于窄带物联网系统的上行链路系统模型的一个具体示例图;
图2为本发明实施例1中基于在线强化学习的传输模式选择方法的一个具体示例的流程图;
图3为本发明实施例功率与能效对比的一个具体示例仿真图;
图4为本发明实施例窄带物联网系统节点数量与能效对比的一个具体示例仿真图;
图5为本发明实施例2中基于在线强化学习的传输模式选择装置的一个具体示例的原理框图;
图6为本发明实施例3中计算机设备的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
如图1所示,窄带物联网系统包括基站BS,在窄带物联网系统基站BS的覆盖范围内存在大量的节点,其中包含两种节点:信道条件良好的基站临近节点,可使用OMA方式直接与基站BS通信;基站边缘节点,信道条件差,从而导致中断概率很高,无法直接传输信息到基站BS,需要中继协作传输,其中基站边缘节点到中继器采用NOMA方式传输,中继器传输信息到达基站BS则采用OMA方式传输。本发明以一个存在大量窄带物联网节点的上行中继协作传输与直接传输两种传输方式混合的传输模型为例,基于在线强化学习对窄带物联网系统进行建模,得到基于在线强化学习的智能选择模式的训练模型,利用WoLF-PHC算法对各个窄带物联网系统节点进行训练,使得各个窄带物联网系统节点能够选择能效最大的传输模式。
本发明实施例的窄带物联网系统,包括一个基站,M={1,2,3,…,M}个中继节点,N={1,2,3,…,N}个基站边缘节点,W={1,2,3,…,W}个OMA直接传输的基站临近节点(也称OMA节点)。其中中继节点和OMA节点可以与基站直接通信,而基站边缘节点不能直接传输信息到基站,需要通过中继节点进行协作传输。基站边缘节点实现两跳传输,第一跳中,基站边缘节点使用NOMA模式复用同一子信道传输信息到中继,此过程需要进行功率控制。第二跳中,中继节点直接采用解码转发方式(decode-and-forward,DF)传输信息到基站。
规定信道集为k={1,2,3,…,K},从i到j的信道增益记为HI,I~i→j。第一跳中,中继节点r收到的信息(包括需要接收的基站边缘节点发过来的信息和其他节点传输信息时的信道干扰信息以及高斯白噪声)为:
Figure GDA0003895701920000071
其中,Sn1[k]表示在第k个子信道上基站边缘节点发出的信号信息,Sw表示OMA节点直接传输到基站的信号信息,
Figure GDA0003895701920000072
表示功率分配系数且αn1∈[0,1],Pr表示基站边缘节点信息在子信道上传输的传输功率之和,Pw表示中继节点的传输功率,Hn1,r表示从基站边缘节点n1到中继节点r的信道增益,Hw,r表示OMA节点w到中继节点r的信道增益,同时记高斯噪声为
Figure GDA0003895701920000073
Ne表示小区边缘节点的总数量。
第二跳中,中继节点将解码转发信息到基站,基站收到的信息为:
Figure GDA0003895701920000081
其中,
Figure GDA0003895701920000082
表示从中继节点解码转发发出的信息,
Figure GDA0003895701920000083
表示功率分配系数且αn2∈[0,1],Hr,BS表示从中继节点r到基站BS的信道增益,在基站处的高斯噪声记为
Figure GDA0003895701920000084
基于(1)和(2),我们可以得到信息从基站边缘节点n1通过中继r传输到基站BS的信干噪比SINR为:
Figure GDA0003895701920000085
Figure GDA0003895701920000086
其中,Hl,r是信息从n1+1节点到中继节点r的信道增益,αl功率分配系数且αl∈[0,1]。
系统中信息从基站边缘节点w直接传输到基站的信干噪比SINR为:
Figure GDA0003895701920000087
其中,Nw表示直接传输中的噪声干扰功率。
根据香农定理,系统中的所有节点发送信息传输速率为:
Figure GDA0003895701920000088
其中,Bk表示子信道k的带宽。系统中直接传输节点w和小区边缘节点n1的信道传输速率和为:
Figure GDA0003895701920000091
其中
Figure GDA0003895701920000092
表示当功率分配系数α趋于纳什平衡时的
Figure GDA0003895701920000093
值,W表示系统中直接传输的节点总数。
对于窄带物联网系统中所有基站边缘节点的传输功率值总和为:Pr+Ne·Ps;对于系统中所有中继节点的功率消耗为:Pw+Ps。其中Ps表示窄带物联网系统中设备的无声功耗。
综上在本发明系统的信息传输的总功耗值:
Ptot=Pr+2Pw+(Ne+1)Ps, (7)
本发明采用系统能效作为目标值,系统中直接传输链路和复用第k个子信道的边缘节点进行中继协作传输的链路总能效如下:
Figure GDA0003895701920000094
本实施例提供一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,如图2所示,包括如下步骤:
步骤S11:获取窄带物联网系统节点的当前时隙状态信息。
示例性地,在线强化学习的模型包括状态(STATE)、动作(ACTION)、策略(POLICY)和奖励值(REWARD)。由于窄带物联网系统中的每个节点采取动作时都是独立的,所以可以定义整个窄带物联网系统的当前时隙t的状态信息为网络状态空间S(t)={s1(t),s2(t),…,sN(t)};定义窄带物联网节点在时隙t采取的动作空间集合为A(t)={a1(t),a2(t),…,aN(t)};定义窄带物联网节点n在时隙t中策略值为πn(t),策略集为π(t)={π1(t),π2(t),…,πN(t)}。
步骤S12:根据当前状态信息利用探索-利用策略执行动作。
示例性地,在本发明实施例中,探索-利用策略可以为基站边缘节点采用中继协作传输模式进行传输,基站临近节点采用直接传输模式进行传输,待进行模式选择的窄带物联网节点根据当前时隙的网络状态信息根据探索-利用策略得到动作ac并执行。
步骤S13:计算当窄带物联网系统节点执行完动作后的奖励值。
示例性地,在本发明实施例中,将窄带物联网系统节点传输的能效值EE作为奖励值,奖励值具体可通过如下公式确定:
Figure GDA0003895701920000101
其中,r表示奖励值,
Figure GDA0003895701920000102
表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。
步骤S14:获取窄带物联网系统节点的下一时隙状态信息。具体获取参见步骤S11的描述,窄带物联网系统节点的下一时隙t+1的状态信息为网络状态空间
Figure GDA0003895701920000103
步骤S15:根据奖励值和下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值。
示例性地,在WoLF-PHC算法中,利用Q函数进行学习,首先初始化Q函数为Qn(s,an)=0,该初始化的Q函数即为预设Q函数,初始化动作策略值为
Figure GDA0003895701920000111
该初始化的动作策略值即为本发明实施例中的预设动作策略值,初始化预估动作策略值为
Figure GDA0003895701920000112
该初始化的预估动作策略值即为预设预估动作策略值,初始化时,预设动作策略值和预设预估动作策略值是一样的,其中,s表示待选择传输模式的窄带物联网系统节点当前时隙的状态信息,an表示第n次迭代的动作值,A表示动作策略的矩阵,根据奖励值和下一时隙状态信息更新预设Q函数可以为:
Figure GDA0003895701920000113
Figure GDA0003895701920000114
其中,r表示奖励值,θ表示折扣因子,Qn(s,ac)表示窄带物联网节点当前时隙t的Q函数,
Figure GDA0003895701920000115
表示需要找到
Figure GDA0003895701920000116
值使Qn最大化。
在更新Q函数的同时,预设动作策略自动发生改变,得到第一动作策略值πn’(s,an)与预设动作策略不一样,也即与预设预估策略不一样,窄带物联网系统节点需要选择能效最高的传输模式。
步骤S16:根据第一动作策略值更新预估动作策略值,得到新预估策略值。
示例性地,根据第一动作策略值更新预估动作策略值,得到新预估策略值具体可以为:
Figure GDA0003895701920000117
Figure GDA0003895701920000121
其中,πn’(s,an)为第一动作策略值,
Figure GDA0003895701920000122
为预估预设策略值,X(s)表示Q函数更新出现状态s的数量值,初始化时X(s)=0。
步骤S17:根据新预估策略值和第一动作策略值选择传输模式。
示例性地,根据新预估策略值和第一动作策略值选择传输模式具体可以为:比较新预估策略值
Figure GDA0003895701920000123
和第一动作策略值πn’(s,an);当新预估策略值大于第一动作策略值时,表明新预估策略好,设定第一动作策略为输,根据新预估策略选择传输模式;当新预估策略值小于第一动作策略值时,表明第一动作策略好,设定第一动作策略为赢,根据第一动作策略值选择传输模式。
本发明提供的基于在线强化学习的传输模式选择方法,通过获取窄带物联网系统节点的当前时隙状态信息,根据当前状态信息利用探索-利用策略执行动作,计算当窄带物联网系统节点执行完动作后的奖励值,获取窄带物联网系统节点的下一时隙状态信息;根据奖励值和下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值,根据第一动作策略值更新预估动作策略值,得到新预估策略值,根据新预估策略值和第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。
作为本申请一个可选实施方式,基于在线强化学习的传输模式选择方法还包括:
首先,根据更新后的Q函数更新第一动作策略值,得到第二动作策略值。
示例性地,根据更新后的Q函数更新第一动作策略值,得到第二动作策略值具体可以为:
Figure GDA0003895701920000131
其中,
Figure GDA0003895701920000132
Figure GDA0003895701920000133
其中,
Figure GDA0003895701920000134
表示对
Figure GDA0003895701920000135
求集合的函数,δw表示赢的学习速率,δl表示输的学习速率,初始化时δl>δw,当新预估策略值大于第一动作策略值时,表明新的预估策略好,状态为输,学习速率会变快,加快调整参数以使窄带物联网系统节点可以选择能效最大的传输模式。当新预估策略值小于第一动作策略值时,表明第一动作策略好,状态为赢,学习速率会变慢。
其次,将第二动作策略值和新预估策略值作为新的预设动作策略值和新的预估动作策略值,返回执行步骤S11-步骤S17,计算下一时隙窄带物联网节点对传输模式的选择。
示例性地,由于窄带物联网系统节点的状态是不断变化的,下一时隙的状态和当前时隙的状态可能是不一样的,将第二动作策略值和新预估策略值作为新的预设动作策略值和新的预估动作策略值,返回执行步骤S11-步骤S17,不断对窄带物联网系统节点进行训练,使其在每一时隙可以选择能效最好的传输模式。
为了检验本发明方法的效果,我们做了如下仿真,仿真参数如表1所示:
表1
Figure GDA0003895701920000141
如图3所示,将其分别与随机选择策略和简单贪婪算法的能效进行比较,仿真结果表明随机选择策略和简单贪婪算法的能效会随系统功率产生幅度较大的波动,系统处于不稳定的状态。而WoLF-PHC算法得到的能效结果处于趋于稳定上升的趋势,系统能效值远大于其他两种策略方案;图4展示了随着窄带物联网系统节点的不断接入,系统的能效的变化趋势,仿真结果表明用WoLF-PHC算法对终端进行传输模式选择计算可以使系统能效值趋于稳定状态,并且系统的能效显著高于随机进行传输模式选择的能效值。同时,可以看出随着系统设备的不断接入,设备数量的大小对随机选择策略的能效影响很大,系统能效处于不稳定状态。而WoLF-PHC算法使系统能效处于稳定状态,提高了系统的可靠性。
实施例2
本发明实施例提供一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与基站的信息传输,如图5所示,包括:
第一获取模块21,用于获取窄带物联网系统节点的当前时隙状态信息;具体实现方式见实施例1中步骤S11的相关描述,在此不再赘述。
执行模块22,用于根据当前状态信息利用探索-利用策略执行动作;具体实现方式见实施例1中步骤S12的相关描述,在此不再赘述。
计算模块23,用于计算当窄带物联网系统节点执行完动作后的奖励值;具体实现方式见实施例1中步骤S13的相关描述,在此不再赘述。
第二获取模块24,用于获取窄带物联网系统节点的下一时隙状态信息;具体实现方式见实施例1中步骤S14的相关描述,在此不再赘述。
第一更新模块25,用于根据奖励值和下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;具体实现方式见实施例1中步骤S15的相关描述,在此不再赘述。
第二更新模块26,用于根据第一动作策略值更新预估动作策略值,得到新预估策略值;具体实现方式见实施例1中步骤S16的相关描述,在此不再赘述。
选择模块27,用于根据新预估策略值和第一动作策略值选择传输模式。具体实现方式见实施例1中步骤S17的相关描述,在此不再赘述。
本发明提供的基于在线强化学习的传输模式选择装置,通过获取窄带物联网系统节点的当前时隙状态信息,根据当前状态信息利用探索-利用策略执行动作,计算当窄带物联网系统节点执行完动作后的奖励值,获取窄带物联网系统节点的下一时隙状态信息;根据奖励值和下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值,根据第一动作策略值更新预估动作策略值,得到新预估策略值,根据新预估策略值和第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。
作为本申请一个可选实施方式,计算模块23包括:
Figure GDA0003895701920000161
其中,r表示奖励值,
Figure GDA0003895701920000162
表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。
作为本申请一个可选实施方式,选择模块包括:
比较模块,用于比较新预估策略值和第一动作策略值;具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。
第一选择子模块,用于当新预估策略值大于第一动作策略值时,根据新预估策略选择传输模式。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。
第二选择子模块,用于当新预估策略值小于第一动作策略值时,根据第一动作策略值选择传输模式。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。
作为本申请一个可选实施方式,该基于在线强化学习的传输模式选择装置还包括:
第三更新模块,用于根据更新后的Q函数更新第一动作策略值,得到第二动作策略值;具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。
返回执行模块,用于将第二动作策略值和新预估策略值作为新的预设动作策略值和新的预估动作策略值,返回执行步骤S11-步骤S17。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。
实施例3
本发明实施例还提供了一种计算机设备,如图6所示,该计算机设备可以包括处理器31和存储器32,其中处理器31和存储器32可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的驾驶行为评估方法对应的程序指令/模块(例如,图5所示的第一获取模块21、执行模块22、计算模块23、第二获取模块24、第一更新模块25、第二更新模块26和选择模块27)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于在线强化学习的传输模式选择方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器31所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器32中,当被所述处理器31执行时,执行如图2所示实施例中的基于在线强化学习的传输模式选择方法。
上述计算机设备具体细节可以对应参阅图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
实施例4
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于在线强化学习的传输模式选择方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (5)

1.一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,其特征在于,包括如下步骤:
步骤a:获取窄带物联网系统节点的当前时隙状态信息;
步骤b:根据所述当前时隙状态信息利用探索-利用策略执行动作;所述探索-利用策略为基站边缘节点采用中继协作传输模式进行传输,基站临近节点采用直接传输模式进行传输,待进行模式选择的窄带物联网节点根据当前时隙的网络状态信息根据探索-利用策略得到动作并执行;
步骤c:计算当所述窄带物联网系统节点执行完动作后的奖励值,
Figure FDA0003895701910000011
其中,r表示奖励值,
Figure FDA0003895701910000012
表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值;
步骤d:获取所述窄带物联网系统节点的下一时隙状态信息;
步骤e:根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;
首先初始化Q函数为Qn(s,an)=0,该初始化的Q函数即为预设Q函数,初始化动作策略值为
Figure FDA0003895701910000013
该初始化的动作策略值即为预设动作策略值;初始化预估动作策略值为
Figure FDA0003895701910000021
该初始化预估动作策略值即为预估动作策略值;初始化时,预设动作策略值和预估动作策略值是一样的,其中,s表示待选择传输模式的窄带物联网系统节点当前时隙的状态信息,an表示第n次迭代的动作值,A表示动作策略的矩阵;
根据奖励值和下一时隙状态信息更新预设Q函数为:
Figure FDA0003895701910000022
其中,r表示奖励值,θ表示折扣因子,Qn(s,ac)表示窄带物联网节点当前时隙t的Q函数,
Figure FDA0003895701910000024
表示需要找到
Figure FDA0003895701910000025
值使Qn最大化;在更新Q函数的同时,预设动作策略值自动发生改变;
步骤f:根据所述第一动作策略值更新预估动作策略值,得到新预估策略值;根据第一动作策略值更新预估动作策略值,得到新预估策略值具体为:
X(s)=X(s)+1,
Figure FDA0003895701910000026
Figure FDA0003895701910000027
其中,πn’(s,an)为第一动作策略值,
Figure FDA0003895701910000028
为预估动作策略值,X(s)表示Q函数更新出现状态s的数量值,初始化时X(s)=0;
步骤g:根据所述新预估策略值和所述第一动作策略值选择传输模式;比较所述新预估策略值和所述第一动作策略值;当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式;当所述新预估策略值小于所述第一动作策略值时,根据所述第一动作策略值选择传输模式。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据更新后的Q函数更新所述第一动作策略值,得到第二动作策略值;
将所述第二动作策略值和新预估策略值作为新的预设动作策略值和新的预估动作策略值,返回执行所述步骤a-步骤g。
3.一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与基站的信息传输,其特征在于,包括:
第一获取模块,用于获取窄带物联网系统节点的当前时隙状态信息;
执行模块,用于根据所述当前时隙状态信息利用探索-利用策略执行动作;所述探索-利用策略为基站边缘节点采用中继协作传输模式进行传输,基站临近节点采用直接传输模式进行传输,待进行模式选择的窄带物联网节点根据当前时隙的网络状态信息根据探索-利用策略得到动作并执行;
计算模块,用于计算当所述窄带物联网系统节点执行完动作后的奖励值,
Figure FDA0003895701910000041
其中,r表示奖励值,
Figure FDA0003895701910000042
表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值;
第二获取模块,用于获取所述窄带物联网系统节点的下一时隙状态信息;
第一更新模块,用于根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;首先初始化Q函数为Qn(s,an)=0,该初始化的Q函数即为预设Q函数,初始化动作策略值为
Figure FDA0003895701910000043
该初始化的动作策略值即为预设动作策略值;初始化预估动作策略值为
Figure FDA0003895701910000044
该初始化预估动作策略值即为预估动作策略值;初始化时,预设动作策略值和预估动作策略值是一样的,其中,s表示待选择传输模式的窄带物联网系统节点当前时隙的状态信息,an表示第n次迭代的动作值,A表示动作策略的矩阵;
根据奖励值和下一时隙状态信息更新预设Q函数为:
Figure FDA0003895701910000045
其中,r表示奖励值,θ表示折扣因子,Qn(s,ac)表示窄带物联网节点当前时隙t的Q函数,
Figure FDA0003895701910000047
表示需要找到
Figure FDA0003895701910000048
值使Qn最大化;在更新Q函数的同时,预设动作策略值自动发生改变;
第二更新模块,用于根据所述第一动作策略值更新预估动作策略值,得到新预估策略值;根据第一动作策略值更新预估动作策略值,得到新预估策略值具体为:
X(s)=X(s)+1,
Figure FDA0003895701910000051
Figure FDA0003895701910000052
其中,πn’(s,an)为第一动作策略值,
Figure FDA0003895701910000053
为预估动作策略值,X(s)表示Q函数更新出现状态s的数量值,初始化时X(s)=0;
选择模块,用于根据所述新预估策略值和所述第一动作策略值选择传输模式;比较所述新预估策略值和所述第一动作策略值;当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式;当所述新预估策略值小于所述第一动作策略值时,根据所述第一动作策略值选择传输模式。
4.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-2任一所述基于在线强化学习的传输模式选择方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述的基于在线强化学习的传输模式选择方法的步骤。
CN202010187389.0A 2020-03-17 2020-03-17 一种基于在线强化学习的传输模式选择方法及装置 Active CN111385894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010187389.0A CN111385894B (zh) 2020-03-17 2020-03-17 一种基于在线强化学习的传输模式选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010187389.0A CN111385894B (zh) 2020-03-17 2020-03-17 一种基于在线强化学习的传输模式选择方法及装置

Publications (2)

Publication Number Publication Date
CN111385894A CN111385894A (zh) 2020-07-07
CN111385894B true CN111385894B (zh) 2022-12-02

Family

ID=71217700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010187389.0A Active CN111385894B (zh) 2020-03-17 2020-03-17 一种基于在线强化学习的传输模式选择方法及装置

Country Status (1)

Country Link
CN (1) CN111385894B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113163479A (zh) * 2021-02-05 2021-07-23 北京中电飞华通信有限公司 一种蜂窝物联网上行资源分配方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110113190A (zh) * 2019-04-24 2019-08-09 西北工业大学 一种移动边缘计算场景中卸载时延优化方法
CN110856194A (zh) * 2019-11-13 2020-02-28 珠海中慧微电子有限公司 一种双模融合组网方法及通信方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595346B2 (en) * 2016-09-29 2020-03-17 Sony Corporation Telecommunications apparatus and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110113190A (zh) * 2019-04-24 2019-08-09 西北工业大学 一种移动边缘计算场景中卸载时延优化方法
CN110856194A (zh) * 2019-11-13 2020-02-28 珠海中慧微电子有限公司 一种双模融合组网方法及通信方法

Also Published As

Publication number Publication date
CN111385894A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
US20220407592A1 (en) Multi-carrier resource allocation method based on wireless-powered backscatter communication network
CN111953510B (zh) 一种基于强化学习的智能电网切片无线资源分配方法及系统
Huang et al. Auction-based resource allocation for cooperative communications
Lee et al. Joint resource allocation and base-station assignment for the downlink in CDMA networks
US9554388B2 (en) Method and apparatus of resource sharing for device-to-device and cellular communications
CN108900237B (zh) 一种多波束卫星通信系统资源分配方法
Le Fair resource allocation for device-to-device communications in wireless cellular networks
Tsiropoulou et al. Energy-efficient subcarrier allocation in SC-FDMA wireless networks based on multilateral model of bargaining
US8134946B2 (en) System and method for scheduling in relay-assisted wireless networks
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
Wang et al. Reinforcement learning based resource allocation for network slicing in 5G C-RAN
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN107343268B (zh) 非正交多播和单播传输波束赋型方法及系统
CN116113039B (zh) 一种电力混合业务资源优化方法、装置、设备及介质
CN111385894B (zh) 一种基于在线强化学习的传输模式选择方法及装置
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
CN113382414B (zh) 基于网络切片的非正交多址接入系统资源分配方法及装置
CN104540203A (zh) 基于独立集的无线体域网能效优化方法
Mitran et al. Resource allocation for downlink spectrum sharing in cognitive radio networks
CN116132997A (zh) 基于a2c算法优化混合供电异构网中能源效率的方法
Hu et al. Computation Offloading and Resource Allocation in IoT-Based Mobile Edge Computing Systems
CN106304306B (zh) 异构网络中混合多址接入的资源管理方法
Giang et al. Uplink NOMA-based long-term throughput maximization scheme for cognitive radio networks: an actor–critic reinforcement learning approach
CN104618291A (zh) 基于余量自适应准则的资源分配方法及装置
Maghsudi et al. Distributed downlink user association in small cell networks with energy harvesting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant