CN110012547B - 一种共生网络中用户关联的方法 - Google Patents

一种共生网络中用户关联的方法 Download PDF

Info

Publication number
CN110012547B
CN110012547B CN201910292100.9A CN201910292100A CN110012547B CN 110012547 B CN110012547 B CN 110012547B CN 201910292100 A CN201910292100 A CN 201910292100A CN 110012547 B CN110012547 B CN 110012547B
Authority
CN
China
Prior art keywords
user
iot device
iot
network
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910292100.9A
Other languages
English (en)
Other versions
CN110012547A (zh
Inventor
梁应敞
张倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910292100.9A priority Critical patent/CN110012547B/zh
Publication of CN110012547A publication Critical patent/CN110012547A/zh
Application granted granted Critical
Publication of CN110012547B publication Critical patent/CN110012547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/1215Wireless traffic scheduling for collaboration of different radio technologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,涉及一种共生网络中用户关联的方法。本发明目标是找出一种有效的用户关联方案使所有蜂窝用户的速率和最大。因想要获得全部的实时信道信息非常困难,本发明提出利用深度强化学习来进行用户关联,然后根据当前总速率大小自适应地调整用户关联方案。基于深度强化学习的用户关联方法:利用在上一帧采集得到的历史信息,通过深度强化学习来进行当前信道预测,进而为在下一帧作出合适的用户关联决策。本发明不需要实时得到所有链路的信道信息,而是根据历史信息进行预测当前决策的有效信息,进而得到使所有IoT设备合速率最大的用户关联策略。

Description

一种共生网络中用户关联的方法
技术领域
本发明属于无线通信技术领域,涉及一种共生网络中基于深度强化学习的用户关联的方法。
背景技术
物联网(IoT)设备数量的指数增长将导致未来对无线频谱和网络基础设施的巨大需求。为了支持大规模IoT设备连接,这非常需要设计一种频谱,能源和基础设施高效的通信技术。共生无线电(SR)被是一种可行的解决方案,在SR中,IoT传输寄生在传统网络中。特别地,IoT设备通过反射从传统发射机接收的信号来发送它们的消息,而不需要有源射频(RF)链。这意味着物联网设备的数据传输使用无源无线电技术,并且不需要专用频谱和基础设施。
SR系统有三个节点:RF源,IoT设备和接收机。IoT设备通过改变反射系数来反射环境RF源信号来将信息传输到接收机。接收机接收两种类型的信号:来自RF源的直接链路信号和来自IoT设备的反向散射链路信号。反向散射链路信号包含RF源消息,并且IoT设备的传输速率低于传统系统的传输速率,这意味着反向散射链路可以被视为传统传输的附加路径,来提高传统通信系统的性能。因此SR系统可以实现传统通信系统和IoT通信的互利共生。
发明内容
本发明考虑蜂窝网络和IoT网络的共生模型,本发明设计了如图1所示的共生网络,蜂窝网络中的基站(BS)服务M个蜂窝用户,而IoT网络中的N个IoT设备通过反射来自BS的接收信号来将它们的消息发送到相关的蜂窝用户。本发明设计了在此SR网络中的传输协议,如图2所示,BS通过时间多址接入(TDMA)的方式服务多个蜂窝用户,IoT设备仅在一个关联的时隙中发送信息。蜂窝用户使用连续干扰消除(SIC)策略对来自BS和相关联的IoT设备信号进行解码。
在此SR网络中,所有的信道由两部分组成:大尺度衰落和小尺度衰落。如图1所示,在SR中,
Figure BDA0002025240610000011
表示从BS到用户m的信道系数,
Figure BDA0002025240610000012
表示从BS到IoT设备n的信道系数,
Figure BDA0002025240610000013
表示从IoT设备n到用户m的信道系数,其中λmnm,n分别表示大尺度衰落,
Figure BDA0002025240610000021
分别表示对应的小尺度衰落。大尺度衰落和两个通信节点的距离有关,小尺度衰落在一帧中保持不变,但是不同帧之间会发生变化。本发明用Jakes模型来表述第t帧的小尺度衰落的变化,即
Figure BDA0002025240610000022
Figure BDA0002025240610000023
Figure BDA0002025240610000024
其中m=1,…,M,n=1,…,N并且
Figure BDA0002025240610000025
并且em(t),en(t),em,n(t)是服从
Figure BDA0002025240610000026
的独立同分布的随机变量。
Figure BDA0002025240610000027
是指均值为μ方差为σ2的复高斯,ρ是指不同帧之间的信道相关系数。
BS在一帧中的一个时隙给用户m传输的信息为xm,IoT设备n将自己的信息cn传送给关联的蜂窝用户,本发明假定IoT设备的传输周期是BS传输周期的K倍。则用户m接收到的信号可以写为
Figure BDA0002025240610000028
其中p是BS的传输功率,αn表示IoT设备n的反射系数,um表示用户m端的复高斯噪声,服从分布
Figure BDA0002025240610000029
并且am,n∈{0,1}表示用户关联指数,如果am,n=1,则与IoT设备n关联的是用户m。
蜂窝用户采用SIC方式解码自己的信号和关联的IoT设备的信号,由于来自基站的直接链路能量强于反射链路,因此在接收端先解调蜂窝用户自己的信号,然后在根据能量强弱解调相关联的IoT设备信号。定义
Figure BDA00020252406100000210
并且将信道强度小于hm,n的IoT设备编号放到集合
Figure BDA00020252406100000211
Figure BDA00020252406100000212
则用户m端的IoT设备n的信干噪比(SINR)为
Figure BDA0002025240610000031
本发明目标是找出一种有效的用户关联方案使所有蜂窝用户的速率和最大,即
Figure BDA0002025240610000032
其中
Figure BDA0002025240610000033
Figure BDA0002025240610000034
为用户关联指数am,n的集合。在(6)中,想要获得全部的实时信道信息非常困难,由于深度强化学习能够通过在复杂的数据中提取变化规律,进而实现在复杂动态环境中进行有效地决策,本发明提出利用深度强化学习来进行用户关联,然后根据当前总速率大小自适应地调整用户关联方案。基于深度强化学习的用户关联方法:利用在上一帧采集得到的历史信息,通过深度强化学习来进行当前信道预测,进而为在下一帧作出合适的用户关联决策。本发明提出两种深度强化学习方案来用于用户关联,分别是:中心式深度强化学习,分布式深度强化学习。
中心式深度强化学习的的奖励函数(reward fuction)为
Figure BDA0002025240610000035
中心式深度强化学习在第t帧的状态(state)为
Figure BDA0002025240610000036
其中
Figure BDA0002025240610000037
是第(t-1)帧的能获得的所有反射链路的历史信道信息。每次和环境进行交互后,用户m将与之相关联的IoT设备的信道信息上传给基站,基站更新现有的历史信道信息
Figure BDA0002025240610000038
中心式深度强化学习的动作(action)为
Figure BDA0002025240610000039
其中bn∈{1,…,M}表示与IoT设备n关联的蜂窝用户的标号,动作空间大小为MN
分布式深度强化学习中的深度Q-网络是针对每一个IoT设备,决策既可以在BS做,也可以在IoT设备端做,因此分布式深度强化学习的动作(action)为
Figure BDA0002025240610000041
分布式深度强化学习的在第t帧关于IoT设备n的状态
Figure BDA0002025240610000042
Figure BDA0002025240610000043
其中
Figure BDA0002025240610000044
表示关于IoT设备n到所有蜂窝用户的历史信道信息,
Figure BDA0002025240610000045
表示在第(t-1)帧IoT设备n做的决策,n表示IoT设备的编号,
Figure BDA0002025240610000046
表示在第(t-1)帧解码IoT设备n的信息时,其他IoT设备产生的干扰,
Figure BDA0002025240610000047
表示第(t-1)帧IoT设备对其他IoT设备的干扰,其中并且
Figure BDA0002025240610000048
表示第(t-1)帧受IoT设备n影响的其他IoT设备的标号,即
Figure BDA0002025240610000049
分布式深度强化学习的的奖励函数(reward fuction)为
Figure BDA00020252406100000410
其中
Figure BDA00020252406100000411
本发明的有益效果在于,本发明不需要实时得到所有链路的信道信息,而是根据历史信息进行预测当前决策的有效信息,进而得到使所有IoT设备合速率最大的用户关联策略。
附图说明
图1示出了本发明中的SR网络模型;
图2示出了本发明中SR网络中蜂窝通信和IoT通信的帧结构;
图3示出了本发明中的中心式深度强化学习决策和信息交互流程;
图4示出了本发明中的分布式深度强化学习决策和信息交互流程;
图5示出了本发明提出的基于两种深度强化学习的用户关联方案和其他用户关联方案的性能对比;
图6出了本发明提出的基于分布式深度强化学习用户关联方案在IoT设备数目发生变化时的性能。
具体实施方式
图1示出了本发明中的SR网络模型。本发明考虑蜂窝网络和IoT网络的共生模型,蜂窝网络中的基站(BS)服务M个蜂窝用户,而IoT网络中的N个IoT设备通过反射来自BS的接收信号来将它们的消息发送到相关的蜂窝用户。在此SR网络中,所有的信道由两部分组成:大尺度衰落和小尺度衰落。如图1所示,在SR中,
Figure BDA0002025240610000051
表示从BS到用户m的信道系数,
Figure BDA0002025240610000052
表示从BS到IoT设备n的信道系数,
Figure BDA0002025240610000053
表示从IoT设备n到用户m的信道系数,其中λmnm,n分别表示大尺度衰落,
Figure BDA0002025240610000054
分别表示对应的小尺度衰落。大尺度衰落和两个通信节点的距离有关,小尺度衰落在一帧中保持不变,但是不同帧之间会发生变化。本发明用Jakes模型来表述第t帧的小尺度衰落的变化,即
Figure BDA0002025240610000055
Figure BDA0002025240610000056
Figure BDA0002025240610000057
其中m=1,…,M,n=1,…,N并且
Figure BDA0002025240610000058
并且em(t),en(t),em,n(t)是服从
Figure BDA0002025240610000059
的独立同分布的随机变量。
Figure BDA00020252406100000510
是指均值为μ方差为σ2的复高斯,ρ是指不同帧之间的信道相关系数。
图2示出了本发明中SR网络中蜂窝通信和IoT通信的帧结构。BS通过时间多址接入(TDMA)的方式服务多个蜂窝用户,IoT设备仅在一个关联的时隙中发送信息。蜂窝用户使用连续干扰消除(SIC)策略对来自BS和相关联的IoT设备信号进行解码。BS在一帧中的一个时隙给用户m传输的信息为xm,IoT设备n将自己的信息cn传送给关联的蜂窝用户,本发明假定IoT设备的传输周期是BS传输周期的K倍。则用户m接收到的信号可以写为
Figure BDA0002025240610000061
其中p是BS的传输功率,αn表示IoT设备n的反射系数,um表示用户m端的复高斯噪声,服从分布
Figure BDA0002025240610000062
并且am,n∈{0,1}表示用户关联指数,如果am,n=1,则与IoT设备n关联的是用户m。
蜂窝用户采用SIC方式解码自己的信号和关联的IoT设备的信号,由于来自基站的直接链路能量强于反射链路,因此在接收端先解调蜂窝用户自己的信号,然后在根据能量强弱解调相关联的IoT设备信号。定义
Figure BDA0002025240610000063
并且将信道强度小于hm,n的IoT设备编号放到集合
Figure BDA0002025240610000064
Figure BDA0002025240610000065
则用户m端的IoT设备n的信干噪比(SINR)为
Figure BDA0002025240610000066
本发明目标是找出一种有效的用户关联方案使所有蜂窝用户的速率和最大,即
Figure BDA0002025240610000067
其中
Figure BDA0002025240610000068
Figure BDA0002025240610000069
为用户关联指数am,n的集合。在(6)中,想要获得全部的实时信道信息非常困难,由于深度强化学习能够通过在复杂的数据中提取变化规律,进而实现在复杂动态环境中进行有效地决策,本发明提出利用深度强化学习来进行用户关联,然后根据当前总速率大小自适应地调整用户关联方案。基于深度强化学习的用户关联方法:利用在上一帧采集得到的历史信息,通过深度强化学习来进行当前信道预测,进而为在下一帧作出合适的用户关联决策。本发明提出两种深度强化学习方案来用于用户关联,分别是:中心式深度强化学习,分布式深度强化学习。
图3示出了本发明中的中心式深度强化学习决策和信息交互流程。BS根据ε-贪婪策略做出决策ac(t)。IoT设备基于来自BS的决策来接入相关联的蜂窝用户。并且蜂窝用户解码相关联的IoT设备信号并将所有有用和可用信息,即rc(t)和sc(t+1)反馈给BS。然后,BS将经验数据存储到存储器D中,并随机地对D中的经验数据进行小片采样以训练深度Q-网络。ε-贪婪策略是指以ε概率采取随机决策,以1-ε概率采取深度Q-网络获得的结果。
中心式深度强化学习的的奖励函数(reward fuction)为
Figure BDA0002025240610000071
中心式深度强化学习在第t帧的状态(state)为
Figure BDA0002025240610000072
其中
Figure BDA0002025240610000073
是第(t-1)帧的能获得的所有反射链路的历史信道信息。每次和环境进行交互后,用户m将与之相关联的IoT设备的信道信息上传给基站,基站更新现有的历史信道信息
Figure BDA0002025240610000074
中心式深度强化学习的动作(action)为
Figure BDA0002025240610000075
其中bn∈{1,…,M}表示与IoT设备n关联的蜂窝用户的标号,动作空间大小为MN
图4示出了本发明中的分布式深度强化学习决策和信息交互流程。蜂窝用户、IoT设备和BS之间的信息传递与中心式DRL算法相同,在分布式深度强化学习中,BS需要分配N个计算单元来为分布式深度强化学习算法中的N个IoT设备做出决策。另外,在分布式深度强化学习算法中,在训练深度Q-网络之后,BS将更新的深度Q-网络权重传递给每个计算单元。然后,N个计算单元根据相应的状态分别为N个IoT设备做决策。
分布式深度强化学习中的深度Q-网络是针对每一个IoT设备,决策既可以在BS做,也可以在IoT设备端做,因此分布式深度强化学习的动作(action)为
Figure BDA0002025240610000076
分布式深度强化学习的在第t帧关于IoT设备n的状态
Figure BDA0002025240610000077
Figure BDA0002025240610000078
其中
Figure BDA0002025240610000081
表示关于IoT设备n到所有蜂窝用户的历史信道信息,
Figure BDA0002025240610000082
表示在第(t-1)帧IoT设备n做的决策,n表示IoT设备的编号,
Figure BDA0002025240610000083
表示在第(t-1)帧解码IoT设备n的信息时,其他IoT设备产生的干扰,
Figure BDA0002025240610000084
表示第(t-1)帧IoT设备对其他IoT设备的干扰,其中并且
Figure BDA0002025240610000085
表示第(t-1)帧受IoT设备n影响的其他IoT设备的标号,即
Figure BDA0002025240610000086
分布式深度强化学习的的奖励函数(reward fuction)为
Figure BDA0002025240610000087
其中
Figure BDA0002025240610000088
下面,本发明将根据仿真结果来阐述本发明提出方案的性能。首先,在一个100米乘100米区域内,BS位于该区域的中心,在距离BS 10-100米的距离内均匀分布生成蜂窝用户的位置,并且IoT设备则均匀分布的随机放置在距离蜂窝用户0~50米的距离内。设定BS的发射功率为p=40dBm,背景噪声功率为σ2=-114dBm。路径损耗模型为32.45+20log10(f)+20log10(d)-Gt-Gr(以dB为单位),其中f(Mhz)是载波频率,d(km)是距离,Gt表示发射天线增益,Gr表示接收天线增益。本发明设置f=1GHz,Gt=Gr=2.5dB。并且αn=α=0.8,K=50。两个深度强化学习算法使用TensorFlow实现,ε=0.4,并且从0.4线性减少到0。
图5示出了本发明提出的基于两种深度强化学习的用户关联方案和其他用户关联方案的性能对比。两种对比算法为随机策略和最优策略。在随机策略中,每个IoT设备将随机与蜂窝用户相关联。在最优策略中,假设BS知道完美的全实时信道信息,并通过搜索方式获得最优策略。设置ρ=0.5,M=N=3。可以看出,中心式深度强化学习算法和分布式深度强化学习算法几乎可以逼近最优和传输速率。并且,中心式深度强化学习算法大约在2000帧收敛,而分布式DRL算法大约在5000帧收敛。中心式深度强化学习收敛更快一些。
图6出了本发明提出的基于分布式深度强化学习用户关联方案在IoT设备数目发生变化时的性能,其中ρ=0.5,M=3。若IoT设备的数量增加,分布式DRL算法几乎可以达到或接近最优策略,并且总是优于随机策略。当环境以相对动态的方式变化时,该图验证了所提出的分布式DRL算法的可扩展性。

Claims (2)

1.一种共生网络中用户关联的方法,所述共生网络为由蜂窝网络和物联网IoT网络构成的共生系统,其中,蜂窝网络中的基站BS服务M个蜂窝用户,IoT网络中的N个IoT设备通过反射来自BS的接收信号来将它们的消息发送到相关的蜂窝用户;定义BS在一帧中的一个时隙给用户m传输的信息为xm,IoT设备n将自己的信息cn传送给关联的蜂窝用户,令IoT设备的传输周期是BS传输周期的K倍,则用户m接收到的信号为:
Figure FDA0002936326200000011
其中,p是BS的传输功率,αn表示IoT设备n的反射系数,um表示用户m端的复高斯噪声,服从分布
Figure FDA0002936326200000012
并且am,n∈{0,1}表示用户关联指数,定义是若am,n=1,则与IoT设备n关联的是用户m;
Figure FDA0002936326200000013
表示从BS到用户m的信道系数,
Figure FDA0002936326200000014
表示从BS到IoT设备n的信道系数,
Figure FDA0002936326200000015
表示从IoT设备n到用户m的信道系数,其中λmnm,n分别表示大尺度衰落,大尺度衰落和两个通信节点的距离有关;
Figure FDA0002936326200000016
分别表示对应的小尺度衰落,采用Jakes模型表述第t帧的小尺度衰落的变化为:
Figure FDA0002936326200000017
Figure FDA0002936326200000018
Figure FDA0002936326200000019
其中m=1,…,M,n=1,…,N并且
Figure FDA00029363262000000110
em(t),en(t),em,n(t)是服从
Figure FDA00029363262000000111
的独立同分布的随机变量;
Figure FDA00029363262000000112
是指均值为μ方差为σ2的复高斯,ρ是指不同帧之间的信道相关系数;
其特征在于,所述用户关联的方法为:
以所有蜂窝用户的速率和最大为目标,建立模型:
Figure FDA0002936326200000021
Figure FDA0002936326200000022
其中
Figure FDA0002936326200000023
Figure FDA0002936326200000024
为用户关联指数am,n的集合,γm,n为用户m端的IoT设备n的信干噪比:
Figure FDA0002936326200000025
集合
Figure FDA0002936326200000026
中存放的是信道强度小于hm,n的IoT设备编号,
Figure FDA0002936326200000027
其中
Figure FDA0002936326200000028
采用中心式深度强化学习来进行用户关联,具体为:BS根据ε-贪婪策略做出决策,IoT设备基于来自BS的决策来接入相关联的蜂窝用户,蜂窝用户解码相关联的IoT设备信号并将rc(t)和sc(t+1)反馈给BS,BS将经验数据存储到存储器D中,并随机地对D中的经验数据进行小片采样以训练深度Q-网络;ε-贪婪策略是指以ε概率采取随机决策,以1-ε概率采取深度Q-网络获得的结果;
rc(t)为中心式深度强化学习的的奖励函数:
Figure FDA0002936326200000029
sc(t)为中心式深度强化学习在第t帧的状态:
Figure FDA00029363262000000210
其中
Figure FDA00029363262000000211
是第(t-1)帧的能获得的所有反射链路的历史信道信息,每次和环境进行交互后,用户m将与之相关联的IoT设备的信道信息上传给基站,基站更新现有的历史信道信息
Figure FDA00029363262000000212
中心式深度强化学习的动作为:
Figure FDA0002936326200000031
其中bn∈{1,…,M}表示与IoT设备n关联的蜂窝用户的标号,动作空间大小为MN
2.一种共生网络中用户关联的方法,所述共生网络为由蜂窝网络和物联网IoT网络构成的共生系统,其中,蜂窝网络中的基站BS服务M个蜂窝用户,IoT网络中的N个IoT设备通过反射来自BS的接收信号来将它们的消息发送到相关的蜂窝用户;定义BS在一帧中的一个时隙给用户m传输的信息为xm,IoT设备n将自己的信息cn传送给关联的蜂窝用户,令IoT设备的传输周期是BS传输周期的K倍,则用户m接收到的信号为:
Figure FDA0002936326200000032
其中,p是BS的传输功率,αn表示IoT设备n的反射系数,um表示用户m端的复高斯噪声,服从分布
Figure FDA0002936326200000033
并且am,n∈{0,1}表示用户关联指数,定义是若am,n=1,则与IoT设备n关联的是用户m;
Figure FDA0002936326200000034
表示从BS到用户m的信道系数,
Figure FDA0002936326200000035
表示从BS到IoT设备n的信道系数,
Figure FDA0002936326200000036
表示从IoT设备n到用户m的信道系数,其中λmnm,n分别表示大尺度衰落,大尺度衰落和两个通信节点的距离有关;
Figure FDA0002936326200000037
分别表示对应的小尺度衰落,采用Jakes模型表述第t帧的小尺度衰落的变化为:
Figure FDA0002936326200000038
Figure FDA0002936326200000039
Figure FDA00029363262000000310
其中m=1,…,M,n=1,…,N并且
Figure FDA00029363262000000311
em(t),en(t),em,n(t)是服从
Figure FDA00029363262000000312
的独立同分布的随机变量;
Figure FDA00029363262000000313
是指均值为μ方差为σ2的复高斯,ρ是指不同帧之间的信道相关系数;
其特征在于,所述用户关联的方法为:
以所有蜂窝用户的速率和最大为目标,建立模型:
Figure FDA0002936326200000041
Figure FDA0002936326200000042
其中
Figure FDA0002936326200000043
Figure FDA0002936326200000044
为用户关联指数am,n的集合,γm,n为用户m端的IoT设备n的信干噪比:
Figure FDA0002936326200000045
集合
Figure FDA0002936326200000046
中存放的是信道强度小于hm,n的IoT设备编号,
Figure FDA0002936326200000047
其中
Figure FDA0002936326200000048
采用分布式深度强化学习来进行用户关联,具体为:BS根据ε-贪婪策略通过N个计算单元分别为N个IoT设备做出决策,N个IoT设备分别基于来自BS的决策来接入相关联的蜂窝用户,蜂窝用户解码相关联的IoT设备信号并将
Figure FDA0002936326200000049
Figure FDA00029363262000000410
反馈给BS,BS将经验数据存储到存储器D中,并随机地对D中的经验数据进行小片采样以训练深度Q-网络,将获得的Q-网络权重传递给每个计算单元;ε-贪婪策略是指以ε概率采取随机决策,以1-ε概率采取深度Q-网络获得的结果;
Figure FDA00029363262000000411
为分布式深度强化学习的的奖励函数:
Figure FDA00029363262000000412
其中
Figure FDA00029363262000000413
Figure FDA00029363262000000414
为分布式深度强化学习的在第t帧关于IoT设备n的状态:
Figure FDA0002936326200000051
其中
Figure FDA0002936326200000052
表示关于IoT设备n到所有蜂窝用户的历史信道信息,
Figure FDA0002936326200000053
表示在第(t-1)帧IoT设备n做的决策,n表示IoT设备的编号,In(t-1)表示在第(t-1)帧解码IoT设备n的信息时,其他IoT设备产生的干扰,On(t-1)表示第(t-1)帧IoT设备对其他IoT设备的干扰;
分布式深度强化学习中的深度Q-网络是针对每一个IoT设备,决策既可以在BS做,也可以在IoT设备端做,因此分布式深度强化学习的动作为:
Figure FDA0002936326200000054
CN201910292100.9A 2019-04-12 2019-04-12 一种共生网络中用户关联的方法 Active CN110012547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910292100.9A CN110012547B (zh) 2019-04-12 2019-04-12 一种共生网络中用户关联的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910292100.9A CN110012547B (zh) 2019-04-12 2019-04-12 一种共生网络中用户关联的方法

Publications (2)

Publication Number Publication Date
CN110012547A CN110012547A (zh) 2019-07-12
CN110012547B true CN110012547B (zh) 2021-04-02

Family

ID=67171309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910292100.9A Active CN110012547B (zh) 2019-04-12 2019-04-12 一种共生网络中用户关联的方法

Country Status (1)

Country Link
CN (1) CN110012547B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365387B (zh) * 2019-07-16 2021-07-27 电子科技大学 一种蜂窝通信系统的波束选择方法
CN110380776B (zh) * 2019-08-22 2021-05-14 电子科技大学 一种基于无人机的物联网系统数据收集方法
CN111010207B (zh) * 2019-12-05 2020-11-13 北京邮电大学 一种基于量化相关性的跳频方法及装置
CN113346917A (zh) * 2020-02-18 2021-09-03 索尼公司 电子设备、无线通信方法和计算机可读存储介质
CN113286374B (zh) * 2020-02-19 2023-05-09 华为技术有限公司 调度方法、调度算法的训练方法及相关系统、存储介质
CN113452473B (zh) * 2020-03-26 2022-06-28 太原理工大学 在反向散射中预测最佳信道的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN109451591A (zh) * 2018-12-27 2019-03-08 电子科技大学 融合蜂窝网-物联网的共生系统传输方法
CN109462430A (zh) * 2019-01-04 2019-03-12 电子科技大学 多天线共生无线通信系统、信号传输及波束赋形优化方法
CN109560826A (zh) * 2018-12-27 2019-04-02 电子科技大学 蜂窝网-物联网共生系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080229392A1 (en) * 2007-03-13 2008-09-18 Thomas Lynch Symbiotic host authentication and/or identification
CN107820321B (zh) * 2017-10-31 2020-01-10 北京邮电大学 一种基于蜂窝网络的窄带物联网中大规模用户智能接入方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN109451591A (zh) * 2018-12-27 2019-03-08 电子科技大学 融合蜂窝网-物联网的共生系统传输方法
CN109560826A (zh) * 2018-12-27 2019-04-02 电子科技大学 蜂窝网-物联网共生系统
CN109462430A (zh) * 2019-01-04 2019-03-12 电子科技大学 多天线共生无线通信系统、信号传输及波束赋形优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Backscatter-NOMA: A Symbiotic System of;QIANQIAN ZHANG;《IEEE Access(Volume:7)》;20190206;全文 *
物联网浪潮下的无线网发展趋势;刘振峰;《电脑知识与技术 Vol.13,No.22,August 2017》;20170805;全文 *

Also Published As

Publication number Publication date
CN110012547A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110012547B (zh) 一种共生网络中用户关联的方法
Zhang et al. Intelligent user association for symbiotic radio networks using deep reinforcement learning
Zhang et al. Beyond D2D: Full dimension UAV-to-everything communications in 6G
Lei et al. Deep reinforcement learning-based spectrum allocation in integrated access and backhaul networks
US10505616B1 (en) Method and apparatus for machine learning based wide beam optimization in cellular network
Zeb et al. NOMA enhanced backscatter communication for green IoT networks
Lee et al. Deep learning based transmit power control in underlaid device-to-device communication
Luo et al. Online power control for 5G wireless communications: A deep Q-network approach
Ye et al. Deep reinforcement learning based distributed resource allocation for V2V broadcasting
Leng et al. Age of information minimization for wireless ad hoc networks: A deep reinforcement learning approach
Ban An autonomous transmission scheme using dueling DQN for D2D communication networks
Ortiz et al. Multi-agent reinforcement learning for energy harvesting two-hop communications with a partially observable system state
Li et al. Deep reinforcement learning based wireless resource allocation for V2X communications
Zhu et al. Load-aware dynamic mode selection for network-assisted full-duplex cell-free large-scale distributed MIMO systems
Xiong et al. Wireless resource scheduling for high mobility scenarios: A combined traffic and channel quality prediction approach
CN110505604B (zh) 一种d2d通信系统接入频谱的方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
Xu et al. Delay‐Aware Online Service Scheduling in High‐Speed Railway Communication Systems
Al-Abiad et al. Throughput maximization of network-coded and multi-level cache-enabled heterogeneous network
Mismar et al. Machine learning in downlink coordinated multipoint in heterogeneous networks
CN115802370A (zh) 一种通信方法及装置
Chen et al. Low complexity closed‐loop strategy for mmWave communication in industrial intelligent systems
Korpi et al. Reinforcement learning based inter-user-interference suppression in full-duplex networks
Ji et al. Optimization of resource allocation for V2X security communication based on multi-agent reinforcement learning
CN116074939B (zh) 一种基于动态优化的物联网边缘设备协同接入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant