CN115442812A - 一种基于深度强化学习的物联网频谱分配优化方法及系统 - Google Patents

一种基于深度强化学习的物联网频谱分配优化方法及系统 Download PDF

Info

Publication number
CN115442812A
CN115442812A CN202211388554.4A CN202211388554A CN115442812A CN 115442812 A CN115442812 A CN 115442812A CN 202211388554 A CN202211388554 A CN 202211388554A CN 115442812 A CN115442812 A CN 115442812A
Authority
CN
China
Prior art keywords
communication link
device communication
things
sub
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211388554.4A
Other languages
English (en)
Other versions
CN115442812B (zh
Inventor
王家烨
金波
张凤莲
武明虎
赵楠
王茹
杜万银
孙萌
杨成健
郭乐铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202211388554.4A priority Critical patent/CN115442812B/zh
Publication of CN115442812A publication Critical patent/CN115442812A/zh
Application granted granted Critical
Publication of CN115442812B publication Critical patent/CN115442812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于工业物联网频谱管理技术领域,具体涉及一种基于深度强化学习的物联网频谱分配优化方法及系统。考虑到全局信道信息未知的情况下,提出一种基于多智能体深度强化学习的工业物联网频谱分配优化方法。首先,构造多个设备对设备通信链路的系统模型。其次,构建优化问题,结合频谱子带和传输功率等约束条件以优化物联网网络综合效率。接着,将优化问题描述为马尔可夫决策过程。最后,针对上述优化问题具有较大的状态空间和动作空间,提出了多智能体深度Q网络算法。借助于经验回放机制和目标网络策略,以实现最优的频谱子带选择和传输功率分配策略。

Description

一种基于深度强化学习的物联网频谱分配优化方法及系统
技术领域
本发明属于工业物联网频谱资源管理技术领域,具体涉及一种基于深度强化学习的物联网频谱分配优化方法及系统。
背景技术
随着信息时代的快速发展,工业物联网得到了蓬勃的发展。然而,随着工业物联网中无线设备的增加,加剧了对有限频谱资源和设备通信需求之间的矛盾。为了缓解这一现象,许多研究人员都提出了优化方法来应对。但是,在实际情况中,需要获取全局信道状态信息是非常困难的且计算复杂度高,现有的优化方法难以得到最优策略。因此,提出了一种多智能体深度强化学习方法来获得与蜂窝通信链路共享频谱的最优策略,并使工业物联网网络综合效率最大化。
发明内容
为了克服现有技术的存在的不足,本发明的目的旨在提出一种基于深度强化学习的频谱分配优化方法。
为了达到上述目的,本发明采用的技术方案是:
一种基于深度强化学习的物联网频谱分配优化方法,其特征在于,包括:
构造多个设备对设备通信链路的系统模型;
基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;
构建优化目标函数以及约束条件;
将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。
在上述的一种基于深度强化学习的物联网频谱分配优化方法,多个设备对设备通信链路的系统模型包括:
一个基站;
Figure 615353DEST_PATH_IMAGE001
个蜂窝通信链路;
Figure 611122DEST_PATH_IMAGE002
个设备对设备通信链路;
其中,蜂窝通信链路用于获取高数据速率的服务,多个设备对设备通信链路用于 设备之间的双向通信;假设蜂窝通信链路的频谱被分成
Figure 859701DEST_PATH_IMAGE001
个正交频谱子带,且每个频谱子 带带宽为
Figure 582806DEST_PATH_IMAGE003
在上述的一种基于深度强化学习的物联网频谱分配优化方法,多个设备对设备通 信链路可能有不同的频谱子带选择,二元频谱分配向量被定义为
Figure 974342DEST_PATH_IMAGE004
,并且,
当设备对设备通信链路
Figure 265646DEST_PATH_IMAGE005
复用蜂窝通信链路的频谱子带时,
Figure 126154DEST_PATH_IMAGE006
Figure 403683DEST_PATH_IMAGE007
时,设备对设备通信链路未复用蜂窝通信链路的频谱子带;
定义每个设备对设备通信链路最多只能复用一个频谱子带,即:
Figure 541403DEST_PATH_IMAGE008
在上述的一种基于深度强化学习的物联网频谱分配优化方法,
蜂窝通信链路在频谱子带
Figure 862663DEST_PATH_IMAGE009
上的信噪比:
Figure 85834DEST_PATH_IMAGE010
蜂窝通信链路在频谱子带
Figure 400010DEST_PATH_IMAGE009
上数据的传输速率可以表示为:
Figure 516870DEST_PATH_IMAGE011
设备对设备通信链路
Figure 149977DEST_PATH_IMAGE012
在频谱子带
Figure 735810DEST_PATH_IMAGE009
上的信噪比:
Figure 338830DEST_PATH_IMAGE013
干扰功率
Figure 451142DEST_PATH_IMAGE014
可以表示为:
Figure 363473DEST_PATH_IMAGE015
设备对设备通信链路
Figure 561236DEST_PATH_IMAGE012
在频谱子带
Figure 967946DEST_PATH_IMAGE009
上的传输速率为:
Figure 544552DEST_PATH_IMAGE016
其中,蜂窝通信链路在频谱子带
Figure 785041DEST_PATH_IMAGE017
上到基站的信道增益被表示为
Figure 63575DEST_PATH_IMAGE018
;将
Figure 788824DEST_PATH_IMAGE019
表示 为频谱子带
Figure 610149DEST_PATH_IMAGE020
上蜂窝通信链路
Figure 880593DEST_PATH_IMAGE020
的传输功率;
Figure 397157DEST_PATH_IMAGE021
是噪声功率,
Figure 286615DEST_PATH_IMAGE022
为二元频谱分配向量,
Figure 352660DEST_PATH_IMAGE023
表示频谱子带
Figure 934951DEST_PATH_IMAGE024
上设备对设备通信链路
Figure 437346DEST_PATH_IMAGE025
的传输功率,
Figure 130495DEST_PATH_IMAGE026
是设备对设备通信链路
Figure 519888DEST_PATH_IMAGE027
在频谱子带
Figure 148447DEST_PATH_IMAGE024
上到基站的干扰信道增益;
Figure 29815DEST_PATH_IMAGE028
为频谱子带带宽,
Figure 651289DEST_PATH_IMAGE029
是蜂窝通信链路在频谱子 带
Figure 36134DEST_PATH_IMAGE024
上信噪比;
Figure 68550DEST_PATH_IMAGE030
是频谱子带
Figure 437214DEST_PATH_IMAGE024
上的设备对设备通信链路
Figure 596800DEST_PATH_IMAGE027
在频谱子带
Figure 977097DEST_PATH_IMAGE024
的信道功率增 益,
Figure 806513DEST_PATH_IMAGE031
是设备对设备通信链路
Figure 787107DEST_PATH_IMAGE027
在频谱子带
Figure 360171DEST_PATH_IMAGE024
上的接收到的干扰功率;
Figure 827930DEST_PATH_IMAGE032
为二元频谱分 配向量,
Figure 952881DEST_PATH_IMAGE033
是蜂窝通信链路
Figure 640346DEST_PATH_IMAGE034
到设备对设备通信链路
Figure 17100DEST_PATH_IMAGE035
的干扰信道增益,
Figure 355678DEST_PATH_IMAGE036
是设备对设 备通信链路
Figure 166377DEST_PATH_IMAGE037
到设备对设备通信链路
Figure 465771DEST_PATH_IMAGE027
的干扰信道增益。
在上述的一种基于深度强化学习的物联网频谱分配优化方法,将蜂窝通信链路效 率
Figure 505271DEST_PATH_IMAGE038
和设备对设备通信链路效率
Figure 449088DEST_PATH_IMAGE039
加权和定义为工业物联网网络效率:
Figure 56786DEST_PATH_IMAGE040
其中,
Figure 968111DEST_PATH_IMAGE041
Figure 794990DEST_PATH_IMAGE042
是平衡蜂窝通信链路和设备对设备通信链路效率的权重;
蜂窝通信链路效率表示为:
Figure 108160DEST_PATH_IMAGE043
设备对设备通信链路的效率表示为:
Figure 886760DEST_PATH_IMAGE044
其中,其中,
Figure 36113DEST_PATH_IMAGE045
Figure 558361DEST_PATH_IMAGE046
分别为蜂窝通信链路的传输功率和电路功耗,
Figure 726037DEST_PATH_IMAGE028
为频谱子 带带宽;类似地,结合设备对设备通信链路的传输速率
Figure 49440DEST_PATH_IMAGE047
Figure 810722DEST_PATH_IMAGE048
为频谱子带带宽,
Figure 261295DEST_PATH_IMAGE049
Figure 158844DEST_PATH_IMAGE050
分 别为设备对设备通信链路的传输功率和电路功耗。
在上述的一种基于深度强化学习的物联网频谱分配优化方法,约束条件表示为
Figure 889034DEST_PATH_IMAGE051
其中,
Figure 527826DEST_PATH_IMAGE052
Figure 391876DEST_PATH_IMAGE053
都表示设备对设备通信链路频谱选择的限制条 件,设备对设备通信链路的传输功率
Figure 541271DEST_PATH_IMAGE054
不能超过其最大传输功率
Figure 98154DEST_PATH_IMAGE055
在上述的一种基于深度强化学习的物联网频谱分配优化方法,对目标函数进行求解时:
训练开始之前对经验重放的经验回放池
Figure 958663DEST_PATH_IMAGE056
初始化,并随机对多个智能体的Q网络 初始化;在每个训练回合开始时,更新工业物联网中设备的位置和大规模衰落系数,同时对 设备与设备链路之间的剩余传输负载
Figure 236191DEST_PATH_IMAGE057
和剩余传输时间
Figure 108332DEST_PATH_IMAGE058
进行重置;
在训练的每个时间间隙
Figure 695171DEST_PATH_IMAGE059
中,设备对设备链路作为智能体探索环境并获取环境状 态和剩余传输负载
Figure 918342DEST_PATH_IMAGE060
和剩余传输时间
Figure 498097DEST_PATH_IMAGE058
设备对设备链路
Figure 349379DEST_PATH_IMAGE061
根据
Figure 248064DEST_PATH_IMAGE062
-greedy策略从环境状态
Figure 302739DEST_PATH_IMAGE063
中选择行动
Figure 171338DEST_PATH_IMAGE064
,获得环境 所反馈的奖励回报
Figure 18071DEST_PATH_IMAGE065
和更新信道小规模衰落系数;
环境状态转换到下一环境状态
Figure 930401DEST_PATH_IMAGE066
,同时采取经验重放策略,将
Figure 252798DEST_PATH_IMAGE067
存储到经验回放池中
Figure 534875DEST_PATH_IMAGE068
设备对设备链路
Figure 377060DEST_PATH_IMAGE069
随机的从中抽取小批量的经验进行训练,同时,设备对设备通 信链路
Figure 211024DEST_PATH_IMAGE070
可以通过最小化损失函数
Figure 896083DEST_PATH_IMAGE071
来优化Q网络和学习目标之间的误差:
Figure 621332DEST_PATH_IMAGE072
其中,
Figure 442657DEST_PATH_IMAGE073
为动作值函数,
Figure 713102DEST_PATH_IMAGE074
Figure 619878DEST_PATH_IMAGE075
分别 是设备对设备通信链路
Figure 384702DEST_PATH_IMAGE076
在时间间隙
Figure 326114DEST_PATH_IMAGE059
时的状态空间和动作空间,
Figure 767459DEST_PATH_IMAGE077
为主网络权重;
Figure 269854DEST_PATH_IMAGE078
表示目标网络的输出,
Figure 963003DEST_PATH_IMAGE079
Figure 883555DEST_PATH_IMAGE080
分别是设备对设备通信链路
Figure 371168DEST_PATH_IMAGE076
在下一个环 境状态时的状态空间和动作空间,
Figure 127902DEST_PATH_IMAGE081
为主网络权重,
Figure 359164DEST_PATH_IMAGE082
折扣贴现率;
每个训练回合在设备对设备链路做出合理的频谱子带和传输功率分配之后结束,当训练回合数达到最大时,训练停止。
在上述的一种基于深度强化学习的物联网频谱分配优化方法,环境状态
Figure 868642DEST_PATH_IMAGE083
包括:
Figure 166637DEST_PATH_IMAGE084
,
Figure 535302DEST_PATH_IMAGE085
,
Figure 694888DEST_PATH_IMAGE086
Figure 934239DEST_PATH_IMAGE087
分别是蜂窝通信链路和设备对设备通信链路
Figure 904600DEST_PATH_IMAGE088
的信道状态,
Figure 760561DEST_PATH_IMAGE089
是设备对 设备通信链路
Figure 192679DEST_PATH_IMAGE090
在频谱子带
Figure 191597DEST_PATH_IMAGE024
上的接收到的干扰功率;此外,设备对设备链路
Figure 457493DEST_PATH_IMAGE035
所获得的 环境状态
Figure 659804DEST_PATH_IMAGE091
定义为:
Figure 36559DEST_PATH_IMAGE092
一种工业物联网频谱分配优化系统,其特征在于,包括:
第一模块:被配置为用于构造多个设备对设备通信链路的系统模型;
第二模块:被配置为用于基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;
第三模块:被配置为用于构建优化目标函数以及约束条件;
第四模块:被配置为用于将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。
本发明的优点如下:1. 在频谱优化方面,提升了设备对设备链路的频谱资源利用率,并与蜂窝通信链路共享频谱,对工业物联网络的频谱效率有一定的提升作用。2. 通过深度强化学习算法,优化了设备对设备链路之间的传输功率分配,提升其链路的能量效率。3. 综合考虑蜂窝通信链路、设备对设备链路的频谱效率和能量效率,设立目标函数,提高工业物联网的网络效率。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
本实例是利用多智能体深度强化学习对工业物联网的频谱资源进行分配与优化。考虑到在实际情况中,需要获取全局信道状态信息是非常困难的且计算复杂度高,现有的优化方法难以得到最优策略。于是,提出多智能体深度强化学习方法来应对这一挑战。首先,构造多个设备对设备通信链路的系统模型。其次,构建优化问题,结合频谱子带和传输功率等约束条件以优化工业物联网网络综合效率。接着,将优化问题描述为马尔可夫决策过程。最后,针对上述优化问题具有较大的状态空间和动作空间,提出了多智能体深度Q网络算法。借助于经验回放机制和目标网络策略,以实现最优的频谱子带选择和传输功率分配策略。
考虑的多个设备对设备通信链路的工业物联网网络中,其主要组成部分如下:一 个基站、
Figure 391448DEST_PATH_IMAGE093
个蜂窝通信链路和
Figure 828246DEST_PATH_IMAGE094
个设备对设备通信链路,其中,蜂窝通信链路用于获取高 数据速率的服务,设备对设备通信链路用于设备之间的双向通信。假设蜂窝通信链路的频 谱被分成
Figure 252274DEST_PATH_IMAGE093
个正交频谱子带,且每个频谱子带带宽为
Figure 541042DEST_PATH_IMAGE095
考虑到多个设备对设备通信链路可能有不同的频谱子带选择,二元频谱分配向量 被定义为
Figure 140650DEST_PATH_IMAGE096
。当设备对设备通信链路
Figure 872983DEST_PATH_IMAGE005
复用蜂窝通信链路的频谱子带时,
Figure 659673DEST_PATH_IMAGE097
;当
Figure 253597DEST_PATH_IMAGE098
时,设备对设备通信链路未复用蜂窝通信链路的频谱子带。假设每个设备对设备 通信链路最多只能复用一个频谱子带,即:
Figure 707712DEST_PATH_IMAGE099
蜂窝通信链路采用上行链路通信,蜂窝通信链路在频谱子带
Figure 610946DEST_PATH_IMAGE009
上到BS的信道增益 被表示为
Figure 258834DEST_PATH_IMAGE100
。将
Figure 781082DEST_PATH_IMAGE101
表示为频谱子带
Figure 948758DEST_PATH_IMAGE009
上蜂窝通信链路
Figure 898260DEST_PATH_IMAGE009
的传输功率。于是,可以得出蜂 窝通信链路在频谱子带
Figure 534908DEST_PATH_IMAGE009
上的信噪比:
Figure 719902DEST_PATH_IMAGE102
其中,
Figure 883030DEST_PATH_IMAGE103
是噪声功率,
Figure 377334DEST_PATH_IMAGE104
为二元频谱分配向量,
Figure 891492DEST_PATH_IMAGE105
表示频谱子带
Figure 614598DEST_PATH_IMAGE009
上设备对 设备通信链路
Figure 632232DEST_PATH_IMAGE012
的传输功率,
Figure 798902DEST_PATH_IMAGE106
是设备对设备通信链路
Figure 659411DEST_PATH_IMAGE012
在频谱子带
Figure 61574DEST_PATH_IMAGE009
上到基站的干 扰信道增益。
蜂窝通信链路在频谱子带
Figure 573195DEST_PATH_IMAGE009
上数据的传输速率可以表示为:
Figure 300980DEST_PATH_IMAGE107
其中,
Figure 117626DEST_PATH_IMAGE028
为频谱子带带宽,
Figure 589059DEST_PATH_IMAGE108
是蜂窝通信链路在频谱子带
Figure 456652DEST_PATH_IMAGE009
上信噪比。
此外,根据频谱子带
Figure 89758DEST_PATH_IMAGE009
上设备对设备通信链路
Figure 659280DEST_PATH_IMAGE012
的传输功率
Figure 42726DEST_PATH_IMAGE109
,可以求出设备 对设备通信链路
Figure 889459DEST_PATH_IMAGE012
在频谱子带
Figure 83680DEST_PATH_IMAGE009
上的信噪比:
Figure 750284DEST_PATH_IMAGE110
其中,
Figure 438886DEST_PATH_IMAGE111
是噪声功率,
Figure 405705DEST_PATH_IMAGE112
是频谱子带
Figure 505248DEST_PATH_IMAGE009
上的设备对设备通信链路
Figure 298629DEST_PATH_IMAGE012
在频谱子 带
Figure 649976DEST_PATH_IMAGE113
的信道功率增益,
Figure 595936DEST_PATH_IMAGE114
是设备对设备通信链路
Figure 741746DEST_PATH_IMAGE012
在频谱子带
Figure 258309DEST_PATH_IMAGE009
上的接收到的干扰功 率。
根据蜂窝通信链路的传输功率
Figure 413347DEST_PATH_IMAGE115
和干扰设备对设备通信链路
Figure 213813DEST_PATH_IMAGE116
的传输功率
Figure 796104DEST_PATH_IMAGE117
, 干扰功率
Figure 298498DEST_PATH_IMAGE118
可以表示为:
Figure 116282DEST_PATH_IMAGE119
其中,
Figure 912199DEST_PATH_IMAGE120
为二元频谱分配向量,
Figure 540758DEST_PATH_IMAGE121
是蜂窝通信链路
Figure 890968DEST_PATH_IMAGE020
到设备对设备通信链路
Figure 512442DEST_PATH_IMAGE012
的干扰信道增益,
Figure 162866DEST_PATH_IMAGE122
是设备对设备通信链路
Figure 195282DEST_PATH_IMAGE116
到设备对设备通信链路
Figure 688580DEST_PATH_IMAGE012
的干扰信道增 益。
接着,设备对设备通信链路
Figure 723532DEST_PATH_IMAGE012
在频谱子带
Figure 103829DEST_PATH_IMAGE020
上的传输速率为:
Figure 198824DEST_PATH_IMAGE123
为了同时考虑频谱效率和能量效率,将其确定为一个目标函数。将蜂窝通信链路 和设备对设备通信链路的效率定义为频谱效率与总功耗之比。根据蜂窝通信链路的传输速 率
Figure 648260DEST_PATH_IMAGE124
,蜂窝通信链路效率可以表示为:
Figure 486903DEST_PATH_IMAGE125
其中,
Figure 485821DEST_PATH_IMAGE126
Figure 610772DEST_PATH_IMAGE127
分别为蜂窝通信链路的传输功率和电路功耗,
Figure 688449DEST_PATH_IMAGE128
为频谱子带带 宽。类似地,结合设备对设备通信链路的传输速率
Figure 674991DEST_PATH_IMAGE129
,设备对设备通信链路的效率也可以 表示为:
Figure 154514DEST_PATH_IMAGE130
其中,
Figure 715945DEST_PATH_IMAGE131
Figure 280918DEST_PATH_IMAGE132
分别为设备对设备通信链路的传输功率和电路功耗。
因此,综合考虑了蜂窝通信链路效率和设备对设备通信链路效率,将蜂窝通信链 路效率
Figure 593124DEST_PATH_IMAGE133
和设备对设备通信链路效率
Figure 317366DEST_PATH_IMAGE134
加权和定义为工业物联网网络效率:
Figure 925065DEST_PATH_IMAGE135
其中,
Figure 321542DEST_PATH_IMAGE136
Figure 305679DEST_PATH_IMAGE137
是平衡蜂窝通信链路和设备对设备通信链路效率的权重。
在构建的多个设备对设备通信链路的工业物联网网络中,结合多个设备对设备通 信链路复用频谱和设备对设备通信链路传输功率等约束条件,通过多个设备对设备通信链 路与环境交互,进行频谱子带和传输功率选择。于是,优化问题就是通过优化频谱子带选择 和设备对设备通信链路传输功率,使得工业物联网网络效率
Figure 884428DEST_PATH_IMAGE138
最大化,可表示为:
Figure 771350DEST_PATH_IMAGE139
其中,
Figure 45337DEST_PATH_IMAGE140
Figure 692219DEST_PATH_IMAGE141
都表示设备对设备通信链路频谱选择的限制条件, 设备对设备通信链路的传输功率
Figure 735261DEST_PATH_IMAGE142
不能超过其最大传输功率
Figure 560129DEST_PATH_IMAGE143
由于优化问题具有非凸性和组合性,所以其优化问题难以解决。穷举算法可能会找到最优解,但计算复杂度高,且工业物联网内通信链路的信道状态信息很难获得,使得现有的优化方法难以获得最优近似解。因此,提出一个多智能体深度强化学习的解决方案,以找到多个设备对设备通信链路最优的频谱子带选择和传输功率分配策略。
在工业物联网网络中,假设每个设备对设备通信链路根据当前的环境状态和其它 设备对设备通信链路动作自主决定频谱子带和传输功率以最大化工业物联网网络效率
Figure 586990DEST_PATH_IMAGE144
。然后,根据之前的环境状态和选择的动作,环境状态转变为新的状态。于是,优化问题被建 模为马尔可夫决策过程
Figure 771984DEST_PATH_IMAGE145
,其中
Figure 200691DEST_PATH_IMAGE146
是状态空间,
Figure 429416DEST_PATH_IMAGE147
代表动作空间,
Figure 802629DEST_PATH_IMAGE148
是奖励函 数,
Figure 666680DEST_PATH_IMAGE149
代表状态转移概率。设备对设备通信链路充当智能体,探索车辆环境,并指导自身的 频谱子带
Figure 825260DEST_PATH_IMAGE150
和传输功率
Figure 116564DEST_PATH_IMAGE151
选择策略。
假设设备对设备通信链路
Figure 711493DEST_PATH_IMAGE035
在时间
Figure 379235DEST_PATH_IMAGE152
内对传输负载
Figure 890856DEST_PATH_IMAGE153
进行传输,然后根据设备对 设备通信链路
Figure 353062DEST_PATH_IMAGE035
的传输速率
Figure 435287DEST_PATH_IMAGE154
,剩余的传输负载
Figure 782086DEST_PATH_IMAGE155
可以通过以下公式得出:
Figure 774313DEST_PATH_IMAGE156
对于每个设备对设备通信链路,状态空间
Figure 532053DEST_PATH_IMAGE157
由时间预算
Figure 976941DEST_PATH_IMAGE158
中的七个部分组成:前 四个
Figure 360387DEST_PATH_IMAGE159
,
Figure 207120DEST_PATH_IMAGE160
,
Figure 401341DEST_PATH_IMAGE161
Figure 943312DEST_PATH_IMAGE162
分别是蜂窝通信链路和设备对设备通信链路
Figure 756547DEST_PATH_IMAGE163
的信道状态,
Figure 316842DEST_PATH_IMAGE164
是设备对设备通信链路
Figure 557330DEST_PATH_IMAGE163
在频谱子带
Figure 350711DEST_PATH_IMAGE165
上的接收到的干扰功率。此外,还考虑了剩余传输 负载
Figure 702058DEST_PATH_IMAGE166
和剩余传输时间
Figure 382438DEST_PATH_IMAGE167
。因此,设备对设备通信链路
Figure 669194DEST_PATH_IMAGE163
的状态空间
Figure 575970DEST_PATH_IMAGE168
定义为:
Figure 855642DEST_PATH_IMAGE169
设备对设备通信链路通过不断地探索环境,以找到最优的频谱子带
Figure 531474DEST_PATH_IMAGE170
和传输功 率
Figure 222087DEST_PATH_IMAGE171
进行传输,并且将设备对设备通信链路的传输功率分为
Figure 616159DEST_PATH_IMAGE172
个等级,其中
Figure 433943DEST_PATH_IMAGE173
。于是,设备对设备通信链路
Figure 839647DEST_PATH_IMAGE163
的动作空间
Figure 327261DEST_PATH_IMAGE174
定义为:
Figure 67684DEST_PATH_IMAGE175
为了验证传输负载
Figure 672846DEST_PATH_IMAGE176
是否成功传输,在奖励功能中考虑了成功或失败两种情况。 如果传输失败,则将设备对设备通信链路在频谱子带选择
Figure 323270DEST_PATH_IMAGE177
有效传输速率
Figure 371998DEST_PATH_IMAGE178
作为奖励 系数。否则,将给出常数
Figure 209504DEST_PATH_IMAGE179
。因此,在时间间隙
Figure 119822DEST_PATH_IMAGE180
的奖励函数
Figure 890332DEST_PATH_IMAGE181
可以写为:
Figure 109961DEST_PATH_IMAGE182
其中,
Figure 700342DEST_PATH_IMAGE183
是物联网网络综合效率,
Figure 647307DEST_PATH_IMAGE184
是剩余传输负载。
Q学习算法在求解小规模和离散空间等问题方面是有效的,但是当处理的问题具 有很大的状态空间和动作空间,将导致其Q表非常大,这将为搜索和存储带来大量的时间和 空间。因此,提出了多智能体深度Q网络算法来解决这个问题多智能体深度Q网络算法采用 深度神经网络模型实现设备对设备通信链路的状态估计。为了有效地训练和更新Q网络,多 智能体深度Q网络算法有两个重要的策略。一方面,采用经验回放的方法来保留历史经验, 保证了训练数据的相对独立性,避免发散。另一方面,多智能体深度Q网络算法由结构相同 但权重不同的主网络(权重
Figure 396957DEST_PATH_IMAGE185
)和目标网络(权重
Figure 662854DEST_PATH_IMAGE186
)组成。
经验重放将过去的经验存储到重放内存,并从池中随机抽取小批样本来训练深度 神经网络,从而避免智能体只关注当前网络正在做的事情。在每个时间间隙
Figure 615897DEST_PATH_IMAGE187
中,设备对设 备通信链路
Figure 727073DEST_PATH_IMAGE188
观察自己的状态,然后根据建立的动作值函数
Figure 331229DEST_PATH_IMAGE189
执行联合频谱 子带和传输功率选择。因此,动作值函数
Figure 768027DEST_PATH_IMAGE190
被定义为:
Figure 706902DEST_PATH_IMAGE191
其中,
Figure 887347DEST_PATH_IMAGE192
Figure 80431DEST_PATH_IMAGE193
分别是设备对设备通信链路在时间间隙
Figure 563496DEST_PATH_IMAGE194
时的状态空间和动作空 间,
Figure 615766DEST_PATH_IMAGE195
为主网络权重,
Figure 458957DEST_PATH_IMAGE196
为折扣贴现率,
Figure 647493DEST_PATH_IMAGE197
为在时间间隙
Figure 799995DEST_PATH_IMAGE198
获得的奖励。
然后,根据设备对设备通信链路
Figure 339560DEST_PATH_IMAGE199
采取的动作
Figure 986442DEST_PATH_IMAGE200
,环境转移到一个新的状态
Figure 904851DEST_PATH_IMAGE201
,设备对设备通信链路
Figure 854352DEST_PATH_IMAGE199
从环境中获得
Figure 5848DEST_PATH_IMAGE202
的奖励。基于上述元素,每个设备对设备通信 链路采用相同的方式计算即时奖励。于是,得到奖励
Figure 800629DEST_PATH_IMAGE203
和新状态
Figure 337658DEST_PATH_IMAGE204
,设备对设备通信链路
Figure 723640DEST_PATH_IMAGE199
可以通过最小化损失函数
Figure 96853DEST_PATH_IMAGE205
来更新深度Q网络的权重,该函数可以表示为:
Figure 960903DEST_PATH_IMAGE206
其中,
Figure 119483DEST_PATH_IMAGE207
Figure 269842DEST_PATH_IMAGE208
分别是设备对设备通信链路在时间间隙
Figure 5717DEST_PATH_IMAGE209
时的状态空间和动作空 间,
Figure 47360DEST_PATH_IMAGE210
为主网络权重,
Figure 185080DEST_PATH_IMAGE211
是表示目标网络优化对象输出的目标值,可通过以下公式得出:
Figure 506340DEST_PATH_IMAGE212
其中,
Figure 729511DEST_PATH_IMAGE213
表示目标网络的输出。在每一步
Figure 810731DEST_PATH_IMAGE209
中,目标网络中的权重
Figure 802957DEST_PATH_IMAGE214
用来保持Q值稳定和训练过程平稳。
Figure 560698DEST_PATH_IMAGE215
Figure 645066DEST_PATH_IMAGE216
分别是设备对设备通信链路在下一个环境状 态时的状态空间和动作空间,
Figure 389031DEST_PATH_IMAGE217
为主网络权重,
Figure 625978DEST_PATH_IMAGE218
为折扣贴现率。
即最小化损失函数
Figure 164406DEST_PATH_IMAGE219
为:
Figure 237536DEST_PATH_IMAGE072
具体的算法流程如下:
初始化经验回放池
Figure 785192DEST_PATH_IMAGE056
随机初始化智能体Q网络;
每个回合开始:
更新车辆位置和大规模衰落系数;
重置V2V链路的剩余传输负载
Figure 876645DEST_PATH_IMAGE220
和剩余传输时间
Figure 225455DEST_PATH_IMAGE221
在每个时间间隙
Figure 644935DEST_PATH_IMAGE222
中;
V2V链路
Figure 120916DEST_PATH_IMAGE223
作为智能体;
观察并获取环境状态
Figure 676662DEST_PATH_IMAGE224
V2V链路根据
Figure 963418DEST_PATH_IMAGE062
-greedy策略从环境状态
Figure 870194DEST_PATH_IMAGE225
中选择行动
Figure 618707DEST_PATH_IMAGE226
V2V链路采取行动并获得奖励回报
Figure 934020DEST_PATH_IMAGE227
更新信道小规模衰落系数;
对于V2V链路
Figure 516311DEST_PATH_IMAGE223
观察环境,环境状态转换到下一个状态
Figure 35017DEST_PATH_IMAGE228
Figure 462587DEST_PATH_IMAGE229
存储到经验回放池
Figure 602713DEST_PATH_IMAGE230
中;
对于V2V链路
Figure 480539DEST_PATH_IMAGE231
从经验回放池
Figure 361907DEST_PATH_IMAGE232
中随机地抽取小批量的经验来训练;
使用最小化损失函数
Figure 256087DEST_PATH_IMAGE233
优化Q网络和学习目标之间误差,如果V2V链路能够做 出合理的频谱子带和传输功率分配,则当前回合结束。训练在回合数达到最大时停止。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度强化学习的物联网频谱分配优化方法,其特征在于,包括:
构造多个设备对设备通信链路的系统模型;
基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;
构建优化目标函数以及约束条件;
将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。
2.根据权利要求1所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于,多个设备对设备通信链路的系统模型包括:
一个基站;
Figure 17925DEST_PATH_IMAGE001
个蜂窝通信链路;
Figure 528541DEST_PATH_IMAGE002
个设备对设备通信链路;
其中,蜂窝通信链路用于获取高数据速率的服务,多个设备对设备通信链路用于设备 之间的双向通信;假设蜂窝通信链路的频谱被分成
Figure 386907DEST_PATH_IMAGE001
个正交频谱子带,且每个频谱子带带 宽为
Figure 985379DEST_PATH_IMAGE003
3.根据权利要求2所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征 在于:多个设备对设备通信链路可能有不同的频谱子带选择,二元频谱分配向量被定义为
Figure 127647DEST_PATH_IMAGE004
,并且,
当设备对设备通信链路
Figure 28738DEST_PATH_IMAGE005
复用蜂窝通信链路的频谱子带时,
Figure 623667DEST_PATH_IMAGE006
Figure 25830DEST_PATH_IMAGE007
时,设备对设备通信链路未复用蜂窝通信链路的频谱子带;
定义每个设备对设备通信链路最多只能复用一个频谱子带,即:
Figure 773337DEST_PATH_IMAGE008
4.根据权利要求3所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于:
蜂窝通信链路在频谱子带
Figure 94597DEST_PATH_IMAGE009
上的信噪比:
Figure 317768DEST_PATH_IMAGE010
蜂窝通信链路在频谱子带
Figure 864899DEST_PATH_IMAGE011
上数据的传输速率可以表示为:
Figure 716181DEST_PATH_IMAGE012
设备对设备通信链路
Figure 224654DEST_PATH_IMAGE013
在频谱子带
Figure 794175DEST_PATH_IMAGE014
上的信噪比:
Figure 272561DEST_PATH_IMAGE015
干扰功率
Figure 260240DEST_PATH_IMAGE016
可以表示为:
Figure 923302DEST_PATH_IMAGE017
设备对设备通信链路
Figure 465273DEST_PATH_IMAGE018
在频谱子带
Figure 340825DEST_PATH_IMAGE011
上的传输速率为:
Figure 914502DEST_PATH_IMAGE019
其中,蜂窝通信链路在频谱子带
Figure 889411DEST_PATH_IMAGE020
上到基站的信道增益被表示为
Figure 167945DEST_PATH_IMAGE021
;将
Figure 394659DEST_PATH_IMAGE022
表示为频 谱子带
Figure 809459DEST_PATH_IMAGE023
上蜂窝通信链路
Figure 220849DEST_PATH_IMAGE023
的传输功率;
Figure 65308DEST_PATH_IMAGE024
是噪声功率,
Figure 689188DEST_PATH_IMAGE025
为二元频谱分配向量,
Figure 240386DEST_PATH_IMAGE026
表 示频谱子带
Figure 681732DEST_PATH_IMAGE027
上设备对设备通信链路
Figure 682661DEST_PATH_IMAGE028
的传输功率,
Figure 969286DEST_PATH_IMAGE029
是设备对设备通信链路
Figure 234045DEST_PATH_IMAGE030
在频谱 子带
Figure 597025DEST_PATH_IMAGE027
上到基站的干扰信道增益;
Figure 337447DEST_PATH_IMAGE031
为频谱子带带宽,
Figure 444075DEST_PATH_IMAGE032
是蜂窝通信链路在频谱子带
Figure 828920DEST_PATH_IMAGE027
上 信噪比;
Figure 80910DEST_PATH_IMAGE033
是频谱子带
Figure 59361DEST_PATH_IMAGE027
上的设备对设备通信链路
Figure 953368DEST_PATH_IMAGE030
在频谱子带
Figure 723878DEST_PATH_IMAGE027
的信道功率增益,
Figure 894571DEST_PATH_IMAGE034
是设备对设备通信链路
Figure 609587DEST_PATH_IMAGE030
在频谱子带
Figure 323596DEST_PATH_IMAGE027
上的接收到的干扰功率;
Figure 417454DEST_PATH_IMAGE035
为二元频谱分配向量,
Figure 542405DEST_PATH_IMAGE036
是蜂窝通信链路
Figure 495448DEST_PATH_IMAGE037
到设备对设备通信链路
Figure 872203DEST_PATH_IMAGE038
的干扰信道增益,
Figure 210780DEST_PATH_IMAGE039
是设备对设备通信 链路
Figure 257365DEST_PATH_IMAGE040
到设备对设备通信链路
Figure 822338DEST_PATH_IMAGE030
的干扰信道增益。
5.根据权利要求4所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征 在于:将蜂窝通信链路效率
Figure 861839DEST_PATH_IMAGE041
和设备对设备通信链路效率
Figure 802725DEST_PATH_IMAGE042
加权和定义为工业物联网网 络效率:
Figure 269479DEST_PATH_IMAGE043
其中,
Figure 56169DEST_PATH_IMAGE044
Figure 384513DEST_PATH_IMAGE045
是平衡蜂窝通信链路和设备对设备通信链路效率的权重;
蜂窝通信链路效率表示为:
Figure 697683DEST_PATH_IMAGE046
设备对设备通信链路的效率表示为:
Figure 86070DEST_PATH_IMAGE047
其中,其中,
Figure 360057DEST_PATH_IMAGE048
Figure 741359DEST_PATH_IMAGE049
分别为蜂窝通信链路的传输功率和电路功耗,
Figure 659768DEST_PATH_IMAGE031
为频谱子带带 宽;类似地,结合设备对设备通信链路的传输速率
Figure 468324DEST_PATH_IMAGE050
Figure 964027DEST_PATH_IMAGE051
为频谱子带带宽,
Figure 185841DEST_PATH_IMAGE052
Figure 942444DEST_PATH_IMAGE053
分别 为设备对设备通信链路的传输功率和电路功耗。
6.根据权利要求5所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于:约束条件表示为
Figure 672634DEST_PATH_IMAGE054
其中,
Figure 921212DEST_PATH_IMAGE055
Figure 909897DEST_PATH_IMAGE056
都表示设备对设备通信链路频谱选择的限制条件,设备 对设备通信链路的传输功率
Figure 537319DEST_PATH_IMAGE057
不能超过其最大传输功率
Figure 94202DEST_PATH_IMAGE058
7.根据权利要求6所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于:对目标函数进行求解时:
训练开始之前对经验重放的经验回放池
Figure 689131DEST_PATH_IMAGE059
初始化,并随机对多个智能体的Q网络初始 化;在每个训练回合开始时,更新工业物联网中设备的位置和大规模衰落系数,同时对设备 与设备链路之间的剩余传输负载
Figure 356873DEST_PATH_IMAGE060
和剩余传输时间
Figure 838801DEST_PATH_IMAGE061
进行重置;
在训练的每个时间间隙
Figure 425640DEST_PATH_IMAGE063
中,设备对设备链路作为智能体探索环境并获取环境状态和 剩余传输负载
Figure 648811DEST_PATH_IMAGE064
和剩余传输时间
Figure 461522DEST_PATH_IMAGE061
设备对设备链路
Figure 312803DEST_PATH_IMAGE065
根据
Figure 211489DEST_PATH_IMAGE066
-greedy策略从环境状态
Figure 266164DEST_PATH_IMAGE067
中选择行动
Figure 400342DEST_PATH_IMAGE068
,获得环境所反 馈的奖励回报
Figure 512654DEST_PATH_IMAGE069
和更新信道小规模衰落系数;
环境状态转换到下一环境状态
Figure 926449DEST_PATH_IMAGE070
,同时采取经验重放策略,将
Figure 124213DEST_PATH_IMAGE071
存储 到经验回放池中
Figure 796502DEST_PATH_IMAGE072
设备对设备链路
Figure 373108DEST_PATH_IMAGE073
随机的从中抽取小批量的经验进行训练,同时,设备对设备通信链 路
Figure 348018DEST_PATH_IMAGE074
可以通过最小化损失函数
Figure 157711DEST_PATH_IMAGE075
来优化Q网络和学习目标之间的误差:
Figure 243478DEST_PATH_IMAGE076
其中,
Figure 937240DEST_PATH_IMAGE077
为动作值函数,
Figure 207685DEST_PATH_IMAGE078
Figure 114461DEST_PATH_IMAGE079
分 别是设备对设备通信链路
Figure 879286DEST_PATH_IMAGE080
在时间间隙
Figure 555118DEST_PATH_IMAGE081
时的状态空间和动作空间,
Figure 996463DEST_PATH_IMAGE082
为主网络权重;
Figure 390535DEST_PATH_IMAGE083
表示目标网络的输出,
Figure 693472DEST_PATH_IMAGE084
Figure 614023DEST_PATH_IMAGE085
分别是设备对设备通信链路
Figure 101637DEST_PATH_IMAGE080
在下一个环 境状态时的状态空间和动作空间,
Figure 858371DEST_PATH_IMAGE086
为主网络权重,
Figure 89632DEST_PATH_IMAGE087
折扣贴现率;
每个训练回合在设备对设备链路做出合理的频谱子带和传输功率分配之后结束,当训练回合数达到最大时,训练停止。
8.根据权利要求7所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征 在于:环境状态
Figure 864690DEST_PATH_IMAGE088
包括:
Figure 395641DEST_PATH_IMAGE089
,
Figure 92202DEST_PATH_IMAGE090
,
Figure 127154DEST_PATH_IMAGE091
Figure 507451DEST_PATH_IMAGE092
分别是蜂窝通信链路和设备对设备通信链路
Figure 461500DEST_PATH_IMAGE093
的信道状态,
Figure 317461DEST_PATH_IMAGE094
是设备对设备通信链路
Figure 765891DEST_PATH_IMAGE095
在频谱子带
Figure 125328DEST_PATH_IMAGE027
上的接收到的干扰功率;此外, 设备对设备链路
Figure 250279DEST_PATH_IMAGE038
所获得的环境状态
Figure 203322DEST_PATH_IMAGE096
定义为:
Figure 580077DEST_PATH_IMAGE097
9.一种工业物联网频谱分配优化系统,其特征在于,包括:
第一模块:被配置为用于构造多个设备对设备通信链路的系统模型;
第二模块:被配置为用于基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;
第三模块:被配置为用于构建优化目标函数以及约束条件;
第四模块:被配置为用于将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。
CN202211388554.4A 2022-11-08 2022-11-08 一种基于深度强化学习的物联网频谱分配优化方法及系统 Active CN115442812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388554.4A CN115442812B (zh) 2022-11-08 2022-11-08 一种基于深度强化学习的物联网频谱分配优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388554.4A CN115442812B (zh) 2022-11-08 2022-11-08 一种基于深度强化学习的物联网频谱分配优化方法及系统

Publications (2)

Publication Number Publication Date
CN115442812A true CN115442812A (zh) 2022-12-06
CN115442812B CN115442812B (zh) 2023-04-07

Family

ID=84252998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388554.4A Active CN115442812B (zh) 2022-11-08 2022-11-08 一种基于深度强化学习的物联网频谱分配优化方法及系统

Country Status (1)

Country Link
CN (1) CN115442812B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117176213A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于深度预测q网络的scma码本选择和功率分配方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120213189A1 (en) * 2009-11-04 2012-08-23 Lg Electronics Inc. method for uplink transmission control and an apparatus for the same in a wireless communications system
CN106231620A (zh) * 2016-07-22 2016-12-14 哈尔滨工业大学 一种蜂窝网络中d2d通信的联合功率控制及比例公平调度的方法
CN106255133A (zh) * 2016-08-05 2016-12-21 桂林电子科技大学 一种基于全双工双向中继d2d网络的能量效率优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110166987A (zh) * 2019-04-29 2019-08-23 东南大学 一种保障蜂窝移动通信系统QoS的D2D通信能效最优化方法
CN111314894A (zh) * 2020-02-28 2020-06-19 重庆邮电大学 一种面向noma与携能d2d融合网络的鲁棒资源分配方法
CN111465108A (zh) * 2020-03-04 2020-07-28 中南林业科技大学 一种能量获取d2d异构网络中频效能效优化方法
WO2020204348A1 (ko) * 2019-03-29 2020-10-08 엘지전자 주식회사 무선 통신 시스템에서 대역폭 부분 설정 및 데이터를 송수신하는 방법 및 이에 대한 장치
CN112702719A (zh) * 2020-11-27 2021-04-23 北京工业大学 一种无人机场景下高能效d2d资源分配方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120213189A1 (en) * 2009-11-04 2012-08-23 Lg Electronics Inc. method for uplink transmission control and an apparatus for the same in a wireless communications system
CN106231620A (zh) * 2016-07-22 2016-12-14 哈尔滨工业大学 一种蜂窝网络中d2d通信的联合功率控制及比例公平调度的方法
CN106255133A (zh) * 2016-08-05 2016-12-21 桂林电子科技大学 一种基于全双工双向中继d2d网络的能量效率优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
WO2020204348A1 (ko) * 2019-03-29 2020-10-08 엘지전자 주식회사 무선 통신 시스템에서 대역폭 부분 설정 및 데이터를 송수신하는 방법 및 이에 대한 장치
CN110166987A (zh) * 2019-04-29 2019-08-23 东南大学 一种保障蜂窝移动通信系统QoS的D2D通信能效最优化方法
CN111314894A (zh) * 2020-02-28 2020-06-19 重庆邮电大学 一种面向noma与携能d2d融合网络的鲁棒资源分配方法
CN111465108A (zh) * 2020-03-04 2020-07-28 中南林业科技大学 一种能量获取d2d异构网络中频效能效优化方法
CN112702719A (zh) * 2020-11-27 2021-04-23 北京工业大学 一种无人机场景下高能效d2d资源分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RAHUL AMIN: "Balancing Spectral Efficiency, Energy Consumption, and Fairness in Future Heterogeneous Wireless Systems with Reconfigurable Devices", 《IEEE JOURNAL ON SELECTED》 *
SAMI ALENEZI: "Energy-Efficient Power Control and Resource Allocation Based on Deep Reinforcement Learning for D2D Communications in Cellular Networks", 《2021 20TH INTERNATIONAL CONFERENCE ON UBIQUITOUS COMPUTING AND COMMUNICATIONS》 *
周凡: "密集异构蜂窝网络中基于深度强化学习的资源分配算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马维鑫: "D2D通信资源高效分配算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117176213A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于深度预测q网络的scma码本选择和功率分配方法
CN117176213B (zh) * 2023-11-03 2024-01-30 中国人民解放军国防科技大学 基于深度预测q网络的scma码本选择和功率分配方法

Also Published As

Publication number Publication date
CN115442812B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Song et al. Wireless device-to-device communications and networks
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
WO2023179010A1 (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN111628855A (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN115442812B (zh) 一种基于深度强化学习的物联网频谱分配优化方法及系统
Peng et al. Energy harvesting reconfigurable intelligent surface for UAV based on robust deep reinforcement learning
CN105704721A (zh) 一种提高频谱利用率的d2d-p复用蜂窝网络通信方法
CN114698128A (zh) 一种认知星地网络的抗干扰信道选择方法和系统
Jiang et al. Dynamic user pairing and power allocation for NOMA with deep reinforcement learning
CN115412134A (zh) 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法
CN113923743B (zh) 电力地下管廊的路由选择方法、装置、终端及存储介质
Nguyen et al. Short-packet communications in multi-hop WPINs: Performance analysis and deep learning design
Cao et al. Interference-aware multi-user relay selection scheme in cooperative relay networks
CN116886154A (zh) 一种基于流量密度的低轨卫星接入方法及系统
CN116546462A (zh) 一种基于联邦学习的多智能体空地网络资源分配方法
Li et al. Dynamic multi-channel access in wireless system with deep reinforcement learning
CN116233895B (zh) 基于强化学习的5g配网节点通信优化方法、设备及介质
Mary et al. Reinforcement learning for physical layer communications
CN117614520B (zh) 基于无人机-卫星协作的去蜂窝大规模mimo资源优化方法
CN115665867B (zh) 一种车联网的频谱管理方法及系统
US12035380B2 (en) Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant