CN114980254B - 基于决斗深度循环q网络的动态多信道接入方法和装置 - Google Patents

基于决斗深度循环q网络的动态多信道接入方法和装置 Download PDF

Info

Publication number
CN114980254B
CN114980254B CN202210923594.8A CN202210923594A CN114980254B CN 114980254 B CN114980254 B CN 114980254B CN 202210923594 A CN202210923594 A CN 202210923594A CN 114980254 B CN114980254 B CN 114980254B
Authority
CN
China
Prior art keywords
network
intelligent node
evaluation
duel
time slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210923594.8A
Other languages
English (en)
Other versions
CN114980254A (zh
Inventor
赵海涛
陈海涛
魏急波
张姣
靳增源
刘兴光
雷婵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210923594.8A priority Critical patent/CN114980254B/zh
Publication of CN114980254A publication Critical patent/CN114980254A/zh
Application granted granted Critical
Publication of CN114980254B publication Critical patent/CN114980254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请涉及一基于决斗深度循环Q网络的动态多信道接入方法和装置。所述方法包括:构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点分时隙的多信道异构无线网络;根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。采用本方法不需要获取系统先验信息,通过与环境的不断交互来学习和预测信道状态的变化规律,从而实现智能节点合理高效的信道接入。

Description

基于决斗深度循环Q网络的动态多信道接入方法和装置
技术领域
本申请涉及无线通信技术领域,特别是涉及一种基于决斗深度循环Q网络的动态多信道接入方法和装置。
背景技术
一方面,近年来新兴的网络类型以及不同制式网络设备的爆发式增长使得现代无线网络呈现网络异构化,频谱复杂化等诸多特征;另一方面,随着海量的无线设备接入无线网络,迅猛增长的无线业务需求同紧缺的无线频谱资源之间的矛盾日益突出。在各种异构无线网络并存的电磁空间中,频谱资源的封闭式静态管理和条块分割使用进一步加剧了这种矛盾。因此如何对频谱资源进行高效的智能化管理,在满足通信业务的服务质量(Quality of Service, QoS)要求下,提高频谱资源的利用效率,是未来无线通信亟待解决的一个难题。
动态多信道接入被认为是提高无线网络吞吐量,缓解频谱短缺问题的关键技术之一,但是在异构无线网络场景下的多信道接入面临两个严峻的挑战。第一,在异构网络中,不同网络的网络行为、接入方式各不相同,无法获取关于整个网络的系统先验信息。第二,由于获取全局的频谱状态信息需要大量的通信开销和处理成本,因此在实际网络场景中,节点通常只能获得关于网络频谱状态的局部观测信息。这使得异构无线网络中的多信道接入问题变得十分复杂。
传统的多信道接入方法,例如近视(Myopic)接入策略和惠特尔指数(Whittleindex)接入策略,都是基于模型的方法,这些方法需要获取完整的系统先验信息以建立准确系统模型,然后根据系统模型求解最优的信道接入策略。一旦系统先验信息无法获取时,这些方法的性能就会大打折扣。另外,在传统的方法中,通常都假设信道状态遵循两状态马尔可夫变化,并且需要预先知道每个信道确切的状态转移概率。而在实际系统中,准确获取每个信道的状态转移概率是十分困难的。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效的提高多信道接入成功率和网络频谱利用效率的基于决斗深度循环Q网络的动态多信道接入方法和装置。
一种基于决斗深度循环Q网络的动态多信道接入方法,所述方法包括:
构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;
根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
在其中一个实施例中,构建分时隙的多信道异构无线网络,包括:
构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
中心基站将整个频谱划分为多条正交的信道,并将信道分配给多个不同类型的无线网络;其中,每个无线网络包括不同类型的网络节点;
不同类型的网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与中心基站进行通信;
智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
在其中一个实施例中,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:
将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程;
根据部分可观测马尔可夫过程智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
在其中一个实施例中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:
根据输入层输入智能节点的状态,其中,输入层的神经元个数与智能节点的状态向量的长度一致;
根据长短时记忆网络层中的遗忘门、输入门和输出门分别对智能节点所有时隙的状态进行加权和偏置处理,得到长短时记忆网络层的输出;
根据全连接层对长短时记忆网络层的输出进行融合,得到全连接层的输出;
根据决斗层对全连接层的输出进行采样,得到决斗层的输出;
根据输出层对决斗层的输出进行汇总,输出Q值,其中,Q值包括评价Q值和目标Q值。
在其中一个实施例中,根据决斗层对全连接层的输出进行采样,得到决斗层的输出,包括:
决斗层的输出表示为
Figure 82882DEST_PATH_IMAGE001
其中,
Figure 3564DEST_PATH_IMAGE002
为在状态
Figure 992249DEST_PATH_IMAGE003
下采取动作
Figure 619670DEST_PATH_IMAGE004
的Q值,
Figure 40201DEST_PATH_IMAGE005
为神经网络参数,
Figure 917021DEST_PATH_IMAGE006
为执行动作
Figure 912659DEST_PATH_IMAGE007
带来的预期状态价值,
Figure 660166DEST_PATH_IMAGE008
表示在状态
Figure 528896DEST_PATH_IMAGE009
下采取动作
Figure 79964DEST_PATH_IMAGE010
的动作价值函数,
Figure 426762DEST_PATH_IMAGE011
表示在状态
Figure 746885DEST_PATH_IMAGE012
下采取其他动作
Figure 786517DEST_PATH_IMAGE013
的平均动 作价值,
Figure 575612DEST_PATH_IMAGE014
为所有动作空间,且
Figure 913053DEST_PATH_IMAGE015
在其中一个实施例中,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值之前,还包括:
根据经验重放策略建立经验重放池,对经验重放池中进行随机采样,得到
Figure 166310DEST_PATH_IMAGE016
组 数据集
Figure 580105DEST_PATH_IMAGE017
,其中,
Figure 371344DEST_PATH_IMAGE018
表示每组数据集中智能节点当前时隙的状 态,
Figure 59945DEST_PATH_IMAGE019
表示每组数据集中智能节点当前时隙的信道接入动作,
Figure 354660DEST_PATH_IMAGE020
表示每组数据集中智能 节点当前时隙执行信道接入动作
Figure 470515DEST_PATH_IMAGE021
后获得的奖励,
Figure 234203DEST_PATH_IMAGE022
表示每组数据集中智能节点下一时 隙的状态;
将每组数据集中智能节点当前时隙的状态
Figure 975763DEST_PATH_IMAGE023
输入评价Q网络进行处理,得到每组 数据的评价Q值,表示为
Figure 875717DEST_PATH_IMAGE024
,其中,
Figure 428052DEST_PATH_IMAGE025
Figure 662724DEST_PATH_IMAGE026
Figure 693128DEST_PATH_IMAGE027
的一个映射,即
Figure 509906DEST_PATH_IMAGE028
Figure 154514DEST_PATH_IMAGE029
为评价Q网络的神经网络参数。
在其中一个实施例中,根据经验重放策略建立经验重放池,包括:
将智能节点当前时隙的状态
Figure 701250DEST_PATH_IMAGE030
输入评价Q网络,输出状态
Figure 722296DEST_PATH_IMAGE031
下所有动作
Figure 659159DEST_PATH_IMAGE032
的Q值集 合
Figure 490980DEST_PATH_IMAGE033
设定探索概率为
Figure 762561DEST_PATH_IMAGE034
,通过自适应
Figure 72451DEST_PATH_IMAGE035
策略选择信道接入动作
Figure 598241DEST_PATH_IMAGE036
根据信道接入动作
Figure 115810DEST_PATH_IMAGE037
计算观测向量
Figure 625420DEST_PATH_IMAGE038
和智能节点当前时隙执行信道接入动作
Figure 988268DEST_PATH_IMAGE039
后获得的奖励
Figure 634144DEST_PATH_IMAGE040
,根据智能节点当前时隙的状态
Figure 807768DEST_PATH_IMAGE041
计算智能节点下一时隙的状态
Figure 53942DEST_PATH_IMAGE042
Figure 705634DEST_PATH_IMAGE043
Figure 206016DEST_PATH_IMAGE044
Figure 862126DEST_PATH_IMAGE045
Figure 18432DEST_PATH_IMAGE046
进行联合,得到一组数据集
Figure 801711DEST_PATH_IMAGE047
将数据集
Figure 609130DEST_PATH_IMAGE048
保存至经验重放池中,直至达到经验重放池的容量 阈值。
在其中一个实施例中,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值,包括:
将每组数据集中智能节点下一时隙的状态
Figure 186873DEST_PATH_IMAGE049
输入目标Q网络进行处理,得到目 标Q值,表示为
Figure 79743DEST_PATH_IMAGE050
,其中,
Figure 135555DEST_PATH_IMAGE051
为目标 Q网络的神经网络参数,
Figure 813792DEST_PATH_IMAGE052
为折扣因子且
Figure 14966DEST_PATH_IMAGE053
Figure 208181DEST_PATH_IMAGE054
表示每组数据集中智能节点下一 时隙的信道接入动作。
在其中一个实施例中,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:
根据评价Q值和目标Q值计算均方误差损失函数,表示为
Figure 254634DEST_PATH_IMAGE055
其中,
Figure 837976DEST_PATH_IMAGE056
为期望运算符;
根据均方误差损失函数训练决斗深度循环Q网络模型中的评价Q网络,并根据
Figure 695205DEST_PATH_IMAGE057
更新评价Q网络中的神经网络参 数,其中,
Figure 906874DEST_PATH_IMAGE058
为时隙
Figure 553756DEST_PATH_IMAGE059
时的神经网络参数,
Figure 941007DEST_PATH_IMAGE060
为时隙
Figure 31453DEST_PATH_IMAGE061
时的神经网络参数,
Figure 386211DEST_PATH_IMAGE062
为学习 率,且
Figure 790779DEST_PATH_IMAGE063
Figure 344120DEST_PATH_IMAGE064
表示对
Figure 871048DEST_PATH_IMAGE065
求梯度;
重复迭代K次训练直至均方误差损失函数收敛时,将评价Q网络中的神经网络参数复制到目标Q网络中,得到训练好的决斗深度循环Q网络模型。
一种基于决斗深度循环Q网络的动态多信道接入装置,所述装置包括:
多信道异构无线网络构建模块,用于构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
决斗深度循环Q网络模型构建模块,用于根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
模型训练模块,用于将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
测试模块,用于将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
上述基于决斗深度循环Q网络的动态多信道接入方法和装置,通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题,智能节点在进行信道接入时不需要获取系统先验信息,只需通过与环境的不断交互来学习和预测信道状态的变化规律并进行合理的信道接入;根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,并根据网络模型中的长短时记忆网络层和决斗层分别以克服频谱状态部分可观测问题和神经网络在面对动态环境时动作采样的冗余问题,智能节点可以通过训练好的决斗深度循环Q网络模型选择合适的信道接入策略来利用空闲频谱,从而有效提高信道的接入成功率和网络频谱的利用效率。
附图说明
图1为一个实施例中基于决斗深度循环Q网络的动态多信道接入方法的流程示意图;
图2为一个实施例中分时隙的多信道异构无线网络模型示意图;
图3为一个实施例中多信道异构无线网络的复杂频谱状态示意图;
图4为一个实施例中决斗深度循环Q网络模型的结构框图;
图5为一个实施例中长短时记忆网络层的结构框图;
图6为一个实施例中决斗层的结构框图;
图7为一个实施例中复杂异构环境Ⅰ下不同接入策略的归一化吞吐量对比示意图;
图8为一个实施例中复杂异构环境Ⅱ下不同接入策略的归一化吞吐量对比示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于决斗深度循环Q网络的动态多信道接入方法,包括以下步骤:
步骤102,构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点。
可以理解,通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题,智能节点内部部署决斗深度循环Q网络(Dueling DRQN)算法,根据决斗深度循环Q网络,智能节点可以只需观察局部的频谱状态来选择合适的信道接入策略,从而有效利用空闲频谱,同时避免与其他节点发生碰撞。
步骤104,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层。
可以理解,由于智能节点不需要获取系统先验信息,只需观测到局部的频谱状态信息进行信道接入,因此可以采用部分可观测马尔可夫过程来对智能节点的信道接入问题进行建模,部分可观测马尔可夫过程通常用智能节点的动作、状态、奖励、状态转移概率来描述。
可以理解,在决斗深度循环Q网络模型中通过引入长短时记忆网络层来聚合多个时隙的历史观察信息可以克服频谱状态部分可观测问题,通过引入决斗层来减少神经网络在面对动态环境时动作采样的冗余,提高收敛速度。
步骤106,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入评价Q网络进行处理,输出目标Q值。
可以理解,评价Q网络和评价Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,评价Q网络和评价Q网络的区别仅是网络参数不同,评价Q网络输出的评价Q值可以理解为Q估计,目标Q网络输出的目标Q值可以理解为Q现实。
步骤108,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型。
可以理解,经过多次迭代训练直至损失函数收敛时,将评价Q网络的神经网络参数复制给目标Q网络,从而得到训练好的决斗深度循环Q网络模型。
步骤110,将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
可以理解,训练好的决斗深度循环Q网络模型的神经网络参数已经固定,只要收集当前时隙待接入智能节点的状态输入训练好的神经网络模型中就能输出信道接入结果,智能节点根据输出的信道接入结果进行信道接入。
上述基于决斗深度循环Q网络的动态多信道接入方法,通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题,智能节点在进行信道接入时不需要获取系统先验信息,只需通过与环境的不断交互来学习和预测信道状态的变化规律并进行合理的信道接入;根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,并根据网络模型中的长短时记忆网络层和决斗层分别以克服频谱状态部分可观测问题和神经网络在面对动态环境时动作采样的冗余采样问题,智能节点可以通过训练好的决斗深度循环Q网络模型选择合适的信道接入策略来利用空闲频谱,从而有效提高信道的接入成功率和网络频谱的利用效率。
在其中一个实施例中,构建如图2所示的分时隙的多信道异构无线网络,其中多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
中心基站将整个频谱划分为多条正交的信道,并将信道分配给多个不同类型的无线网络,中心基站可以在每个时隙的不同信道上与无线网络中的任何节点进行通信,并在时隙结束时广播一个确认字符信号 (ACKnowledge Character,ACK)用来表明本次通信是否成功;
每个无线网络中包含若干个网络节点,来自不同无线网络中的不同类型的网络节点使用不同的信道接入策略接入对应的信道,根据对应的信道与中心基站进行通信,其中不同的无线网络之间相互独立、互不干扰;
智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
具体地,来自不同无线网络中的不同类型的网络节点使用不同的信道接入策略接入对应的信道是指来自不同无线网络中的任意一个网络节点只能选择一条信道进行接入,不同网络节点的信道接入策略包括:
授权节点:固定占用一条信道,并一直与中心基站进行通信;
时分复用( Time Division Multiple Access,TDMA)节点:周期性的占用一条信道,在由Y个时隙构成的一个帧中,选择X个特定时隙中与中心基站进行通信;
跳频节点:按照固定的跳频图案动态地占用多条信道,并在当前时隙与中心基站进行通信,在一个时隙中,一个跳频节点只能占用一条信道;
q-ALOHA节点:固定占用一条信道,但在每个时隙中以q的概率与中心基站进行通信,以1-q的概率不与基站通信;
两状态马尔可夫节点:固定占用一条信道,并以两状态马尔可夫转移概率与中心基站进行通信。
可以理解,如图3所示,不同无线网络中的网络节点选择不同的信道接入策略进行信道接入造成了高度复杂、动态的频谱状态,而固定的信道分配方式又使得许多空闲频谱没有得到充分利用,因此,本发明在智能节点内部部署Dueling DRQN算法,智能节点可以只需观察局部的频谱状态来选择合适的信道接入策略,从而有效利用空闲频谱,同时避免与其他节点发生碰撞。
在其中一个实施例中,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
具体地,智能节点的动作为:动作表示智能节点选择哪一条信道进行接入,在时隙t时,智能节点的动作被定义为一个长度为N的向量,即
Figure 463834DEST_PATH_IMAGE066
,其中
Figure 468830DEST_PATH_IMAGE067
所有可能动作构成了整个动作空间
Figure 814361DEST_PATH_IMAGE068
Figure 246611DEST_PATH_IMAGE069
智能节点的状态为:由于不同网络节点的接入策略各不相同,导致频谱状态在每 个时隙中都会动态地发生变化,定义在时隙
Figure 123431DEST_PATH_IMAGE070
时,整个网络的频谱状态为
Figure 119069DEST_PATH_IMAGE071
Figure 132155DEST_PATH_IMAGE072
,其中
Figure 453415DEST_PATH_IMAGE073
当智能节点执行动作
Figure 20794DEST_PATH_IMAGE074
后会得到一个观察信息
Figure 367593DEST_PATH_IMAGE075
Figure 500765DEST_PATH_IMAGE076
。例如智能节点选择第i条信道进行接入,那么有
Figure 461768DEST_PATH_IMAGE077
由于智能节点只知道它选择接入信道的信道状态,因此对于
Figure 47601DEST_PATH_IMAGE078
Figure 209809DEST_PATH_IMAGE079
的其他元 素,
Figure 384439DEST_PATH_IMAGE080
将智能节点在时隙
Figure 594971DEST_PATH_IMAGE081
时的状态定义为到当前时隙为止的过去长度为l的动作-观察 向量
Figure 136942DEST_PATH_IMAGE082
,即
Figure 340390DEST_PATH_IMAGE083
智能节点的奖励为:在时隙t时,当智能节点采取动作
Figure 651417DEST_PATH_IMAGE084
后,智能节点的状态从
Figure 954223DEST_PATH_IMAGE085
转移到
Figure 780227DEST_PATH_IMAGE086
并返回一个奖励
Figure 6940DEST_PATH_IMAGE087
Figure 703632DEST_PATH_IMAGE088
与时隙t智能体通信成功与否密切相关,即
Figure 177339DEST_PATH_IMAGE089
当智能节点选择接入的信道处于空闲状态时,本次通信成功;反之,本次通信失败;
智能节点的状态转移概率为:在时隙t时,状态转移概率被定义为智能节点采取动 作
Figure 225060DEST_PATH_IMAGE090
后,状态从
Figure 707994DEST_PATH_IMAGE091
转移到
Figure 524772DEST_PATH_IMAGE092
的概率,用
Figure 185691DEST_PATH_IMAGE093
来表示,随着智能节点与环境不断交互,
Figure 969976DEST_PATH_IMAGE094
将 通过最大化长期累计奖励逐渐收敛至最优的
Figure 741755DEST_PATH_IMAGE095
,即
Figure 944197DEST_PATH_IMAGE096
,
其中,
Figure 572755DEST_PATH_IMAGE097
为折扣因子,且
Figure 782020DEST_PATH_IMAGE098
,折扣因子决定了未来的奖励相对于当前时刻 的奖励的重要性,当折扣因子趋于0时,意味着智能节点更注重当前时刻的奖励,反之,当折 扣因子趋于1时,则意味着智能节点更注重未来时刻的奖励。
在其中一个实施例中,在如图4所示包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:
根据输入层(Input layer)输入智能节点的状态,其中,输入层的网络参数为
Figure 154227DEST_PATH_IMAGE099
,其中
Figure 945596DEST_PATH_IMAGE100
表示输入层神经元个数,并等于智能节点的状态 向量
Figure 197586DEST_PATH_IMAGE101
长度,
Figure 707196DEST_PATH_IMAGE102
表示输入层网络权重,
Figure 605795DEST_PATH_IMAGE103
表示输入层网络偏置;
根据长短时记忆网络层中的遗忘门、输入门和输出门分别对智能节点所有时隙的状态进行加权和偏置处理,得到长短时记忆网络层的输出;
根据全连接层对长短时记忆网络层的输出进行融合,得到全连接层的输出,其中, 全连接层网络参数为
Figure 438622DEST_PATH_IMAGE104
,其中
Figure 674563DEST_PATH_IMAGE105
表示全连接层神经元个数,
Figure 140310DEST_PATH_IMAGE106
表示全连接层网络权重,
Figure 306849DEST_PATH_IMAGE107
表示全连接层网络偏置;
根据决斗层对全连接层的输出进行采样,得到决斗层的输出;
根据输出层对决斗层的输出进行汇总,输出Q值,其中,Q值包括评价Q值和目标Q 值,输出层的网络参数为
Figure 72811DEST_PATH_IMAGE108
,其中
Figure 666603DEST_PATH_IMAGE109
表示输出层神经元 个数,并等于智能节点动作向量
Figure 885226DEST_PATH_IMAGE110
长度,
Figure 340610DEST_PATH_IMAGE111
表示输出层网络权重,
Figure 210345DEST_PATH_IMAGE112
表示输出层网 络偏置。
具体地,长短时记忆网络层的结构如图5所示,长短时记忆网络层中引入了一个新 的内部状态
Figure 725772DEST_PATH_IMAGE113
专门进行线性的循环信息传递,同时非线性地将输出信息传给外部状态
Figure 431691DEST_PATH_IMAGE114
, 内部状态
Figure 205611DEST_PATH_IMAGE115
和外部状态
Figure 680586DEST_PATH_IMAGE116
的计算方式为
Figure 163651DEST_PATH_IMAGE117
Figure 278238DEST_PATH_IMAGE118
其中
Figure 403320DEST_PATH_IMAGE119
Figure 185331DEST_PATH_IMAGE120
Figure 308139DEST_PATH_IMAGE121
分别是长短时记忆网络中的遗忘 门(Forget gate)、输入门(Input gate)以及输出门(Output gate),其取值在
Figure 723071DEST_PATH_IMAGE122
之间, 表示以一定的比例允许信息通过,长短时记忆网络层通过引入门控机制来控制信息传递的 路径,
Figure 369953DEST_PATH_IMAGE123
为向量元素点乘,
Figure 757203DEST_PATH_IMAGE124
为双曲正切函数,
Figure 847650DEST_PATH_IMAGE125
为以
Figure 202408DEST_PATH_IMAGE126
为底的指数函数,
Figure 606976DEST_PATH_IMAGE127
为上一时刻的内部状态,
Figure 160317DEST_PATH_IMAGE128
为内部候选状态,内部候选状态 包含有新的信息,
Figure 433384DEST_PATH_IMAGE129
的计算方式为
Figure 760591DEST_PATH_IMAGE130
其中
Figure 218117DEST_PATH_IMAGE131
Figure 642276DEST_PATH_IMAGE132
的计算权重,
Figure 808946DEST_PATH_IMAGE133
Figure 872717DEST_PATH_IMAGE134
的计算偏置,
Figure 681405DEST_PATH_IMAGE135
是上一个时刻的外部状 态;
在长短时记忆网络层中,遗忘门
Figure 694491DEST_PATH_IMAGE136
、输入门
Figure 750172DEST_PATH_IMAGE137
、输出门
Figure 51971DEST_PATH_IMAGE138
的作用分别是:遗忘门
Figure 913617DEST_PATH_IMAGE139
控制上一个时刻的内部状态
Figure 984472DEST_PATH_IMAGE140
需要遗忘多少信息,输入门
Figure 492945DEST_PATH_IMAGE141
控制当前时刻的候选状 态
Figure 796887DEST_PATH_IMAGE142
有多少信息需要保存,输出门
Figure 478536DEST_PATH_IMAGE143
控制当前时刻的内部状态
Figure 403897DEST_PATH_IMAGE144
有多少信息需要输出 给外部状态
Figure 66960DEST_PATH_IMAGE145
遗忘门
Figure 140089DEST_PATH_IMAGE146
、输入门
Figure 563112DEST_PATH_IMAGE147
、输出门
Figure 388985DEST_PATH_IMAGE148
的计算方式分别为:
Figure 504840DEST_PATH_IMAGE149
Figure 65265DEST_PATH_IMAGE150
Figure 744508DEST_PATH_IMAGE151
其中
Figure 706779DEST_PATH_IMAGE152
Figure 185079DEST_PATH_IMAGE153
Figure 216489DEST_PATH_IMAGE154
分别为遗忘门
Figure 512472DEST_PATH_IMAGE155
的计算权重和计算偏 置;
Figure 798091DEST_PATH_IMAGE156
Figure 521327DEST_PATH_IMAGE157
分别为输入门
Figure 774454DEST_PATH_IMAGE158
的计算权重和计算偏置;
Figure 139708DEST_PATH_IMAGE159
Figure 545412DEST_PATH_IMAGE160
分别为输出门
Figure 173971DEST_PATH_IMAGE161
的计算 权重和计算偏置。
可以理解,在长短时记忆网络层中,内部状态
Figure 648814DEST_PATH_IMAGE162
能够聚合多个时刻的历史观察, 并推理和分析某些潜在的关键信息,且能将这些关键信息保存一定的时间间隔来指导智能 节点的决策,非常有利于克服频谱状态的部分可观测问题。
在其中一个实施例中,根据如图6所示的决斗层对全连接层的输出进行采样,得到决斗层的输出,包括:
决斗层由输入层、隐藏层、全连接层、V层、A层以及输出层组成;
决斗层的输出表示为
Figure 224283DEST_PATH_IMAGE163
其中,
Figure 546812DEST_PATH_IMAGE164
为在状态
Figure 798801DEST_PATH_IMAGE165
下采取动作
Figure 246094DEST_PATH_IMAGE166
的Q值,
Figure 953150DEST_PATH_IMAGE167
为神经网络参数,
Figure 51556DEST_PATH_IMAGE168
为执行动作
Figure 490759DEST_PATH_IMAGE169
带来的预期状态价值,
Figure 222086DEST_PATH_IMAGE170
表示在状态
Figure 388625DEST_PATH_IMAGE171
下采取动作
Figure 154587DEST_PATH_IMAGE172
的动作价值函数,
Figure 748379DEST_PATH_IMAGE173
表示在状态
Figure 498160DEST_PATH_IMAGE174
下采取其他动作
Figure 219123DEST_PATH_IMAGE175
的平均动 作价值,
Figure 26542DEST_PATH_IMAGE176
为所有动作空间,且
Figure 616004DEST_PATH_IMAGE177
可以理解,通才决斗层的分层处理可以减少神经网络在面对动态环境时动作采样的冗余采样,提高收敛速度,从而高效准确地获取Q值。
在其中一个实施例中,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值之前,还包括:
根据经验重放策略建立经验重放池,对经验重放池中进行随机采样,得到
Figure 790764DEST_PATH_IMAGE178
组 数据集
Figure 112155DEST_PATH_IMAGE179
,其中,
Figure 570818DEST_PATH_IMAGE180
表示每组数据集中智能节点当前时隙的状 态,
Figure 257146DEST_PATH_IMAGE181
表示每组数据集中智能节点当前时隙的信道接入动作,
Figure 184782DEST_PATH_IMAGE182
表示每组数据集中智能 节点当前时隙执行信道接入动作
Figure 559131DEST_PATH_IMAGE183
后获得的奖励,
Figure 826296DEST_PATH_IMAGE184
表示每组数据集中智能节点下一时 隙的状态;
将每组数据集中智能节点当前时隙的状态
Figure 745841DEST_PATH_IMAGE185
输入评价Q网络进行处理,得到每组 数据的评价Q值,表示为
Figure 613303DEST_PATH_IMAGE186
,其中,
Figure 276497DEST_PATH_IMAGE187
Figure 913014DEST_PATH_IMAGE188
Figure 737882DEST_PATH_IMAGE189
的一个映射,即
Figure 905689DEST_PATH_IMAGE190
Figure 575836DEST_PATH_IMAGE191
为评价Q网络的神经网络参数。
可以理解,经验重放池用于存放包括智能节点所有时隙的状态、动作、奖励和下一个状态的多个数据集,在每次进行决斗深度循环Q网络的训练时,通过随机抽取(minibatch)的方式进行学习,不仅可以打乱数据集之间的相关性,还可以提高学习效率。
在其中一个实施例中,根据经验重放策略建立经验重放池,包括:
将智能节点当前时隙的状态
Figure 129177DEST_PATH_IMAGE192
输入评价Q网络,输出状态
Figure 593788DEST_PATH_IMAGE193
下所有动作
Figure 717733DEST_PATH_IMAGE194
的Q值集 合
Figure 971997DEST_PATH_IMAGE195
设定探索概率为
Figure 333839DEST_PATH_IMAGE196
,通过自适应
Figure 766088DEST_PATH_IMAGE197
策略选择信道接入动作
Figure 626597DEST_PATH_IMAGE198
根据信道接入动作
Figure 169705DEST_PATH_IMAGE199
计算观测向量
Figure 171073DEST_PATH_IMAGE200
和智能节点当前时隙执行信道接入动作
Figure 508644DEST_PATH_IMAGE201
后获得的奖励
Figure 856449DEST_PATH_IMAGE202
,根据智能节点当前时隙的状态
Figure 937669DEST_PATH_IMAGE203
计算智能节点下一时隙的状态
Figure 805262DEST_PATH_IMAGE204
Figure 579314DEST_PATH_IMAGE205
Figure 617677DEST_PATH_IMAGE206
Figure 502587DEST_PATH_IMAGE207
Figure 490266DEST_PATH_IMAGE208
进行联合,得到一组数据集
Figure 418908DEST_PATH_IMAGE209
将数据集
Figure 695299DEST_PATH_IMAGE210
保存至经验重放池中,直至达到经验重放池的容量 阈值。
在其中一个实施例中,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值,包括:
将每组数据集中智能节点下一时隙的状态
Figure 836431DEST_PATH_IMAGE211
输入目标Q网络进行处理,得到目 标Q值,表示为
Figure 944195DEST_PATH_IMAGE212
,其中,
Figure 60050DEST_PATH_IMAGE213
为目标 Q网络的神经网络参数,
Figure 354896DEST_PATH_IMAGE214
为折扣因子且
Figure 34139DEST_PATH_IMAGE215
Figure 996410DEST_PATH_IMAGE216
表示每组数据集中智能节点下一 时隙的信道接入动作。
在其中一个实施例中,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:
根据评价Q值和目标Q值计算均方误差损失函数,表示为
Figure 735696DEST_PATH_IMAGE217
其中,
Figure 783418DEST_PATH_IMAGE218
为期望运算符;
根据均方误差损失函数训练决斗深度循环Q网络模型中的评价Q网络,并根据
Figure 548242DEST_PATH_IMAGE219
更新评价Q网络中的神经网络参 数,其中,
Figure 817550DEST_PATH_IMAGE220
为时隙
Figure 540786DEST_PATH_IMAGE221
时的神经网络参数,
Figure 13487DEST_PATH_IMAGE222
为时隙
Figure 96849DEST_PATH_IMAGE223
时的神经网络参数,
Figure 514273DEST_PATH_IMAGE224
为学习 率,且
Figure 346094DEST_PATH_IMAGE225
Figure 352096DEST_PATH_IMAGE226
表示对
Figure 724303DEST_PATH_IMAGE227
求梯度;
重复迭代K次训练直至均方误差损失函数收敛时,将评价Q网络中的神经网络参数复制到目标Q网络中,得到训练好的决斗深度循环Q网络模型。
在一个具体的实施例中,决斗深度循环Q网络模型的训练过程包括以下步骤:
将智能节点当前时隙的状态
Figure 515672DEST_PATH_IMAGE228
输入评价Q网络,输出状态
Figure 783974DEST_PATH_IMAGE229
下所有动作
Figure 542851DEST_PATH_IMAGE230
Q值集合
Figure 922011DEST_PATH_IMAGE231
设定探索概率为
Figure 20417DEST_PATH_IMAGE232
,通过自适应
Figure 725199DEST_PATH_IMAGE233
策略选择信道接入动作
Figure 456526DEST_PATH_IMAGE234
,自适应
Figure 170535DEST_PATH_IMAGE235
策略表示为
Figure 654606DEST_PATH_IMAGE236
即以
Figure 795868DEST_PATH_IMAGE237
的概率随机选择动作向量,即接入的信道,或者以
Figure 748912DEST_PATH_IMAGE238
的概率选择Q值最 大(即
Figure 266612DEST_PATH_IMAGE239
)的动作向量,即接入信道,并使用以下计算方法更新 探索概率
Figure 136348DEST_PATH_IMAGE240
Figure 651774DEST_PATH_IMAGE241
其中
Figure 420010DEST_PATH_IMAGE242
Figure 6980DEST_PATH_IMAGE243
分别是探索概率的最大值和最小值,
Figure 216376DEST_PATH_IMAGE244
为衰减因子;
根据信道接入动作
Figure 218881DEST_PATH_IMAGE245
计算观测向量
Figure 864626DEST_PATH_IMAGE246
和智能节点当前时隙执行信道接入动作
Figure 661811DEST_PATH_IMAGE247
后获得的奖励
Figure 256872DEST_PATH_IMAGE248
,根据智能节点当前时隙的状态
Figure 160106DEST_PATH_IMAGE249
计算智能节点下一时隙的状态
Figure 309459DEST_PATH_IMAGE250
Figure 707073DEST_PATH_IMAGE251
Figure 156640DEST_PATH_IMAGE252
Figure 434038DEST_PATH_IMAGE253
Figure 336266DEST_PATH_IMAGE254
进行联合,得到一组数据集
Figure 537571DEST_PATH_IMAGE255
,将数据集
Figure 559754DEST_PATH_IMAGE256
保存至经验重放池中;
判断经验重放池的容量是否达到指定阈值,若达到,则进入下一步骤;若未达到,则重复上述步骤;
采用随机抽样的方式从经验重放池中随机抽取
Figure 24364DEST_PATH_IMAGE257
组数据集
Figure 210626DEST_PATH_IMAGE258
,将每组数据集中智能节点当前时隙的状态
Figure 402573DEST_PATH_IMAGE259
输入评价Q 网络进行处理,得到每组数据集的评价Q值,表示为
Figure 92311DEST_PATH_IMAGE260
,其中
Figure 993402DEST_PATH_IMAGE261
为评价Q网络的神经网络参数,并将每组数据集中智能节点下一时隙的状态
Figure 604643DEST_PATH_IMAGE262
输入目标 Q网络获得目标Q值
Figure 600281DEST_PATH_IMAGE263
,其中
Figure 613368DEST_PATH_IMAGE264
为 目标Q网络的神经网络参数,并根据以下计算方法计算均方误差损失函数
Figure 216519DEST_PATH_IMAGE265
其中,
Figure 564323DEST_PATH_IMAGE266
为期望运算符,并根据
Figure 848805DEST_PATH_IMAGE267
更新评价Q网络中的神经网络参 数,其中,
Figure 524855DEST_PATH_IMAGE268
为时隙
Figure 751437DEST_PATH_IMAGE269
时的神经网络参数,
Figure 71691DEST_PATH_IMAGE270
为时隙
Figure 425443DEST_PATH_IMAGE271
时的神经网络参数,
Figure 209859DEST_PATH_IMAGE272
为学习 率,且
Figure 607342DEST_PATH_IMAGE273
Figure 414892DEST_PATH_IMAGE274
表示对
Figure 556024DEST_PATH_IMAGE275
求梯度;
重复迭代K次评价Q网络后,将评价Q网络中的神经网络参数复制给目标Q网络;
重复迭代上述步骤直至均方误差损失函数收敛。
可以理解,当均方误差损失函数收敛时就意味着神经网络模型训练完成,神经网络参数都已经固定,只要收集当前时隙智能节点的状态输入训练好的神经网络模型中就能输出信道接入结果,智能节点根据输出的信道接入结果进行信道接入。
为了进一步验证本发明的有益效果,在两种异构网络场景下将本发明所提方法与深度Q网络(Deep Q Network,DQN)接入策略,惠特尔指数(Whittle index)接入策略,随机接入策略(Random access)、最优接入策略(Optimal access policy)进行了横向对比,并将信道接入的性能指标定义为归一化吞吐量,归一化吞吐量为每个阶段中智能节点接入信道并成功与中心基站通信的概率,具体定义为
Figure 663788DEST_PATH_IMAGE276
其中
Figure 717326DEST_PATH_IMAGE277
为智能节点在时隙t获得的奖励,L表示一个回合中的时隙总数。
两种异构网络场景分别设置为:
异构场景Ⅰ:网络中总信道数为16,整个异构无线网络中包括两个授权节点、两个 TDMA节点、三个跳频节点和八个q-ALOHA节点。两个授权节点分别占用信道1和信道16,并且 一直与中心基站进行通信。两个TDMA节点分别占用信道6和信道15,其中占用信道6的TDMA 节点在
Figure 527019DEST_PATH_IMAGE278
个时隙构成的一个帧内传输
Figure 19311DEST_PATH_IMAGE279
个时隙,另一个占用信道15的TDMA节 点在
Figure 919265DEST_PATH_IMAGE280
个时隙构成的一个帧内传输
Figure 455289DEST_PATH_IMAGE281
个时隙。三个跳频节点分别动态地占用 信道2、3、4、5,并遵循跳频图案:C2C3C4
Figure 237431DEST_PATH_IMAGE282
C3C4C5
Figure 267835DEST_PATH_IMAGE282
C4C5C2
Figure 84613DEST_PATH_IMAGE282
C5C2C3
Figure 729221DEST_PATH_IMAGE282
C2C3C4,其中C代表 信道,如C2C3C4表示三个跳频节点分别占用信道2、信道3、信道4。八个q-ALOHA节点占用信 道7、8、9、10、11、12、13、14,每个q-ALOHA节点在不同信道上的传输概率依次是0.2、0.3、 0.4、0.5、0.6、0.7、0.8、0.9。
异构场景Ⅱ:网络中总信道数为16,整个异构无线网络中包括两个授权节点、两个 TDMA节点、三个跳频节点和八个两状态马尔可夫节点。两个授权节点分别占用信道1和信道 16,并且一直与中心基站进行通信。两个TDMA节点分别占用信道6和信道15,其中占用信道6 的TDMA节点在
Figure 467501DEST_PATH_IMAGE278
个时隙构成的一个帧内传输
Figure 550863DEST_PATH_IMAGE279
个时隙,另一个占用信道15的 TDMA节点在
Figure 425409DEST_PATH_IMAGE278
个时隙构成的一个帧内传输
Figure 319547DEST_PATH_IMAGE283
个时隙。三个跳频节点分别动态 地占用信道2、3、4、5,并遵循跳频图案:C2C3C4
Figure 528812DEST_PATH_IMAGE282
C3C4C5
Figure 901018DEST_PATH_IMAGE282
C4C5C2
Figure 879339DEST_PATH_IMAGE282
C5C2C3
Figure 932659DEST_PATH_IMAGE282
C2C3C4,其 中C代表信道,如C2C3C4表示三个跳频节点分别占用信道2、信道3、信道4。八个两状态马尔 可夫节点占用信道7、8、9、10、11、12、13、14,每个两状态马尔可夫节点在不同信道上的传输 概率遵循两状态马尔可夫概率转移,即
Figure 645531DEST_PATH_IMAGE284
其中
Figure 8379DEST_PATH_IMAGE285
为第n条信道上的状态转移概率;
Figure 654256DEST_PATH_IMAGE286
表示已知前一时隙在第n条信道上 进行传输,当前时隙也在该信道上进行传输的概率;
Figure 624617DEST_PATH_IMAGE287
表示已知前一时隙在第n条信道上 进行传输,当前时隙不在该信道上进行传输的概率;
Figure 808473DEST_PATH_IMAGE288
表示已知前一时隙不在第n条信道 上进行传输,当前时隙在该信道上进行传输的概率;
Figure 53641DEST_PATH_IMAGE289
表示已知前一时隙不在第n条信道 上进行传输,这一时隙也不在该信道上进行传输的概率。
图7为五种接入策略在复杂异构环境Ⅰ下的性能比较,可以看出本发明所提方案和深度Q网络接入策略在经历几个阶段之后就能达到收敛,但是本发明所提方案的收敛速度明显快于深度Q网络接入策略,而且最终收敛性能也优于深度Q网络接入策略。这是由于本发明引入了长短时记忆网络层来聚合多个时隙的历史观察信息,并能够较准确的预测每个时隙中的空闲信道,而决斗层减少了神经网络对状态-动作对的冗余采样,可以提高算法的收敛速度。相较于惠特尔指数接入策略,本发明所提方案不需要系统先验信息,而惠特尔指数接入策略需要获取完整的系统先验信息。本发明所提方案相较于深度Q网络接入策略、惠特尔指数接入策略,随机接入策略性能提升分别为20%、45%、70%。最优接入策略指的是智能节点在获取异构无线网络所有系统信息以及整个频谱状态的前提下所能做出最佳接入,所以最优的归一化吞吐量为1。
图8为五种接入策略在复杂异构环境Ⅱ下的性能比较,可以看出本发明所提方案仍能收敛至最佳性能,收敛时归一化吞吐量为92%,性能明显优于深度Q网络接入策略、惠特尔指数接入策略和随机接入策略,性能提升分别为17%、24%、62%。而且本发明所提方案不需要系统先验信息,在整个频谱状态部分可观测的前提下,通过与环境的不断交互来学习最佳的接入策略,最终实现最优的信道接入。
综上所述,本发明提出一种基于决斗深度循环Q网络的动态多信道接入方法,通过引入长短时记忆网络层来充分利用历史观测数据,并推理频谱状态的变化规律,克服了异构无线网络中频谱状态部分可观测问题;通过引入决斗层来减少神经网络对状态-动作对的冗余采样,高效准确的估计Q值并提高所提方案的收敛速度。仿真结果表明,本发明所提方案在性能上明显优于现有技术方案,并且不需要获取系统先验信息。本发明能够适应多个不同类型网络并存的复杂异构网络场景,可以作为现在主流多信道接入方法的一种有效补充方案。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行的,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种基于决斗深度循环Q网络的动态多信道接入装置,所述装置包括:
多信道异构无线网络构建模块,用于构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
决斗深度循环Q网络模型构建模块,用于根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
模型训练模块,用于将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
测试模块,用于将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
关于基于决斗深度循环Q网络的动态多信道接入装置的具体限定可以参见上文中对于基于决斗深度循环Q网络的动态多信道接入方法的限定,在此不再赘述。上述基于决斗深度循环Q网络的动态多信道接入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于决斗深度循环Q网络的动态多信道接入方法,其特征在于,所述方法包括:
构建分时隙的多信道异构无线网络,所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值;
根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型,输出信道接入结果,所述智能节点根据所述信道接入结果进行信道接入;
所述构建分时隙的多信道异构无线网络,包括:
构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
所述中心基站将整个频谱划分为多条正交的信道,并将所述信道分配给多个不同类型的无线网络;其中,每个所述无线网络包括不同类型的网络节点;
不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与所述中心基站进行通信;
所述智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
2.根据权利要求1所述的方法,其特征在于,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:
将所述智能节点的动作、状态、奖励和状态转移概率描述为所述部分可观测马尔可夫过程;
根据所述部分可观测马尔可夫过程所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
3.根据权利要求1所述的方法,其特征在于,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:
根据所述输入层输入所述智能节点的状态,其中,所述输入层的神经元个数与所述智能节点的状态向量的长度一致;
根据所述长短时记忆网络层中的遗忘门、输入门和输出门分别对所述智能节点所有时隙的状态进行加权和偏置处理,得到所述长短时记忆网络层的输出;
根据所述全连接层对所述长短时记忆网络层的输出进行融合,得到所述全连接层的输出;
根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出;
根据所述输出层对所述决斗层的输出进行汇总,输出Q值,其中,所述Q值包括评价Q值和目标Q值。
4.根据权利要求3所述的方法,其特征在于,根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出,包括:
所述决斗层的输出表示为
Figure 770382DEST_PATH_IMAGE002
其中,
Figure 782463DEST_PATH_IMAGE004
为在状态
Figure 765462DEST_PATH_IMAGE006
下采取动作
Figure 754147DEST_PATH_IMAGE008
的Q值,
Figure 834098DEST_PATH_IMAGE010
为神经网络参数,
Figure 125402DEST_PATH_IMAGE012
为执行动作
Figure 720332DEST_PATH_IMAGE014
带来的预期状态价值,
Figure 388073DEST_PATH_IMAGE016
表示在状态
Figure 650428DEST_PATH_IMAGE018
下采取动作
Figure 112633DEST_PATH_IMAGE014
的动作价值函数,
Figure 132541DEST_PATH_IMAGE020
表示在状态
Figure 964494DEST_PATH_IMAGE018
下采取其他动作
Figure 956720DEST_PATH_IMAGE022
的平均动作价值,
Figure 714461DEST_PATH_IMAGE024
为所有动作空间,且
Figure 424928DEST_PATH_IMAGE026
5.根据权利要求1至4任意一项所述的方法,其特征在于,将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值之前,还包括:
根据经验重放策略建立经验重放池,对所述经验重放池中进行随机采样,得到
Figure 293527DEST_PATH_IMAGE028
组数据集
Figure 405839DEST_PATH_IMAGE030
,其中,
Figure 6585DEST_PATH_IMAGE032
表示每组数据集中所述智能节点当前时隙的状态,
Figure 328982DEST_PATH_IMAGE034
表示每组数据集中所述智能节点当前时隙的信道接入动作,
Figure 876638DEST_PATH_IMAGE036
表示每组数据集中所述智能节点当前时隙执行信道接入动作
Figure 469555DEST_PATH_IMAGE014
后获得的奖励,
Figure 710044DEST_PATH_IMAGE038
表示每组数据集中所述智能节点下一时隙的状态;
将每组数据集中所述智能节点当前时隙的状态
Figure 988578DEST_PATH_IMAGE032
输入评价Q网络进行处理,得到每组数据的评价Q值,表示为
Figure 339925DEST_PATH_IMAGE040
,其中,
Figure 285885DEST_PATH_IMAGE042
Figure 697274DEST_PATH_IMAGE044
Figure 400788DEST_PATH_IMAGE034
的一个映射,即
Figure 414881DEST_PATH_IMAGE046
Figure 356292DEST_PATH_IMAGE048
为所述评价Q网络的神经网络参数。
6.根据权利要求5所述的方法,其特征在于,根据经验重放策略建立经验重放池,包括:
将所述智能节点当前时隙的状态
Figure 299102DEST_PATH_IMAGE018
输入评价Q网络,输出状态
Figure 693174DEST_PATH_IMAGE018
下所有动作
Figure 510958DEST_PATH_IMAGE050
的Q值集合
Figure 41296DEST_PATH_IMAGE052
Figure 591226DEST_PATH_IMAGE054
为所有动作空间;
设定探索概率为
Figure 597228DEST_PATH_IMAGE056
,通过自适应
Figure 828490DEST_PATH_IMAGE058
策略选择所述信道接入动作
Figure 603548DEST_PATH_IMAGE060
根据所述信道接入动作
Figure 262062DEST_PATH_IMAGE060
计算观测向量
Figure 427464DEST_PATH_IMAGE062
和所述智能节点当前时隙执行信道接入动作
Figure 912734DEST_PATH_IMAGE060
后获得的奖励
Figure 683243DEST_PATH_IMAGE064
,根据所述智能节点当前时隙的状态
Figure 371714DEST_PATH_IMAGE018
计算所述智能节点下一时隙的状态
Figure 227674DEST_PATH_IMAGE066
将所述
Figure 190951DEST_PATH_IMAGE068
Figure 347126DEST_PATH_IMAGE070
Figure 613022DEST_PATH_IMAGE072
Figure 815333DEST_PATH_IMAGE074
进行联合,得到一组数据集
Figure 192088DEST_PATH_IMAGE076
将所述数据集
Figure 297710DEST_PATH_IMAGE078
保存至所述经验重放池中,直至达到所述经验重放池的容量阈值。
7.根据权利要求1所述的方法,其特征在于,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值,包括:
将每组数据集中所述智能节点下一时隙的状态
Figure 734507DEST_PATH_IMAGE080
输入所述目标Q网络进行处理,得到目标Q值,表示为
Figure 96218DEST_PATH_IMAGE082
,其中,
Figure 401298DEST_PATH_IMAGE084
为所述目标Q网络的神经网络参数,
Figure 735327DEST_PATH_IMAGE086
为折扣因子且
Figure 467660DEST_PATH_IMAGE088
Figure 254350DEST_PATH_IMAGE090
表示每组数据集中所述智能节点下一时隙的信道接入动作,
Figure 97541DEST_PATH_IMAGE092
表示每组数据集中智能节点当前时隙执行信道接入动作
Figure 551656DEST_PATH_IMAGE070
后获得的奖励,
Figure 956355DEST_PATH_IMAGE094
表示每组数据集中智能节点下一时隙的状态,
Figure 495921DEST_PATH_IMAGE096
为每组数据集中智能节点当前时隙的状态
Figure 814907DEST_PATH_IMAGE098
到每组数据集中智能节点当前时隙的信道接入动作
Figure 248162DEST_PATH_IMAGE100
的一个映射,
Figure 197664DEST_PATH_IMAGE102
为所有动作空间。
8.根据权利要求1所述的方法,其特征在于,根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:
根据所述评价Q值和目标Q值计算均方误差损失函数,表示为
Figure 818001DEST_PATH_IMAGE104
其中,
Figure 143940DEST_PATH_IMAGE106
为期望运算符,
Figure 431702DEST_PATH_IMAGE108
表示每组数据集中智能节点当前时
隙的状态,
Figure DEST_PATH_IMAGE110
表示每组数据集中智能节点当前时隙的信道接入动作,
Figure DEST_PATH_IMAGE112
表示每组数据集中智能节点当前时隙执行信道接入动作
Figure 647045DEST_PATH_IMAGE070
后获得的奖励,
Figure DEST_PATH_IMAGE114
表示每组数据集中智能节点下一时隙的状态,
Figure DEST_PATH_IMAGE116
表示评价Q值,
Figure DEST_PATH_IMAGE118
表示目标Q值,
Figure DEST_PATH_IMAGE120
表示数据集组数;
根据所述均方误差损失函数训练所述决斗深度循环Q网络模型中的评价Q网络,并根据
Figure DEST_PATH_IMAGE122
更新所述评价Q网络中的神经网络参数,其中,
Figure DEST_PATH_IMAGE124
为时隙
Figure DEST_PATH_IMAGE126
时的神经网络参数,
Figure DEST_PATH_IMAGE128
为时隙
Figure DEST_PATH_IMAGE130
时的神经网络参数,
Figure DEST_PATH_IMAGE132
为学习率,且
Figure DEST_PATH_IMAGE134
Figure DEST_PATH_IMAGE136
表示对
Figure DEST_PATH_IMAGE138
求梯度;
重复迭代K次训练直至所述均方误差损失函数收敛时,将所述评价Q网络中的神经网络参数复制到所述目标Q网络中,得到训练好的决斗深度循环Q网络模型。
9.一种基于决斗深度循环Q网络的动态多信道接入装置,其特征在于,所述装置包括:
多信道异构无线网络构建模块,用于构建分时隙的多信道异构无线网络,所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
决斗深度循环Q网络模型构建模块,用于根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
模型训练模块,用于将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值;根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
测试模块,用于将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型,输出信道接入结果,所述智能节点根据所述信道接入结果进行信道接入;
所述多信道异构无线网络构建模块,还包括:
构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
所述中心基站将整个频谱划分为多条正交的信道,并将所述信道分配给多个不同类型的无线网络;其中,每个所述无线网络包括不同类型的网络节点;
不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与所述中心基站进行通信;
所述智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
CN202210923594.8A 2022-08-02 2022-08-02 基于决斗深度循环q网络的动态多信道接入方法和装置 Active CN114980254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210923594.8A CN114980254B (zh) 2022-08-02 2022-08-02 基于决斗深度循环q网络的动态多信道接入方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210923594.8A CN114980254B (zh) 2022-08-02 2022-08-02 基于决斗深度循环q网络的动态多信道接入方法和装置

Publications (2)

Publication Number Publication Date
CN114980254A CN114980254A (zh) 2022-08-30
CN114980254B true CN114980254B (zh) 2022-10-25

Family

ID=82969097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210923594.8A Active CN114980254B (zh) 2022-08-02 2022-08-02 基于决斗深度循环q网络的动态多信道接入方法和装置

Country Status (1)

Country Link
CN (1) CN114980254B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN111669759A (zh) * 2020-05-20 2020-09-15 西安交通大学 一种基于深度q网络的动态多信道协作感知方法
CN113891327A (zh) * 2021-08-19 2022-01-04 广东工业大学 一种基于深度多用户drqn的动态频谱接入方法
CN114554497A (zh) * 2022-03-18 2022-05-27 西安电子科技大学 基于lstm优化dqn网络的多约束频谱分配方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110235148B (zh) * 2016-11-03 2024-03-19 渊慧科技有限公司 训练动作选择神经网络
CN111008449A (zh) * 2019-04-26 2020-04-14 成都蓉奥科技有限公司 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
US11533115B2 (en) * 2019-05-15 2022-12-20 Huawei Technologies Co., Ltd. Systems and methods for wireless signal configuration by a neural network
CN111582441B (zh) * 2020-04-16 2021-07-30 清华大学 共享循环神经网络的高效值函数迭代强化学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN111669759A (zh) * 2020-05-20 2020-09-15 西安交通大学 一种基于深度q网络的动态多信道协作感知方法
CN113891327A (zh) * 2021-08-19 2022-01-04 广东工业大学 一种基于深度多用户drqn的动态频谱接入方法
CN114554497A (zh) * 2022-03-18 2022-05-27 西安电子科技大学 基于lstm优化dqn网络的多约束频谱分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
无线网络中基于深度强化学习的动态资源优化技术的研究;李凡;《中国优秀硕士学位论文》;20220315;I136-I144 *

Also Published As

Publication number Publication date
CN114980254A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
Xu et al. The application of deep reinforcement learning to distributed spectrum access in dynamic heterogeneous environments with partial observations
He et al. Deep learning based energy efficiency optimization for distributed cooperative spectrum sensing
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
KR102206775B1 (ko) 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체
Wu et al. Mobility-aware deep reinforcement learning with glimpse mobility prediction in edge computing
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN113784410B (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
Liu et al. Dynamic multichannel sensing in cognitive radio: Hierarchical reinforcement learning
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN114885340A (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
CN114980254B (zh) 基于决斗深度循环q网络的动态多信道接入方法和装置
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN113283576A (zh) 一种基于鲸鱼算法优化lstm的频谱感知方法
Ganewattha et al. Confidence aware deep learning driven wireless resource allocation in shared spectrum bands
Li et al. Dynamic multi-channel access in wireless system with deep reinforcement learning
Jiang et al. Dynamic spectrum access for femtocell networks: A graph neural network based learning approach
CN107889115A (zh) 基于马氏决策的机会频谱接入方法
CN108736991B (zh) 一种基于分级的群体智能频谱切换方法
Moneesh et al. Cooperative Spectrum Sensing using DQN in CRN
CN117715218B (zh) 基于超图的d2d辅助超密集物联网资源管理方法及系统
CN117750436B (zh) 一种移动边缘计算场景中的安全服务迁移方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant