CN114980254B - 基于决斗深度循环q网络的动态多信道接入方法和装置 - Google Patents
基于决斗深度循环q网络的动态多信道接入方法和装置 Download PDFInfo
- Publication number
- CN114980254B CN114980254B CN202210923594.8A CN202210923594A CN114980254B CN 114980254 B CN114980254 B CN 114980254B CN 202210923594 A CN202210923594 A CN 202210923594A CN 114980254 B CN114980254 B CN 114980254B
- Authority
- CN
- China
- Prior art keywords
- network
- intelligent node
- evaluation
- duel
- time slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请涉及一基于决斗深度循环Q网络的动态多信道接入方法和装置。所述方法包括:构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点分时隙的多信道异构无线网络;根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。采用本方法不需要获取系统先验信息,通过与环境的不断交互来学习和预测信道状态的变化规律,从而实现智能节点合理高效的信道接入。
Description
技术领域
本申请涉及无线通信技术领域,特别是涉及一种基于决斗深度循环Q网络的动态多信道接入方法和装置。
背景技术
一方面,近年来新兴的网络类型以及不同制式网络设备的爆发式增长使得现代无线网络呈现网络异构化,频谱复杂化等诸多特征;另一方面,随着海量的无线设备接入无线网络,迅猛增长的无线业务需求同紧缺的无线频谱资源之间的矛盾日益突出。在各种异构无线网络并存的电磁空间中,频谱资源的封闭式静态管理和条块分割使用进一步加剧了这种矛盾。因此如何对频谱资源进行高效的智能化管理,在满足通信业务的服务质量(Quality of Service, QoS)要求下,提高频谱资源的利用效率,是未来无线通信亟待解决的一个难题。
动态多信道接入被认为是提高无线网络吞吐量,缓解频谱短缺问题的关键技术之一,但是在异构无线网络场景下的多信道接入面临两个严峻的挑战。第一,在异构网络中,不同网络的网络行为、接入方式各不相同,无法获取关于整个网络的系统先验信息。第二,由于获取全局的频谱状态信息需要大量的通信开销和处理成本,因此在实际网络场景中,节点通常只能获得关于网络频谱状态的局部观测信息。这使得异构无线网络中的多信道接入问题变得十分复杂。
传统的多信道接入方法,例如近视(Myopic)接入策略和惠特尔指数(Whittleindex)接入策略,都是基于模型的方法,这些方法需要获取完整的系统先验信息以建立准确系统模型,然后根据系统模型求解最优的信道接入策略。一旦系统先验信息无法获取时,这些方法的性能就会大打折扣。另外,在传统的方法中,通常都假设信道状态遵循两状态马尔可夫变化,并且需要预先知道每个信道确切的状态转移概率。而在实际系统中,准确获取每个信道的状态转移概率是十分困难的。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效的提高多信道接入成功率和网络频谱利用效率的基于决斗深度循环Q网络的动态多信道接入方法和装置。
一种基于决斗深度循环Q网络的动态多信道接入方法,所述方法包括:
构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;
根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
在其中一个实施例中,构建分时隙的多信道异构无线网络,包括:
构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
中心基站将整个频谱划分为多条正交的信道,并将信道分配给多个不同类型的无线网络;其中,每个无线网络包括不同类型的网络节点;
不同类型的网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与中心基站进行通信;
智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
在其中一个实施例中,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:
将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程;
根据部分可观测马尔可夫过程智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
在其中一个实施例中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:
根据输入层输入智能节点的状态,其中,输入层的神经元个数与智能节点的状态向量的长度一致;
根据长短时记忆网络层中的遗忘门、输入门和输出门分别对智能节点所有时隙的状态进行加权和偏置处理,得到长短时记忆网络层的输出;
根据全连接层对长短时记忆网络层的输出进行融合,得到全连接层的输出;
根据决斗层对全连接层的输出进行采样,得到决斗层的输出;
根据输出层对决斗层的输出进行汇总,输出Q值,其中,Q值包括评价Q值和目标Q值。
在其中一个实施例中,根据决斗层对全连接层的输出进行采样,得到决斗层的输出,包括:
决斗层的输出表示为
在其中一个实施例中,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值之前,还包括:
根据经验重放策略建立经验重放池,对经验重放池中进行随机采样,得到组
数据集,其中,表示每组数据集中智能节点当前时隙的状
态,表示每组数据集中智能节点当前时隙的信道接入动作,表示每组数据集中智能
节点当前时隙执行信道接入动作后获得的奖励,表示每组数据集中智能节点下一时
隙的状态;
在其中一个实施例中,根据经验重放策略建立经验重放池,包括:
在其中一个实施例中,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值,包括:
在其中一个实施例中,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:
根据评价Q值和目标Q值计算均方误差损失函数,表示为
重复迭代K次训练直至均方误差损失函数收敛时,将评价Q网络中的神经网络参数复制到目标Q网络中,得到训练好的决斗深度循环Q网络模型。
一种基于决斗深度循环Q网络的动态多信道接入装置,所述装置包括:
多信道异构无线网络构建模块,用于构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
决斗深度循环Q网络模型构建模块,用于根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
模型训练模块,用于将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
测试模块,用于将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
上述基于决斗深度循环Q网络的动态多信道接入方法和装置,通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题,智能节点在进行信道接入时不需要获取系统先验信息,只需通过与环境的不断交互来学习和预测信道状态的变化规律并进行合理的信道接入;根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,并根据网络模型中的长短时记忆网络层和决斗层分别以克服频谱状态部分可观测问题和神经网络在面对动态环境时动作采样的冗余问题,智能节点可以通过训练好的决斗深度循环Q网络模型选择合适的信道接入策略来利用空闲频谱,从而有效提高信道的接入成功率和网络频谱的利用效率。
附图说明
图1为一个实施例中基于决斗深度循环Q网络的动态多信道接入方法的流程示意图;
图2为一个实施例中分时隙的多信道异构无线网络模型示意图;
图3为一个实施例中多信道异构无线网络的复杂频谱状态示意图;
图4为一个实施例中决斗深度循环Q网络模型的结构框图;
图5为一个实施例中长短时记忆网络层的结构框图;
图6为一个实施例中决斗层的结构框图;
图7为一个实施例中复杂异构环境Ⅰ下不同接入策略的归一化吞吐量对比示意图;
图8为一个实施例中复杂异构环境Ⅱ下不同接入策略的归一化吞吐量对比示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于决斗深度循环Q网络的动态多信道接入方法,包括以下步骤:
步骤102,构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点。
可以理解,通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题,智能节点内部部署决斗深度循环Q网络(Dueling DRQN)算法,根据决斗深度循环Q网络,智能节点可以只需观察局部的频谱状态来选择合适的信道接入策略,从而有效利用空闲频谱,同时避免与其他节点发生碰撞。
步骤104,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层。
可以理解,由于智能节点不需要获取系统先验信息,只需观测到局部的频谱状态信息进行信道接入,因此可以采用部分可观测马尔可夫过程来对智能节点的信道接入问题进行建模,部分可观测马尔可夫过程通常用智能节点的动作、状态、奖励、状态转移概率来描述。
可以理解,在决斗深度循环Q网络模型中通过引入长短时记忆网络层来聚合多个时隙的历史观察信息可以克服频谱状态部分可观测问题,通过引入决斗层来减少神经网络在面对动态环境时动作采样的冗余,提高收敛速度。
步骤106,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入评价Q网络进行处理,输出目标Q值。
可以理解,评价Q网络和评价Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,评价Q网络和评价Q网络的区别仅是网络参数不同,评价Q网络输出的评价Q值可以理解为Q估计,目标Q网络输出的目标Q值可以理解为Q现实。
步骤108,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型。
可以理解,经过多次迭代训练直至损失函数收敛时,将评价Q网络的神经网络参数复制给目标Q网络,从而得到训练好的决斗深度循环Q网络模型。
步骤110,将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
可以理解,训练好的决斗深度循环Q网络模型的神经网络参数已经固定,只要收集当前时隙待接入智能节点的状态输入训练好的神经网络模型中就能输出信道接入结果,智能节点根据输出的信道接入结果进行信道接入。
上述基于决斗深度循环Q网络的动态多信道接入方法,通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题,智能节点在进行信道接入时不需要获取系统先验信息,只需通过与环境的不断交互来学习和预测信道状态的变化规律并进行合理的信道接入;根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,并根据网络模型中的长短时记忆网络层和决斗层分别以克服频谱状态部分可观测问题和神经网络在面对动态环境时动作采样的冗余采样问题,智能节点可以通过训练好的决斗深度循环Q网络模型选择合适的信道接入策略来利用空闲频谱,从而有效提高信道的接入成功率和网络频谱的利用效率。
在其中一个实施例中,构建如图2所示的分时隙的多信道异构无线网络,其中多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
中心基站将整个频谱划分为多条正交的信道,并将信道分配给多个不同类型的无线网络,中心基站可以在每个时隙的不同信道上与无线网络中的任何节点进行通信,并在时隙结束时广播一个确认字符信号 (ACKnowledge Character,ACK)用来表明本次通信是否成功;
每个无线网络中包含若干个网络节点,来自不同无线网络中的不同类型的网络节点使用不同的信道接入策略接入对应的信道,根据对应的信道与中心基站进行通信,其中不同的无线网络之间相互独立、互不干扰;
智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
具体地,来自不同无线网络中的不同类型的网络节点使用不同的信道接入策略接入对应的信道是指来自不同无线网络中的任意一个网络节点只能选择一条信道进行接入,不同网络节点的信道接入策略包括:
授权节点:固定占用一条信道,并一直与中心基站进行通信;
时分复用( Time Division Multiple Access,TDMA)节点:周期性的占用一条信道,在由Y个时隙构成的一个帧中,选择X个特定时隙中与中心基站进行通信;
跳频节点:按照固定的跳频图案动态地占用多条信道,并在当前时隙与中心基站进行通信,在一个时隙中,一个跳频节点只能占用一条信道;
q-ALOHA节点:固定占用一条信道,但在每个时隙中以q的概率与中心基站进行通信,以1-q的概率不与基站通信;
两状态马尔可夫节点:固定占用一条信道,并以两状态马尔可夫转移概率与中心基站进行通信。
可以理解,如图3所示,不同无线网络中的网络节点选择不同的信道接入策略进行信道接入造成了高度复杂、动态的频谱状态,而固定的信道分配方式又使得许多空闲频谱没有得到充分利用,因此,本发明在智能节点内部部署Dueling DRQN算法,智能节点可以只需观察局部的频谱状态来选择合适的信道接入策略,从而有效利用空闲频谱,同时避免与其他节点发生碰撞。
在其中一个实施例中,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
当智能节点选择接入的信道处于空闲状态时,本次通信成功;反之,本次通信失败;
其中,为折扣因子,且,折扣因子决定了未来的奖励相对于当前时刻
的奖励的重要性,当折扣因子趋于0时,意味着智能节点更注重当前时刻的奖励,反之,当折
扣因子趋于1时,则意味着智能节点更注重未来时刻的奖励。
在其中一个实施例中,在如图4所示包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:
根据长短时记忆网络层中的遗忘门、输入门和输出门分别对智能节点所有时隙的状态进行加权和偏置处理,得到长短时记忆网络层的输出;
根据决斗层对全连接层的输出进行采样,得到决斗层的输出;
其中、、分别是长短时记忆网络中的遗忘
门(Forget gate)、输入门(Input gate)以及输出门(Output gate),其取值在之间,
表示以一定的比例允许信息通过,长短时记忆网络层通过引入门控机制来控制信息传递的
路径,为向量元素点乘,为双曲正切函数,
为以为底的指数函数,为上一时刻的内部状态,为内部候选状态,内部候选状态
包含有新的信息,的计算方式为
在长短时记忆网络层中,遗忘门、输入门、输出门的作用分别是:遗忘门控制上一个时刻的内部状态需要遗忘多少信息,输入门控制当前时刻的候选状
态有多少信息需要保存,输出门控制当前时刻的内部状态有多少信息需要输出
给外部状态;
可以理解,在长短时记忆网络层中,内部状态能够聚合多个时刻的历史观察,
并推理和分析某些潜在的关键信息,且能将这些关键信息保存一定的时间间隔来指导智能
节点的决策,非常有利于克服频谱状态的部分可观测问题。
在其中一个实施例中,根据如图6所示的决斗层对全连接层的输出进行采样,得到决斗层的输出,包括:
决斗层由输入层、隐藏层、全连接层、V层、A层以及输出层组成;
决斗层的输出表示为
可以理解,通才决斗层的分层处理可以减少神经网络在面对动态环境时动作采样的冗余采样,提高收敛速度,从而高效准确地获取Q值。
在其中一个实施例中,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值之前,还包括:
根据经验重放策略建立经验重放池,对经验重放池中进行随机采样,得到组
数据集,其中,表示每组数据集中智能节点当前时隙的状
态,表示每组数据集中智能节点当前时隙的信道接入动作,表示每组数据集中智能
节点当前时隙执行信道接入动作后获得的奖励,表示每组数据集中智能节点下一时
隙的状态;
可以理解,经验重放池用于存放包括智能节点所有时隙的状态、动作、奖励和下一个状态的多个数据集,在每次进行决斗深度循环Q网络的训练时,通过随机抽取(minibatch)的方式进行学习,不仅可以打乱数据集之间的相关性,还可以提高学习效率。
在其中一个实施例中,根据经验重放策略建立经验重放池,包括:
在其中一个实施例中,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值,包括:
在其中一个实施例中,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:
根据评价Q值和目标Q值计算均方误差损失函数,表示为
重复迭代K次训练直至均方误差损失函数收敛时,将评价Q网络中的神经网络参数复制到目标Q网络中,得到训练好的决斗深度循环Q网络模型。
在一个具体的实施例中,决斗深度循环Q网络模型的训练过程包括以下步骤:
判断经验重放池的容量是否达到指定阈值,若达到,则进入下一步骤;若未达到,则重复上述步骤;
采用随机抽样的方式从经验重放池中随机抽取组数据集,将每组数据集中智能节点当前时隙的状态输入评价Q
网络进行处理,得到每组数据集的评价Q值,表示为,其中
为评价Q网络的神经网络参数,并将每组数据集中智能节点下一时隙的状态输入目标
Q网络获得目标Q值,其中为
目标Q网络的神经网络参数,并根据以下计算方法计算均方误差损失函数
重复迭代K次评价Q网络后,将评价Q网络中的神经网络参数复制给目标Q网络;
重复迭代上述步骤直至均方误差损失函数收敛。
可以理解,当均方误差损失函数收敛时就意味着神经网络模型训练完成,神经网络参数都已经固定,只要收集当前时隙智能节点的状态输入训练好的神经网络模型中就能输出信道接入结果,智能节点根据输出的信道接入结果进行信道接入。
为了进一步验证本发明的有益效果,在两种异构网络场景下将本发明所提方法与深度Q网络(Deep Q Network,DQN)接入策略,惠特尔指数(Whittle index)接入策略,随机接入策略(Random access)、最优接入策略(Optimal access policy)进行了横向对比,并将信道接入的性能指标定义为归一化吞吐量,归一化吞吐量为每个阶段中智能节点接入信道并成功与中心基站通信的概率,具体定义为
两种异构网络场景分别设置为:
异构场景Ⅰ:网络中总信道数为16,整个异构无线网络中包括两个授权节点、两个
TDMA节点、三个跳频节点和八个q-ALOHA节点。两个授权节点分别占用信道1和信道16,并且
一直与中心基站进行通信。两个TDMA节点分别占用信道6和信道15,其中占用信道6的TDMA
节点在个时隙构成的一个帧内传输个时隙,另一个占用信道15的TDMA节
点在个时隙构成的一个帧内传输个时隙。三个跳频节点分别动态地占用
信道2、3、4、5,并遵循跳频图案:C2C3C4C3C4C5C4C5C2C5C2C3C2C3C4,其中C代表
信道,如C2C3C4表示三个跳频节点分别占用信道2、信道3、信道4。八个q-ALOHA节点占用信
道7、8、9、10、11、12、13、14,每个q-ALOHA节点在不同信道上的传输概率依次是0.2、0.3、
0.4、0.5、0.6、0.7、0.8、0.9。
异构场景Ⅱ:网络中总信道数为16,整个异构无线网络中包括两个授权节点、两个
TDMA节点、三个跳频节点和八个两状态马尔可夫节点。两个授权节点分别占用信道1和信道
16,并且一直与中心基站进行通信。两个TDMA节点分别占用信道6和信道15,其中占用信道6
的TDMA节点在个时隙构成的一个帧内传输个时隙,另一个占用信道15的
TDMA节点在个时隙构成的一个帧内传输个时隙。三个跳频节点分别动态
地占用信道2、3、4、5,并遵循跳频图案:C2C3C4C3C4C5C4C5C2C5C2C3C2C3C4,其
中C代表信道,如C2C3C4表示三个跳频节点分别占用信道2、信道3、信道4。八个两状态马尔
可夫节点占用信道7、8、9、10、11、12、13、14,每个两状态马尔可夫节点在不同信道上的传输
概率遵循两状态马尔可夫概率转移,即
其中为第n条信道上的状态转移概率;表示已知前一时隙在第n条信道上
进行传输,当前时隙也在该信道上进行传输的概率;表示已知前一时隙在第n条信道上
进行传输,当前时隙不在该信道上进行传输的概率;表示已知前一时隙不在第n条信道
上进行传输,当前时隙在该信道上进行传输的概率;表示已知前一时隙不在第n条信道
上进行传输,这一时隙也不在该信道上进行传输的概率。
图7为五种接入策略在复杂异构环境Ⅰ下的性能比较,可以看出本发明所提方案和深度Q网络接入策略在经历几个阶段之后就能达到收敛,但是本发明所提方案的收敛速度明显快于深度Q网络接入策略,而且最终收敛性能也优于深度Q网络接入策略。这是由于本发明引入了长短时记忆网络层来聚合多个时隙的历史观察信息,并能够较准确的预测每个时隙中的空闲信道,而决斗层减少了神经网络对状态-动作对的冗余采样,可以提高算法的收敛速度。相较于惠特尔指数接入策略,本发明所提方案不需要系统先验信息,而惠特尔指数接入策略需要获取完整的系统先验信息。本发明所提方案相较于深度Q网络接入策略、惠特尔指数接入策略,随机接入策略性能提升分别为20%、45%、70%。最优接入策略指的是智能节点在获取异构无线网络所有系统信息以及整个频谱状态的前提下所能做出最佳接入,所以最优的归一化吞吐量为1。
图8为五种接入策略在复杂异构环境Ⅱ下的性能比较,可以看出本发明所提方案仍能收敛至最佳性能,收敛时归一化吞吐量为92%,性能明显优于深度Q网络接入策略、惠特尔指数接入策略和随机接入策略,性能提升分别为17%、24%、62%。而且本发明所提方案不需要系统先验信息,在整个频谱状态部分可观测的前提下,通过与环境的不断交互来学习最佳的接入策略,最终实现最优的信道接入。
综上所述,本发明提出一种基于决斗深度循环Q网络的动态多信道接入方法,通过引入长短时记忆网络层来充分利用历史观测数据,并推理频谱状态的变化规律,克服了异构无线网络中频谱状态部分可观测问题;通过引入决斗层来减少神经网络对状态-动作对的冗余采样,高效准确的估计Q值并提高所提方案的收敛速度。仿真结果表明,本发明所提方案在性能上明显优于现有技术方案,并且不需要获取系统先验信息。本发明能够适应多个不同类型网络并存的复杂异构网络场景,可以作为现在主流多信道接入方法的一种有效补充方案。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行的,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种基于决斗深度循环Q网络的动态多信道接入装置,所述装置包括:
多信道异构无线网络构建模块,用于构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
决斗深度循环Q网络模型构建模块,用于根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
模型训练模块,用于将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
测试模块,用于将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
关于基于决斗深度循环Q网络的动态多信道接入装置的具体限定可以参见上文中对于基于决斗深度循环Q网络的动态多信道接入方法的限定,在此不再赘述。上述基于决斗深度循环Q网络的动态多信道接入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于决斗深度循环Q网络的动态多信道接入方法,其特征在于,所述方法包括:
构建分时隙的多信道异构无线网络,所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值;
根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型,输出信道接入结果,所述智能节点根据所述信道接入结果进行信道接入;
所述构建分时隙的多信道异构无线网络,包括:
构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
所述中心基站将整个频谱划分为多条正交的信道,并将所述信道分配给多个不同类型的无线网络;其中,每个所述无线网络包括不同类型的网络节点;
不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与所述中心基站进行通信;
所述智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
2.根据权利要求1所述的方法,其特征在于,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:
将所述智能节点的动作、状态、奖励和状态转移概率描述为所述部分可观测马尔可夫过程;
根据所述部分可观测马尔可夫过程所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
3.根据权利要求1所述的方法,其特征在于,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:
根据所述输入层输入所述智能节点的状态,其中,所述输入层的神经元个数与所述智能节点的状态向量的长度一致;
根据所述长短时记忆网络层中的遗忘门、输入门和输出门分别对所述智能节点所有时隙的状态进行加权和偏置处理,得到所述长短时记忆网络层的输出;
根据所述全连接层对所述长短时记忆网络层的输出进行融合,得到所述全连接层的输出;
根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出;
根据所述输出层对所述决斗层的输出进行汇总,输出Q值,其中,所述Q值包括评价Q值和目标Q值。
8.根据权利要求1所述的方法,其特征在于,根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:
根据所述评价Q值和目标Q值计算均方误差损失函数,表示为
隙的状态,表示每组数据集中智能节点当前时隙的信道接入动作,表示每组数据集中智能节点当前时隙执行信道接入动作后获得的奖励,表示每组数据集中智能节点下一时隙的状态,表示评价Q值,表示目标Q值,表示数据集组数;
重复迭代K次训练直至所述均方误差损失函数收敛时,将所述评价Q网络中的神经网络参数复制到所述目标Q网络中,得到训练好的决斗深度循环Q网络模型。
9.一种基于决斗深度循环Q网络的动态多信道接入装置,其特征在于,所述装置包括:
多信道异构无线网络构建模块,用于构建分时隙的多信道异构无线网络,所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;
决斗深度循环Q网络模型构建模块,用于根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;
模型训练模块,用于将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值;根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;
测试模块,用于将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型,输出信道接入结果,所述智能节点根据所述信道接入结果进行信道接入;
所述多信道异构无线网络构建模块,还包括:
构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;
所述中心基站将整个频谱划分为多条正交的信道,并将所述信道分配给多个不同类型的无线网络;其中,每个所述无线网络包括不同类型的网络节点;
不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与所述中心基站进行通信;
所述智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210923594.8A CN114980254B (zh) | 2022-08-02 | 2022-08-02 | 基于决斗深度循环q网络的动态多信道接入方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210923594.8A CN114980254B (zh) | 2022-08-02 | 2022-08-02 | 基于决斗深度循环q网络的动态多信道接入方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114980254A CN114980254A (zh) | 2022-08-30 |
CN114980254B true CN114980254B (zh) | 2022-10-25 |
Family
ID=82969097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210923594.8A Active CN114980254B (zh) | 2022-08-02 | 2022-08-02 | 基于决斗深度循环q网络的动态多信道接入方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114980254B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN111669759A (zh) * | 2020-05-20 | 2020-09-15 | 西安交通大学 | 一种基于深度q网络的动态多信道协作感知方法 |
CN113891327A (zh) * | 2021-08-19 | 2022-01-04 | 广东工业大学 | 一种基于深度多用户drqn的动态频谱接入方法 |
CN114554497A (zh) * | 2022-03-18 | 2022-05-27 | 西安电子科技大学 | 基于lstm优化dqn网络的多约束频谱分配方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110235148B (zh) * | 2016-11-03 | 2024-03-19 | 渊慧科技有限公司 | 训练动作选择神经网络 |
CN111008449A (zh) * | 2019-04-26 | 2020-04-14 | 成都蓉奥科技有限公司 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
US11533115B2 (en) * | 2019-05-15 | 2022-12-20 | Huawei Technologies Co., Ltd. | Systems and methods for wireless signal configuration by a neural network |
CN111582441B (zh) * | 2020-04-16 | 2021-07-30 | 清华大学 | 共享循环神经网络的高效值函数迭代强化学习方法 |
-
2022
- 2022-08-02 CN CN202210923594.8A patent/CN114980254B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN111669759A (zh) * | 2020-05-20 | 2020-09-15 | 西安交通大学 | 一种基于深度q网络的动态多信道协作感知方法 |
CN113891327A (zh) * | 2021-08-19 | 2022-01-04 | 广东工业大学 | 一种基于深度多用户drqn的动态频谱接入方法 |
CN114554497A (zh) * | 2022-03-18 | 2022-05-27 | 西安电子科技大学 | 基于lstm优化dqn网络的多约束频谱分配方法 |
Non-Patent Citations (1)
Title |
---|
无线网络中基于深度强化学习的动态资源优化技术的研究;李凡;《中国优秀硕士学位论文》;20220315;I136-I144 * |
Also Published As
Publication number | Publication date |
---|---|
CN114980254A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | The application of deep reinforcement learning to distributed spectrum access in dynamic heterogeneous environments with partial observations | |
He et al. | Deep learning based energy efficiency optimization for distributed cooperative spectrum sensing | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
KR102206775B1 (ko) | 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체 | |
Wu et al. | Mobility-aware deep reinforcement learning with glimpse mobility prediction in edge computing | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN112383922A (zh) | 一种基于优先经验重放的深度强化学习频谱共享方法 | |
CN113784410B (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN114698128B (zh) | 一种认知星地网络的抗干扰信道选择方法和系统 | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
Liu et al. | Dynamic multichannel sensing in cognitive radio: Hierarchical reinforcement learning | |
Chua et al. | Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach | |
CN114885340A (zh) | 一种基于深度迁移学习的超密集无线网络功率分配方法 | |
CN114980254B (zh) | 基于决斗深度循环q网络的动态多信道接入方法和装置 | |
CN114051252A (zh) | 无线接入网中多用户智能发射功率控制方法 | |
CN113283576A (zh) | 一种基于鲸鱼算法优化lstm的频谱感知方法 | |
Ganewattha et al. | Confidence aware deep learning driven wireless resource allocation in shared spectrum bands | |
Li et al. | Dynamic multi-channel access in wireless system with deep reinforcement learning | |
Jiang et al. | Dynamic spectrum access for femtocell networks: A graph neural network based learning approach | |
CN107889115A (zh) | 基于马氏决策的机会频谱接入方法 | |
CN108736991B (zh) | 一种基于分级的群体智能频谱切换方法 | |
Moneesh et al. | Cooperative Spectrum Sensing using DQN in CRN | |
CN117715218B (zh) | 基于超图的d2d辅助超密集物联网资源管理方法及系统 | |
CN117750436B (zh) | 一种移动边缘计算场景中的安全服务迁移方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |