CN114928549A - 基于强化学习的非授权频段的通信资源分配方法及装置 - Google Patents
基于强化学习的非授权频段的通信资源分配方法及装置 Download PDFInfo
- Publication number
- CN114928549A CN114928549A CN202210416662.1A CN202210416662A CN114928549A CN 114928549 A CN114928549 A CN 114928549A CN 202210416662 A CN202210416662 A CN 202210416662A CN 114928549 A CN114928549 A CN 114928549A
- Authority
- CN
- China
- Prior art keywords
- communication system
- unauthorized user
- algorithm
- network
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 219
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000002787 reinforcement Effects 0.000 title claims abstract description 67
- 238000013468 resource allocation Methods 0.000 title claims abstract description 63
- 230000006870 function Effects 0.000 claims abstract description 105
- 238000013528 artificial neural network Methods 0.000 claims abstract description 95
- 230000009471 action Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 56
- 239000000203 mixture Substances 0.000 claims abstract description 26
- 238000005457 optimization Methods 0.000 claims abstract description 23
- 238000011478 gradient descent method Methods 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 14
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 210000002569 neuron Anatomy 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002939 conjugate gradient method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 claims description 3
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 14
- 238000013461 design Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000007613 environmental effect Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/83—Admission control; Resource allocation based on usage prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请涉及通信技术领域,特别涉及一种基于强化学习的非授权频段的通信资源分配方法及装置,其中,方法包括:根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数,并确定人工神经网络,进而更新算法;基于上述通信系统中非授权用户确定的各种目标数据,通过预设的深度强化学习算法对非授权用户进行训练,根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
Description
技术领域
本申请涉及通信技术领域,特别涉及一种基于强化学习的非授权频段的通信资源分配方法及装置。
背景技术
近年来,随着通信技术的高速发展,数据流量业务规模持续增长。但是,在通信技术大环境下的授权频段资源较为稀缺,且当前的利用率较低,难以支持多样的业务,由此导致授权频段的数据流量趋向饱和。在当前授权频段资源稀缺的困境下,非授权频段的技术可用于缓解授权频段上的负载压力,提升通信资源利用率和网络容量。
相关技术中,进行通信系统资源分配时大多应用于单个非授权用户或单一种类资源的分配,无法满足多样化通信业务需求,对于多个非授权频段通信系统的多种资源分配问题仍需解决。
发明内容
本申请提供一种基于强化学习的非授权频段的通信资源分配方法及装置,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
本申请第一方面实施例提供一种基于强化学习的非授权频段的通信资源分配方法,包括以下步骤:
根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数;
根据所述通信系统的组成结构确定人工神经网络,并根据所述人工神经网络确定网络更新算法;以及
基于所述智能体、所述行动参数、所述环境参数、所述回报函数、所述人工神经网络和网络更新算法,通过预设的深度强化学习算法对所述非授权用户进行训练,并根据训练结果确定所述通信系统和所述非授权用户的资源分配策略,以利用所述资源分配策略分配通信资源。
根据本申请的一个实施例,所述根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数,包括:
获取所述通信系统中非授权用户的通信状态,以及所述非授权用户与授权用户的碰撞状态;
获取所述非授权用户的通信信号、干扰加噪声比和所述非授权用户所占用的通信系统资源;
根据所述通信状态、所述碰撞状态、所述通信信号、所述干扰加噪声比和所述非授权用户所占用的通信系统资源确定所述非授权用户的回报函数。
根据本申请的一个实施例,所述根据所述通信系统的组成结构确定人工神经网络,包括:
将所述环境参数作为所述人工神经网络的输入,所述人工神经网络的输入层神经元数量等于环境参数数量,所述人工神经网络的输出层神经元数量等于所述行动参数中可选行动参数数量。
根据本申请的一个实施例,所述人工神经网络的隐藏层,包括:
全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。
根据本申请的一个实施例,所述人工神经网络的激活函数选择,包括:
线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。
根据本申请的一个实施例,所述网络更新算法,包括:
梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。
根据本申请的一个实施例,所述预设的深度强化学习算法,包括:
深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。
根据本申请的一个实施例,所述根据训练结果确定所述通信系统和所述非授权用户的资源分配策略,包括:
在每个时隙将所述环境参数输入至所述人工神经网络,得到输出结果;
基于所述输出结果中的最大值确定所述通信系统和所述非授权用户的资源分配策略。
根据本申请实施例的基于强化学习的非授权频段的通信资源分配方法,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数,并确定人工神经网络,进而更新算法;基于上述通信系统中非授权用户确定的各种目标数据,通过预设的深度强化学习算法对非授权用户进行训练,根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
本申请第二方面实施例提供一种基于强化学习的非授权频段的通信资源分配装置,包括:
获取模块,用于根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数;
更新模块,用于根据所述通信系统的组成结构确定人工神经网络,并根据所述人工神经网络确定网络更新算法;以及
分配模块,用于基于所述智能体、所述行动参数、所述环境参数、所述回报函数、所述人工神经网络和网络更新算法,通过预设的深度强化学习算法对所述非授权用户进行训练,并根据训练结果确定所述通信系统和所述非授权用户的资源分配策略,以利用所述资源分配策略分配通信资源。
根据本申请的一个实施例,所述获取模块,具体用于:
获取所述通信系统中非授权用户的通信状态,以及所述非授权用户与授权用户的碰撞状态;
获取所述非授权用户的通信信号、干扰加噪声比和所述非授权用户所占用的通信系统资源;
根据所述通信状态、所述碰撞状态、所述通信信号、所述干扰加噪声比和所述非授权用户所占用的通信系统资源确定所述非授权用户的回报函数。
根据本申请的一个实施例,所述更新模块,具体用于:
将所述环境参数作为所述人工神经网络的输入,所述人工神经网络的输入层神经元数量等于环境参数数量,所述人工神经网络的输出层神经元数量等于所述行动参数中可选行动参数数量。
根据本申请的一个实施例,所述人工神经网络的隐藏层,包括:
全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。
根据本申请的一个实施例,所述人工神经网络的激活函数选择,包括:
线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。
根据本申请的一个实施例,所述网络更新算法,包括:
梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。
根据本申请的一个实施例,所述预设的深度强化学习算法,包括:
深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。
根据本申请的一个实施例,所述分配模块,具体用于:
在每个时隙将所述环境参数输入至所述人工神经网络,得到输出结果;
基于所述输出结果中的最大值确定所述通信系统和所述非授权用户的资源分配策略。
根据本申请实施例的基于强化学习的非授权频段的通信资源分配装置,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数,并确定人工神经网络,进而更新算法;基于上述通信系统中非授权用户确定的各种目标数据,通过预设的深度强化学习算法对非授权用户进行训练,根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
本申请第三方面实施例提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行如上述实施例所述的基于强化学习的非授权频段的通信资源分配方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的基于强化学习的非授权频段的通信资源分配方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种基于强化学习的非授权频段的通信资源分配方法的流程图;
图2为根据本申请一个实施例提供的人工神经网络结构示意图;
图3为根据本申请一个实施例的非授权频段通信资源分配的设计装置的示例图;
图4为根据本申请一个实施例的通信系统整体结构示意图;
图5为根据本申请一个实施例的基于强化学习的非授权频段的通信资源分配方法的流程图;
图6为根据本申请另一个实施例的基于强化学习的非授权频段的通信资源分配方法的流程图;
图7为根据本申请一个实施例的基于非授权频段通信资源分配的设计装置的方框示意图;
图8为根据本申请另一个实施例的基于非授权频段通信资源分配的设计装置的方框示意图;
图9为根据本申请实施例的基于强化学习的非授权频段的通信资源分配装置的示例图;
图10为申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于强化学习的非授权频段的通信资源分配方法及装置。针对上述背景技术中心提到的单个非授权用户或单一种类资源在分配时所产生的资源消耗等问题的问题,本申请提供了一种基于强化学习的非授权频段的通信资源分配方法,在该方法中,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数,并确定人工神经网络,进而更新算法;基于上述通信系统中非授权用户确定的各种目标数据,通过预设的深度强化学习算法对非授权用户进行训练,根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
具体而言,图1为本申请实施例所提供的一种基于强化学习的非授权频段的通信资源分配方法的流程示意图。
如图1所示,该基于强化学习的非授权频段的通信资源分配方法包括以下步骤:
在步骤S101中,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数。
进一步地,在一些实施例中,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数,包括:获取通信系统中非授权用户的通信状态,以及非授权用户与授权用户的碰撞状态;获取非授权用户的通信信号、干扰加噪声比和非授权用户所占用的通信系统资源;根据通信状态、碰撞状态、通信信号、干扰加噪声比和非授权用户所占用的通信系统资源确定非授权用户的回报函数。
具体的,本申请实施例可以将非授权用户定义为智能体,将用户所要接入的信道与选取的接入功率定义为行动参数,将上一时隙各信道的占用情况或是过去一段时间内各信道的历史占用情况定义为环境参数,并分别确定强化学习所需的智能体、行动参数与环境参数。
举例而言,在环境参数中,可以将“0”表示为从未被占用,将“1”表示为始终被占用;在行动参数中,用户所要接入的信道与选取的接入功率可以看作是一种行动参数,可以理解的是,用户不接入信道也可以看作是一种行动参数,如:若通信系统中有M个信道,每个非授权用户有P种发射功率可以选择,则对于每个非授权用户而言就有M*P+1种行动,即有M个环境参数。
进一步地,本申请实施例根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数时,可以根据通信系统中非授权用户的通信状态以及碰撞状态,获取非授权用户的通信信号、干扰加噪声比(Signal to Interference plusNoise Ratio,SINR)和非授权用户所占用的通信系统资源确定非授权用户的回报函数。可以理解的是,为了满足非授权用户通信需求的同时消耗最少的通信资源,回报函数应与干扰加噪声比呈正相关,而与消耗的通信资源呈负相关。
举例而言,在非授权用户的发射功率固定时,设计的回报函数可以表示为:
而在非授权用户有多种可以选择的功率时,设计的回报函数可以表示为:
其中,C、C1、C2均为正实数,P为功率,f1和f2为单调递增函数,例如,本申请实施例可以将f1和f2定义如下:
f1(x)=log2(1+x),f2(x)=log2(x); (3)
在步骤S102中,根据通信系统的组成结构确定人工神经网络,并根据人工神经网络确定网络更新算法。
进一步地,在一些实施例中,根据通信系统的组成结构确定人工神经网络,包括:将环境参数作为人工神经网络的输入,人工神经网络的输入层神经元数量等于环境参数数量,人工神经网络的输出层神经元数量等于行动参数中可选行动参数数量。
进一步地,在一些实施例中,人工神经网络的隐藏层,包括:全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。
进一步地,在一些实施例中,人工神经网络的激活函数选择,包括:线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。
进一步地,在一些实施例中,网络更新算法,包括:梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。
可选地,在本申请实施例中,人工神经网络的隐藏层包括但不限于全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种;人工神经网络的激活函数选择包括但不限于以下任意一种或多种函数:线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数。可选地,通过人工神经网络所确定的网络更新算法主要是以梯度下降算法为基础的算法,其中,算法的选择包括但不限于以下任意一种或多种算法:梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法。
其中,需要说明的是,上述人工神经网络的模型、激活函数选择以及网络更新算法仅为示例性的,本领域技术人员可以根据实际情况,选择适合的人工神经网络模型、激活函数以及网络更新算法,在此不做具体限制。
在步骤S103中,基于智能体、行动参数、环境参数、回报函数、人工神经网络和网络更新算法,通过预设的深度强化学习算法对非授权用户进行训练,并根据训练结果确定通信系统和非授权用户的资源分配策略,以利用资源分配策略分配通信资源。
进一步地,在一些实施例中,预设的深度强化学习算法,包括:深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。
进一步地,在一些实施例中,根据训练结果确定通信系统和非授权用户的资源分配策略,包括:在每个时隙将环境参数输入至人工神经网络,得到输出结果;基于输出结果中的最大值确定通信系统和非授权用户的资源分配策略。
可选地,本申请实施例通过预设的深度强化学习算法对非授权用户进行训练,其中,预设的深度强化学习算法为基于值函数或基于策略梯度或基于搜索与监督的深度强化学习算法,主要包括:深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。
需要说明的是,在深度强化学习算法中,本领域技术人员同样可以根据实际情况,选择适合的训练算法,在此不做具体限制。
具体而言,本申请实施例可以选择使用深度Q网络与深度递归Q网络对非授权用户进行训练。可以理解的是,不同非授权用户所需要的策略可能是不同的,因此为每个非授权用户生成一个DQN(Deep Q Network,深度强化学习网络)网络。在数据产生的过程中,对于每个DQN网络,在每个时隙将将环境参数输入至人工神经网络,得到输出结果,并将网络输出中最大一项的序号作为备选行动,进而根据∈-greedy方法进行决策。例如,智能体以1-ε的概率选择作为备选行动,以ε的概率随机选取一种行动。其中,ε的数值在训练过程中逐渐变小。可以理解的是,∈-greedy方法的好处在于,使智能体在训练初期能够探索更多未知策略,从而尽可能寻找出全局最优的策略。在网络参数更新的过程中,用户将训练过程产生的数据输入网络,并根据上述网络更新算法计算新的网络参数。
进一步地,当通过预设的深度强化学习算法对非授权用户进行训练时,作为一种可实现的方式,本申请实施例可以选择通过使用固定Q目标技术用于提升训练效果。
具体而言,在使用固定Q目标技术的DQN算法中,存在目标网络和预测网络两个神经网络,分别用于计算Q值的真实值和估计值,用于计算损失函数。应当理解的是,固定Q目标的好处在于,可以在一定程度上减弱数据相关性,避免迭代过程中产生振荡,提升训练效果。
进一步地,当通过预设的深度强化学习算法对非授权用户进行训练时,作为另一种可实现的方式,本申请实施例可以选择通过使用经验回放技术用于提升训练效果。
具体而言,在使用经验回放技术的DQN算法中,训练时产生的数据会被存储于内存中,在更新神经网络参数时,智能体将内存数据打乱顺序并从中随机抽取一部分用于训练。应当理解的是,经验回放的好处在于,其会消除数据间的相关性,同时提升数据利用率和训练效率。需要说明的是,在使用深度递归Q网络时,循环神经网络的训练需要以一定长度的序列为样本,参数更新过程需要按特定时间顺序迭代计算,因此,在基于深度递归Q网络的算法中不打乱内存数据顺序。
进一步地,通过预设的深度强化学习算法对非授权用户进行训练后,本申请实施例可以根据训练结果确定通信系统和非授权用户的资源分配策略,如在每个时隙将环境参数输入至人工神经网络,得到输出结果并基于输出结果中的最大值确定通信系统和非授权用户的资源分配策略。
具体而言,非授权用户根据t时刻系统状态s(t)、神经网络输入s(t)时输出的行动a所对应的值Q(s(t),a),完成训练后非授权用户的接入策略为:
at+1=arg maxaQ(s(t),a); (4)
其中,at+1为下一时隙该用户选择的行动。
由此,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,运用深度强化学习技术,可有效解决非授权频段通信系统中频谱共享与资源分配问题,使非授权用户可以合理选取所占用的通信资源,从而有效提升通信性能,提升通信资源的利用率,具有良好的应用前景。
为使得本领域技术人员进一步了解本申请实施例的非授权频段通信系统的通信资源分配的设计方法,下面结合具体实施例进行详细说明。
如图2的(a)和图2的(b)所示,图2的(a)和图2的(b)为本申请一个实施例的人工神经网络的结构示意图,分别所展示的是全连接神经网络和含门控循环单元的神经网络两种人工神经网络结构。其中,环境参数输入网络后,经过三个隐藏层之后输出,隐藏层为全连接层或门控循环单元。其中,使用全连接层的好处在于,网络实现较为简单,训练的运算量不大;使用门控循环单元的好处在于,允许用户获取一段时间内的信息,使智能体拥有记忆能力。
进一步地,基于本申请实施例的非授权频段通信系统的通信资源分配的设计方法,如图3所示,图3为本申请一个实施例的非授权频段通信资源分配的设计装置的方框示例图,该非授权频段通信资源分配的设计装置10包括:感知模块100、网络计算模块200、数据产生模块300、内存模块400、参数更新模块500。
其中,感知模块100用于帮助非授权用户感知环境信息,获取环境参数并用于训练与决策;网络计算模块200用于根据用户的神经网络模型与输入的参数计算网络的输出结果;数据产生模块300用于在每个时隙将系统状态输入网络,将网络输出中最大一项的序号作为备选行动,根据网络输出与∈-greedy方法决策,产生训练数据;内存模块400用于保存感知模块与数据产生模块产生的数据并打乱内存中数据的顺序;参数更新模块500用于根据内存模块400中保存的数据进行训练,更新网络参数并计算新的网络参数。
进一步地,如图4所示,图4为通信系统整体结构图,展示了通信系统中各个组件的关系与各模块的功能。非授权用户通过感知模块100从环境中获取信息,通过网络计算模块200与数据产生模块300决策产生行动作用于系统。非授权用户将系统的反馈与其它信息一同保存与内存模块400,并通过参数更新模块500(中途需要调用网络计算模块200进行计算)更新用户的接入策略,完成训练过程。
综合上述理论数据的分析,下面通过两个方面的两个具体的实施例进行详细说明。
第一方面实施例1:
具体的,如图5所示,根据通信系统的组成结构与资源类型和优化目标,确定通信系统中各非授权用户的回报函数,定义强化学习中需要的智能体、行动参数与环境参数。其中,将非授权用户定义为智能体;将用户所要接入的信道定义为行动参数,其中,选择接入某一信道时,行动值为信道编号,不接入任何信道时,行动值为0;上一时隙各信道的占用情况定义为环境参数,其中“0”表示未被占用,“1”表示被占用。因此,其回报函数可表示为:
进一步地,根据通信系统的组成结构,选择三层全连接网络作为深度学习的人工神经网络结构,激活函数选用线性整流函数;根据人工神经网络结构,确定梯度下降法为网络更新算法。
根据定义的智能体、行动参数、环境参数、回报函数与采用的人工神经网络与更新算法,通过深度Q网络算法对非授权用户进行训练。训练过程中为每个非授权用户生成一个DQN网络。在数据产生的过程中,对于每个DQN网络,在每个时隙将将环境参数输入至人工神经网络,得到输出结果,并将网络输出中最大一项的序号作为备选行动,根据∈-greedy方法进行决策。同时,在训练过程中使用固定Q目标与经验回放技术提升训练效果,并在训练时打乱内存中数据顺序。
训练完成后,在每个时隙将环境参数输入训练好的网络,根据网络输出结果进行决策,执行将网络输出中最大一项对应的行动。该实施例参数列表如表1所示:
表1
第一方面实施例2:
具体的,如图6所示,在定义强化学习中需要的智能体、行动参数与环境参数时,将用户所要接入的信道与功率定义为行动参数,并列举所有可能的信道与功率的组合并进行编码。以某一功率接入信道时,行动值即为对应的编码值;不接入任何信道时,行动值为0;各信道的历史占用率定义为环境参数,其中“0”表示从未被占用,“1”表示始终被占用。因此,其回报函数可表示为:
进一步地,根据通信系统的组成结构,选择的人工神经网络结构有三个隐藏层,其中第一个隐藏层为门控循环单元,后两个隐藏层为全连接层;门控循环单元的激活函数选用双曲正切函数,全连接层的激活函数选用线性整流函数。
进一步地,根据人工神经网络结构,确定带动量的梯度下降法为网络更新算法;根据定义的智能体、行动、环境、回报函数与采用的人工神经网络与更新算法,通过深度递归Q网络算法对非授权用户进行训练。训练过程中为每个非授权用户生成一个DRQN网络。在数据产生的过程中,对每个DRQN网络,在每个时隙将将环境参数输入至人工神经网络,得到输出结果,并将网络输出中最大一项的序号作为备选行动,根据∈-greedy方法进行决策。同时,在训练过程中使用固定Q目标与经验回放技术提升训练效果,但在训练时不打乱内存中数据顺序。
训练完成后,在每个时隙将环境参数输入训练好的网络,根据网络输出结果进行决策。执行将网络输出中最大一项对应的行动,以该行动对应的功率接入该行动对应的信道。该实施例参数列表如表2所示:
表2
参数 | 参数值 |
授权用户数 | 8 |
授权用户占用频道概率 | 服从均匀分布U(0.05,0.2) |
非授权用户数 | 3 |
频道数 | 8 |
可选功率数 | 3 |
可选功率 | 1mW,10mW,100mW |
学习率 | 10^(-6) |
训练步数 | 400000 |
动量 | 0.9 |
第二方面实施例1:
如图7所示,本申请一个实施例的基于非授权频段通信资源分配的设计装置包括:
感知模块100用于帮助非授权用户感知环境信息,获取该时隙各信道的占用情况并用于决策,其中“0”表示未被占用,“1”表示被占用;网络计算模块200用于根据用户的神经网络模型与输入的参数计算网络的输出结果,其中神经网络模型为三层全连接网络,激活函数选用线性整流函数;数据产生模块300在每个时隙将系统状态输入网络,网络输出中最大一项的序号为0时,备选行动为不接入,输出中最大一项的序号不为0时,备选行动为接入该序号对应的信道,根据∈-greedy方法选择备选行动或随机行动,进行决策;内存模块400负责保存感知模块接收的信道占用情况,保存数据产生模块产生的数据,并会自动打乱内存中数据的顺序;参数更新模块500随机从内存模块400抽取数据,根据DQN算法,使用梯度下降法更新网络参数。
其中,具体实施例的相关参数同第一方面实施例1,为避免冗余,在此不做具体赘述。
第二方面实施例2:
如图8所示,本申请另一个实施例的基于非授权频段通信资源分配的设计装置包括:
感知模块100用于帮助非授权用户感知环境信息,获取该时隙各信道的占用情况,统计各信道的历史占用率并用于决策,其中“0”表示从未被占用,“1”表示一直被占用;网络计算模块200用于根据用户的神经网络模型与输入的参数计算网络的输出结果,选择的人工神经网络结构有三个隐藏层,其中第一个隐藏层为门控循环单元,后两个隐藏层为全连接层;门控循环单元的激活函数选用双曲正切函数,全连接层的激活函数选用线性整流函数;数据产生模块300在每个时隙将系统状态输入网络,网络输出中最大一项的序号为0时,备选行动为不接入,输出中最大一项的序号不为0时,备选行动为以该序号对应的功率接入该序号对应的信道,根据∈-greedy方法选择备选行动或随机行动,进行决策;内存模块400负责保存感知模块接收的信道占用情况,保存数据产生模块产生的数据;参数更新模块500随机从内存模块400抽取一段序列的数据,根据DRQN算法,使用带动量的梯度下降法更新网络参数。
其中,具体实施例的相关参数同第一方面实施例2,为避免冗余,在此不做具体赘述。
根据本申请实施例的基于强化学习的非授权频段的通信资源分配方法,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数,并确定人工神经网络,进而更新算法;基于上述通信系统中非授权用户确定的各种目标数据,通过预设的深度强化学习算法对非授权用户进行训练,根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
其次参照附图描述根据本申请实施例提出的基于强化学习的非授权频段的通信资源分配装置。
图9是本申请实施例的基于强化学习的非授权频段的通信资源分配装置的方框示意图。
如图9所示,该基于强化学习的非授权频段的通信资源分配装置20包括:获取模块201、更新模块202和分配模块203。
其中,获取模块201用于根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数;
更新模块202用于根据通信系统的组成结构确定人工神经网络,并根据人工神经网络确定网络更新算法;以及
分配模块203用于基于智能体、行动参数、环境参数、回报函数、人工神经网络和网络更新算法,通过预设的深度强化学习算法对非授权用户进行训练,并根据训练结果确定通信系统和非授权用户的资源分配策略,以利用资源分配策略分配通信资源。
进一步地,在一些实施例中,获取模块201,具体用于:
获取通信系统中非授权用户的通信状态,以及非授权用户与授权用户的碰撞状态;
获取非授权用户的通信信号、干扰加噪声比和非授权用户所占用的通信系统资源;
根据通信状态、碰撞状态、通信信号、干扰加噪声比和非授权用户所占用的通信系统资源确定非授权用户的回报函数。
进一步地,在一些实施例中,更新模块202,具体用于:
将环境参数作为人工神经网络的输入,人工神经网络的输入层神经元数量等于环境参数数量,人工神经网络的输出层神经元数量等于行动参数中可选行动参数数量。
进一步地,在一些实施例中,人工神经网络的隐藏层,包括:
全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。
进一步地,在一些实施例中,人工神经网络的激活函数选择,包括:
线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。
进一步地,在一些实施例中,网络更新算法,包括:
梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。
进一步地,在一些实施例中,预设的深度强化学习算法,包括:
深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。
进一步地,在一些实施例中,分配模块203,具体用于:
在每个时隙将环境参数输入至人工神经网络,得到输出结果;
基于输出结果中的最大值确定通信系统和非授权用户的资源分配策略。
根据本申请实施例的基于强化学习的非授权频段的通信资源分配装置,根据通信系统的组成结构与待分配资源类型和优化目标确定通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数,并确定人工神经网络,进而更新算法;基于上述通信系统中非授权用户确定的各种目标数据,通过预设的深度强化学习算法对非授权用户进行训练,根据训练结果确定通信系统和非授权用户的资源分配策略进行分配通信资源。由此,通过对通信系统的合理建模以及对人工神经网络、回报函数的合理设计,可有效解决非授权频段通信系统中频谱接入与功率控制问题,使非授权用户可以合理选取所要接入的频道以及接入功率,从而有效提升通信性能,提升通信资源的利用率。
图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行程序时实现上述实施例中提供的基于强化学习的非授权频段的通信资源分配方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上的基于强化学习的非授权频段的通信资源分配方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
Claims (10)
1.一种基于强化学习的非授权频段的通信资源分配方法,其特征在于,包括以下步骤:
根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数;
根据所述通信系统的组成结构确定人工神经网络,并根据所述人工神经网络确定网络更新算法;以及
基于所述智能体、所述行动参数、所述环境参数、所述回报函数、所述人工神经网络和网络更新算法,通过预设的深度强化学习算法对所述非授权用户进行训练,并根据训练结果确定所述通信系统和所述非授权用户的资源分配策略,以利用所述资源分配策略分配通信资源。
2.根据权利要求1所述的方法,其特征在于,所述根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数,包括:
获取所述通信系统中非授权用户的通信状态,以及所述非授权用户与授权用户的碰撞状态;
获取所述非授权用户的通信信号、干扰加噪声比和所述非授权用户所占用的通信系统资源;
根据所述通信状态、所述碰撞状态、所述通信信号、所述干扰加噪声比和所述非授权用户所占用的通信系统资源确定所述非授权用户的回报函数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述通信系统的组成结构确定人工神经网络,包括:
将所述环境参数作为所述人工神经网络的输入,所述人工神经网络的输入层神经元数量等于环境参数数量,所述人工神经网络的输出层神经元数量等于所述行动参数中可选行动参数数量。
4.根据权利要求3所述的方法,其特征在于,所述人工神经网络的隐藏层,包括:
全连接层、卷积神经网络、池化层、门控循环单元、长短时记忆网络、循环神经网络、回声状态网络中的一种或多种。
5.根据权利要求3所述的方法,其特征在于,所述人工神经网络的激活函数选择,包括:
线性整流函数、带泄露线性整流函数、带泄露随机线性整流函数、噪声线性整流函数、Sigmoid函数、双曲正切函数中的一种或多种。
6.根据权利要求1所述的方法,其特征在于,所述网络更新算法,包括:梯度下降法、批量梯度下降法、随机梯度下降法、小批量梯度下降法、动量优化法、AdaGrad算法、RMSProp算法、Adam算法、AdaDelta算法、牛顿法、拟牛顿法、共轭梯度法中的一种或多种。
7.根据权利要求1所述的方法,其特征在于,所述预设的深度强化学习算法,包括:
深度Q网络、双深度Q网络、深度递归Q网络、深度注意力递归Q网络、深度确定性策略梯度算法、多智能体深度确定性策略梯度算法、Actor-Critic算法、异步优势Actor-Critic算法中的一种或多种。
8.根据权利要求1所述的方法,其特征在于,所述根据训练结果确定所述通信系统和所述非授权用户的资源分配策略,包括:
在每个时隙将所述环境参数输入至所述人工神经网络,得到输出结果;
基于所述输出结果中的最大值确定所述通信系统和所述非授权用户的资源分配策略。
9.一种基于强化学习的非授权频段的通信资源分配装置,其特征在于,包括:
获取模块,用于根据通信系统的组成结构与待分配资源类型和优化目标确定所述通信系统中非授权用户的回报函数和强化学习所需的智能体、行动参数与环境参数;
更新模块,用于根据所述通信系统的组成结构确定人工神经网络,并根据所述人工神经网络确定网络更新算法;以及
分配模块,用于基于所述智能体、所述行动参数、所述环境参数、所述回报函数、所述人工神经网络和网络更新算法,通过预设的深度强化学习算法对所述非授权用户进行训练,并根据训练结果确定所述通信系统和所述非授权用户的资源分配策略,以利用所述资源分配策略分配通信资源。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-8任一项所述的基于强化学习的非授权频段的通信资源分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210416662.1A CN114928549A (zh) | 2022-04-20 | 2022-04-20 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210416662.1A CN114928549A (zh) | 2022-04-20 | 2022-04-20 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114928549A true CN114928549A (zh) | 2022-08-19 |
Family
ID=82806685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210416662.1A Pending CN114928549A (zh) | 2022-04-20 | 2022-04-20 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114928549A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116056090A (zh) * | 2023-03-29 | 2023-05-02 | 塔盾信息技术(上海)有限公司 | 一种基于人工智能的认知自组网通信方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102256262A (zh) * | 2011-07-14 | 2011-11-23 | 南京邮电大学 | 基于分布式独立学习的多用户动态频谱接入方法 |
WO2018133631A1 (zh) * | 2017-01-18 | 2018-07-26 | 京信通信系统(中国)有限公司 | 一种非授权频谱资源分配方法及装置 |
CN108880709A (zh) * | 2018-07-06 | 2018-11-23 | 西北工业大学 | 一种认知无线网络中分布式多用户动态频谱接入方法 |
CN109474980A (zh) * | 2018-12-14 | 2019-03-15 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109862567A (zh) * | 2019-03-28 | 2019-06-07 | 电子科技大学 | 一种蜂窝移动通信系统接入非授权频谱的方法 |
CN111726217A (zh) * | 2020-06-29 | 2020-09-29 | 中南大学 | 基于深度强化学习的宽带无线通信自主选频方法及系统 |
CN112073974A (zh) * | 2020-08-14 | 2020-12-11 | 北京大学 | 协作终端通信的非授权频谱边缘接入与抗干扰方法及装置 |
CN113163451A (zh) * | 2021-04-23 | 2021-07-23 | 中山大学 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
CN113225794A (zh) * | 2021-04-29 | 2021-08-06 | 成都中科微信息技术研究院有限公司 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
CN113316174A (zh) * | 2021-05-26 | 2021-08-27 | 重庆邮电大学 | 一种非授权频谱智能接入方法 |
CN113316154A (zh) * | 2021-05-26 | 2021-08-27 | 重庆邮电大学 | 一种授权和免授权d2d通信资源联合智能分配方法 |
CN113543065A (zh) * | 2021-05-31 | 2021-10-22 | 北京邮电大学 | 一种基于强化学习的通信资源分配方法及其相关设备 |
CN114126021A (zh) * | 2021-11-26 | 2022-03-01 | 福州大学 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
CN114363908A (zh) * | 2022-01-13 | 2022-04-15 | 重庆邮电大学 | 基于a2c的非授权频谱资源共享方法 |
-
2022
- 2022-04-20 CN CN202210416662.1A patent/CN114928549A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102256262A (zh) * | 2011-07-14 | 2011-11-23 | 南京邮电大学 | 基于分布式独立学习的多用户动态频谱接入方法 |
WO2018133631A1 (zh) * | 2017-01-18 | 2018-07-26 | 京信通信系统(中国)有限公司 | 一种非授权频谱资源分配方法及装置 |
CN108880709A (zh) * | 2018-07-06 | 2018-11-23 | 西北工业大学 | 一种认知无线网络中分布式多用户动态频谱接入方法 |
CN109474980A (zh) * | 2018-12-14 | 2019-03-15 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109862567A (zh) * | 2019-03-28 | 2019-06-07 | 电子科技大学 | 一种蜂窝移动通信系统接入非授权频谱的方法 |
CN111726217A (zh) * | 2020-06-29 | 2020-09-29 | 中南大学 | 基于深度强化学习的宽带无线通信自主选频方法及系统 |
CN112073974A (zh) * | 2020-08-14 | 2020-12-11 | 北京大学 | 协作终端通信的非授权频谱边缘接入与抗干扰方法及装置 |
CN113163451A (zh) * | 2021-04-23 | 2021-07-23 | 中山大学 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
CN113225794A (zh) * | 2021-04-29 | 2021-08-06 | 成都中科微信息技术研究院有限公司 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
CN113316174A (zh) * | 2021-05-26 | 2021-08-27 | 重庆邮电大学 | 一种非授权频谱智能接入方法 |
CN113316154A (zh) * | 2021-05-26 | 2021-08-27 | 重庆邮电大学 | 一种授权和免授权d2d通信资源联合智能分配方法 |
CN113543065A (zh) * | 2021-05-31 | 2021-10-22 | 北京邮电大学 | 一种基于强化学习的通信资源分配方法及其相关设备 |
CN114126021A (zh) * | 2021-11-26 | 2022-03-01 | 福州大学 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
CN114363908A (zh) * | 2022-01-13 | 2022-04-15 | 重庆邮电大学 | 基于a2c的非授权频谱资源共享方法 |
Non-Patent Citations (1)
Title |
---|
SIZHUANG LIU 等: "Deep Reinforcement Learning for Spectrum Sharing in Future Mobile Communication System", 2021 IEEE INTERNATIONAL SYMPOSIUM ON BROADBAND MULTIMEDIA SYSTEMS AND BROADCASTING (BMSB), pages 1 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116056090A (zh) * | 2023-03-29 | 2023-05-02 | 塔盾信息技术(上海)有限公司 | 一种基于人工智能的认知自组网通信方法 |
CN116056090B (zh) * | 2023-03-29 | 2023-06-02 | 塔盾信息技术(上海)有限公司 | 一种基于人工智能的认知自组网通信方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A survey of dynamic spectrum allocation based on reinforcement learning algorithms in cognitive radio networks | |
CN107690176B (zh) | 一种基于q学习算法的网络选择方法 | |
CN111711666B (zh) | 一种基于强化学习的车联网云计算资源优化方法 | |
CN110505644B (zh) | 用户任务卸载与资源分配联合优化方法 | |
CN110069341B (zh) | 边缘计算中结合功能按需配置的有依赖关系任务的调度方法 | |
CN109600178A (zh) | 一种边缘计算中能耗与时延和最小化的优化方法 | |
CN110233755B (zh) | 一种物联网中雾计算的计算资源和频谱资源分配方法 | |
Ko et al. | Joint client selection and bandwidth allocation algorithm for federated learning | |
CN111614754B (zh) | 面向雾计算的成本效率优化的动态自适应任务调度方法 | |
CN109803292B (zh) | 一种基于强化学习的多次级用户移动边缘计算的方法 | |
CN111262638B (zh) | 基于高效样本学习的动态频谱接入方法 | |
CN112383369A (zh) | 基于cnn-lstm网络模型的认知无线电多信道频谱感知方法 | |
CN114650228B (zh) | 一种异构网络中基于计算卸载的联邦学习调度方法 | |
CN113364859A (zh) | 车联网中面向mec的联合计算资源分配和卸载决策优化方案 | |
CN114339774A (zh) | 频谱资源共享方法、装置、电子设备及存储介质 | |
CN114928549A (zh) | 基于强化学习的非授权频段的通信资源分配方法及装置 | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
CN108307412B (zh) | 用户为中心的基于分组博弈的超密集网络干扰管理方法 | |
Huk et al. | Contextual neural-network based spectrum prediction for cognitive radio | |
CN112512070A (zh) | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 | |
CN114219074A (zh) | 一种按需动态调整的无线通信网络资源分配算法 | |
CN113630886A (zh) | 异构物联网中一种基于粒子群算法的频谱分配方法 | |
CN111158893A (zh) | 应用于雾计算网络的任务卸载方法、系统、设备及介质 | |
Zhang et al. | Prediction of spectrum based on improved RBF neural network in cognitive radio | |
Wang et al. | Adaptive channel borrowing for quality of service in wireless cellular networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |