CN112822781A - 一种基于q学习的资源分配方法 - Google Patents

一种基于q学习的资源分配方法 Download PDF

Info

Publication number
CN112822781A
CN112822781A CN202110075181.4A CN202110075181A CN112822781A CN 112822781 A CN112822781 A CN 112822781A CN 202110075181 A CN202110075181 A CN 202110075181A CN 112822781 A CN112822781 A CN 112822781A
Authority
CN
China
Prior art keywords
throughput
fairness
learning
base station
noise ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110075181.4A
Other languages
English (en)
Other versions
CN112822781B (zh
Inventor
裴二荣
朱冰冰
杨光财
荆玉琪
王振民
张茹
周礼能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110075181.4A priority Critical patent/CN112822781B/zh
Publication of CN112822781A publication Critical patent/CN112822781A/zh
Application granted granted Critical
Publication of CN112822781B publication Critical patent/CN112822781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于Q学习的资源分配方法,属于通信技术领域。在该方法中,工作在免授权频谱的蜂窝小基站根据网络流量的实时情况,动态地为D2D‑U用户分配发射功率和时间资源,在保证同一频段上蜂窝用户的通信质量的条件下,使得D2D‑U系统与WiFi系统公平共存,同时最大化共存系统的吞吐量。在该方法下,蜂窝小基站充当智能体,智能体的动作定义为发射功率和免授权信道占空比的不同组合,智能体的状态由蜂窝用户的信噪比、共存系统的吞吐量和公平性的不同组合所组成。本发明能够提升用户的通信质量,提高异构系统在免授权频段上的公平性,同时获得较高的共存系统吞吐量。

Description

一种基于Q学习的资源分配方法
技术领域
本发明属于通信技术领域,涉及一种基于Q学习的资源分配方法。
背景技术
随着智能终端的快速普及,使得无线通信技术演进的需求更为迫切。为了在一定程度上缓解数据流量的增长,D2D(Device to Device)通信被提出。D2D通信是邻近通信,相比于传统的蜂窝通信的上下行传输,D2D通信不需要经过小基站而直接进行数据传输,具有邻近增益,传播时延低。此外D2D通信可以复用蜂窝系统的频谱资源,具有复用增益,有效地提升了系统的频谱效率。但是随着移动流量急速增长,授权频段资源日益紧张,再将D2D通信部署到授权频段,无疑会增加授权网络的压力。为了寻求更多的频谱资源,一些研究人员提出将D2D部署在免授权频段(D2D Communication in Unlicensed Spectrum,D2D-U),辅助授权频段进行数据传输。
考虑到5G免授权频谱段更加干净,D2D-U被建议部署在5G频段。在5G免授权频段,WiFi是主要玩家。WiFi系统是采用自适应分布式控制(Distributed CoordinationFunction,DCF)机制,该机制是带有冲突避免的载波监听多路访问机制(Carrier SensingMultiple Access with Collision Avoidance,CSMA/CA)的多址接入方式,WiFi用户在传输前需要对信道进行侦测。而在蜂窝网络中是小基站直接分配信道资源给D2D用户。从而将D2D直接部署在免授权频段,而不对接入方式做出改变会严重影响免授权频段已有WiFi系统的性能。目前D2D-U与WiFi共存的机制主要有两种:“先听后说”(Listen before Talk,LBT)机制和占空比(Duty-Cycle)机制。LBT机制采用CSMA/CA机制来避免与WiFi用户潜在的传输冲突。在Duty-Cycle机制中,两个系统之间并没有信息的交互,而是D2D-U系统根据某种特定的时分模式周期性的打开或关闭自己的数据发送,不进行数据传输的时间让出信道资源给WiFi用户使用。
免授权频段更适合短距离通信,主要有以下两点原因:1)免授权频段主要考虑5GHz,5GHz频率高,信道衰落大;2)免授权频段有发射功率限制。由于D2D通信是两个终端设备的邻近通信,发射功率低,非常适合部署在免授权频段。现有5GHz频段已部署LTE-U和WiFi系统,在其上部署D2D系统,如果没有一种合适的共存方式,会严重影响LTE-U和WiFi系统的通信质量。因此提出一种公平的资源分配机制来保证同一免授权频段上的LTE-U、D2D和WiFi系统和谐共存具有重要意义。
发明内容
鉴于此,本发明提供了基于Q学习的资源分配方法,该方法使得工作在免授权频段的小基站能够根据实时的网络流量情况,动态地为D2D用户分配发射功率和时间资源,在保证同一频段上蜂窝用户的通信质量的条件下,使得D2D-U系统与WiFi系统公平共存,同时最大化共存系统的吞吐量。在该方法下,蜂窝小基站充当智能体,智能体的动作定义为发射功率和占空比的不同组合,智能体的状态由蜂窝用户的信噪比、共存系统的吞吐量和公平性的不同组合所组成。本发明能够提升用户的通信质量,提高异构系统在免授权频段上的公平性,同时获得较高的共存系统吞吐量。
为达到上述目的,本发明提供如下技术方案:
一种基于Q学习的资源分配方法,包括以下步骤:
S1:初始化参数,如Q表、α、γ、
Figure BDA0002907228180000023
Rth、Rmin、Fth、Fmin、Pmin、Pmax
S2:设置小基站智能体的动作和状态空间;
S3:在t时刻,初始化小基站的状态st
S4:小基站根据公式定义的动作选择策略选择动作at,并执行该动作;
S5:小基站根据公式获取当前动作所对应的环境奖励值rt,并根据公式确定下一状态st+1
S6:小基站根据公式更新当前状态和动作所对应的Q值函数,并进入下一状态;
S7:直到达到目标状态,否则跳转步骤S4;
S8:t←t+1,跳转至步骤S3;
进一步,在步骤S1中,设置Q表为零矩阵,初始化学习率α、折扣率γ、蜂窝用户信噪比阈值
Figure BDA0002907228180000021
蜂窝用户信噪比最低要求
Figure BDA0002907228180000022
共存系统吞吐量阈值Rth、共存系统吞吐量最小值要求Rmin、共存系统公平性阈值Rth、共存系统公平性最小值要求Fmin、D2D用户最小发射功率要求Pmin、D2D用户最大发射功率要求Pmax
进一步,在步骤S2中,小基站的动作集合定义为D2D用户的发射功率和占空比的不同组合,at={P1,t,P2,t,…Pk,t,φt}。其中Pk,t是在t时刻智能体给D2D用户对k分配的发射功率,且Pk,t∈[Pmin,Pmax]。φt是在t时刻小基站分配给D2D-U系统的时间比例,且φt∈(0,1)。小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合,即
Figure BDA0002907228180000032
其中
Figure BDA0002907228180000033
是t时刻蜂窝用户的信噪比,Rt是t时刻是D2D-U系统与WiFi系统的总体吞吐量,定义如下所示:
Rt=φtRD2D-U(t)+(1-φt)RWiFi(t),
Ft是t时刻共存系统的公平性,定义如下所示:
Figure BDA0002907228180000031
其中φtRD2D-U(t)/K表示每个D2D-U用户的平均吞吐量,(1-φt)RWiFi(t)/N表示每个WiFi用户的平均吞吐量。根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值,可以将智能体的状态分为8种:低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性,即
Figure BDA0002907228180000041
进一步,在步骤S3中,小基站从状态集合里面首先随机选择一个状态作为初始状态。
进一步,在步骤S4中,智能体采用ε-greedy动作选择策略。ε-greedy策略基于一个概率对探索与利用进行折中:每次尝试以ε的概率进行探索,以1-ε的概率进行利用。其定义如下所示:
Figure BDA0002907228180000042
其中小基站以ε的概率随机选择动作,以1-ε的概率选择Q表中Q值最大所对应的动作。
进一步,在步骤S5中,小基站根据动作选择策略选择动作后,根据奖励函数获得环境奖励。本发明的目标是为了实现高蜂窝用户的信噪比、高共存系统的吞吐量和公平性,因此奖励函数的设置中考虑了这三个要素,其定义如下:
Figure BDA0002907228180000043
其中η、λ、μ分别表示蜂窝用户信噪比、共存系统总体吞吐量和公平性的权衡因子。
进一步,在步骤S6中,小基站在获得环境奖励后,需要更新Q值,Q值更新公式如下所示:
Figure BDA0002907228180000044
其中α是学习速率且0<α<1,它是更新Q值的速率。α值越高意味着Q值的大小将快速更新,并且需要较少的迭代学习。较低的α值将缓慢更新Q值,并需要更多的迭代来学习。γ是折扣率且0<γ<1,γ表示对未来奖励的重视程度。较高的γ值可以捕获长期有效奖励,而较低的γ值使得智能体更关注即时奖励。
进一步,在步骤S7中,小基站不断地与环境进行交互,通过选择动作直到达到高信噪比高吞吐量高公平性的目标。
本发明的有益效果在于:通过一种基于Q学习的资源分配方法,小基站能够根据不同的网络流量情况动态的为D2D-U系统分配发射功率和时间资源,提升了用户的通信质量,提高了系统容量的同时保证了用户之间的公平性。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明的D2D-U与WiFi系统共存的网络模型图;
图2为本发明的Q学习算法的过程示意图;
图3为本发明实施例的流程示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对D2D-U与WiFi在免授权频段基于公平性共存问题,提出了一种基于Q学习的资源分配方法。与传统资源分配算法相比,本发明能够根据网络流量情况动态的分配频谱资源给D2D-U系统,提高共存系统在免授权频段上的公平性,同时能够提升系统容量。
本发明模型中考虑了一个单小区多用户蜂窝网络的上行链路,包括一个小基站、一个WiFi AP、M个LTE-U用户、K对D2D用户、N个WiFi终端。将免授权频段划分若干个子信道,每个LTE-U用户占用一个子信道,LTE-U用户之间没有干扰。为了提高频谱效率,D2D-U用户复用LTE-U用户的上行信道进行直连通信,且每个D2D-U用户对只能复用一个LTE-U用户的链路,每个LTE-U用户的链路能够被多对D2D-U用户复用。在本发明中,主要关注D2D-U系统跟WiFi系统在某一个免授权信道上的共存性能,其网络模型如图1所示。
D2D-U用户和WiFi用户采用Duty-Cycle的方式共享信道,假设Duty-Cycle机制的时间周期T由10个长度为1ms的子帧组成(类似LTE标准的子帧1ms)。在本发明中,小基站作为智能体,假设WiFi AP在所有决策时刻广播其本地信息(包括即时吞吐量以及服务用户的数量)。所以,基于来自附近共存的WiFi AP所广播的即时信息,小基站总能在一定选择策略上做出合理决策。
本发明采用的Q学习算法过程如图2所示。其中小基站充当智能体,首先小基站在某个状态下根据动作选择策略选择一个动作,然后观察环境获得奖励值,接着根据Q值更新公式更新Q矩阵,并且转移到下一个状态,不断重复上述过程直至Q表实现收敛。
如图3所示,基于Q学习的资源分配算法,该方法包括以下步骤:
S1:初始化参数,如Q表、α、γ、
Figure BDA0002907228180000061
Rth、Rmin、Fth、Fmin、Pmin、Pmax
S2:设置小基站智能体的动作和状态空间;
S3:在t时刻,初始化小基站的状态st
S4:小基站根据公式定义的动作选择策略选择动作at,并执行该动作;
S5:小基站根据公式获取当前动作所对应的环境奖励值rt,并根据公式确定下一状态st+1
S6:小基站根据公式更新当前状态和动作所对应的Q值函数,并进入下一状态;
S7:直到达到目标状态,否则跳转步骤S4;
S8:t←t+1,跳转至步骤S3;
其中小基站的动作集合定义为D2D用户的发射功率和占空比的不同组合,at={P1,t,P2,t,…Pk,t,φt}。Pk,t是在t时刻智能体给D2D用户对k分配的发射功率,且Pk,t∈[Pmin,Pmax]。φt是在t时刻小基站分配给D2D-U系统的时间比例,且φt∈(0,1)。小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合,即
Figure BDA0002907228180000062
其中
Figure BDA0002907228180000063
是t时刻蜂窝用户的信噪比,Rt是t时刻是D2D-U系统与WiFi系统的总体吞吐量,定义如下所示:
Rt=φtRD2D-U(t)+(1-φt)RWiFi(t),
Ft是t时刻共存系统的公平性,定义如下所示:
Figure BDA0002907228180000071
其中φtRD2D-U(t)/K表示每个D2D-U用户的平均吞吐量,(1-φt)RWiFi(t)/N表示每个WiFi用户的平均吞吐量。根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值,可以将智能体的状态分为8种:低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性,即
Figure BDA0002907228180000072
在本发明中,小基站采用采用ε-greedy动作选择策略。ε-greedy策略基于一个概率对探索与利用进行折中:每次尝试以ε的概率进行探索,以1-ε的概率进行利用。其定义如下所示:
Figure BDA0002907228180000073
其中小基站以ε的概率随机选择动作,以1-ε的概率选择Q表中Q值最大所对应的动作。
小基站根据动作选择策略选择动作后,根据奖励函数获得环境奖励。本发明的目标是为了实现高蜂窝用户的信噪比、高共存系统的吞吐量和公平性,因此奖励函数的设置中考虑了这三个要素,其定义如下:
Figure BDA0002907228180000074
其中η、λ、μ分别表示蜂窝用户信噪比、共存系统总体吞吐量和公平性的权衡因子。
小基站在获得环境奖励后,需要更新Q值,Q值更新公式如下所示:
Figure BDA0002907228180000081
其中α是学习速率且0<α<1,它是更新Q值的速率。α值越高意味着Q值的大小将快速更新,并且需要较少的迭代学习。较低的α值将缓慢更新Q值,并需要更多的迭代来学习。γ是折扣率且0<γ<1,γ表示对未来奖励的重视程度。较高的γ值可以捕获长期有效奖励,而较低的γ值使得智能体更关注即时奖励。
小基站不断地与环境进行交互,通过选择动作直到达到高信噪比高吞吐量高公平性的目标。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (8)

1.一种基于Q学习的资源分配方法,其特征在于:该方法具体步骤如下:
S1:初始化参数,如Q表、α、γ、
Figure FDA0002907228170000011
Rth、Rmin、Fth、Fmin、Pmin、Pmax
S2:设置小基站智能体的动作和状态空间;
S3:在t时刻,初始化小基站的状态st
S4:小基站根据公式定义的动作选择策略选择动作at,并执行该动作;
S5:小基站根据公式获取当前动作所对应的环境奖励值rt,并根据公式确定下一状态st+1
S6:小基站根据公式更新当前状态和动作所对应的Q值函数,并进入下一状态;
S7:直到达到目标状态,否则跳转步骤S4;
S8:t←t+1,跳转至步骤S3。
2.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S1中,设置Q表为零矩阵,初始化学习率α、折扣率γ、蜂窝用户信噪比阈值
Figure FDA0002907228170000012
蜂窝用户信噪比最低要求
Figure FDA0002907228170000013
共存系统吞吐量阈值Rin、共存系统吞吐量最小值要求Rmin、共存系统公平性阈值Rin、共存系统公平性最小值要求Fmin、D2D用户最小发射功率要求Pmin、D2D用户最大发射功率要求Pmax
3.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S2中,小基站的动作集合定义为D2D用户的发射功率和免授权频段的占空比的不同组合,at={P1,t,P2,t,…Pk,t,φt}。其中Pk,t是在t时刻智能体给D2D用户对k分配的发射功率,且Pk,t∈[Pmin,Pmax]。φt是在t时刻小基站分配给D2D-U系统的占空比,且φt∈(0,1)。小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合,即
Figure FDA0002907228170000014
其中SNRt是t时刻蜂窝用户的信噪比,Rt是t时刻是D2D-U系统与WiFi系统的总体吞吐量,定义如下所示:
Rt=φtRD2D-U(t)+(1-φt)RWiFi(t),Ft是t时刻共存系统的公平性,定义如下所示:
Figure FDA0002907228170000021
其中φtRD2D-U(t)/K表示每个D2D-U用户的平均吞吐量,(1-φt)RWiFi(t)/N表示每个WiFi用户的平均吞吐量。根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值,可以将智能体的状态分为8种:低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性。
4.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S3中,小基站从状态集合里面首先随机选择一个状态作为初始状态。
5.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S4中,智能体采用ε-greedy动作选择策略,其定义如下所示:
Figure FDA0002907228170000022
其中小基站以ε的概率随机选择动作,以1-ε的概率选择Q表中Q值最大所对应的动作。
6.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S5中,小基站根据动作选择策略选择动作后,根据奖励函数获得环境奖励。奖励函数定义如下:
Figure FDA0002907228170000023
其中η、λ、μ分别表示蜂窝用户信噪比、共存系统总体吞吐量和公平性的权衡因子。
7.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S6中,小基站在获得环境奖励后,需要更新Q值,Q值更新公式如下所示:
Figure FDA0002907228170000031
其中α是学习速率且0<α<1,它是更新Q值的速率。α值越高意味着Q值的大小将快速更新,并且需要较少的迭代学习。较低的α值将缓慢更新Q值,并需要更多的迭代来学习。γ是折扣率且0<γ<1,γ表示对未来奖励的重视程度。较高的γ值可以捕获长期有效奖励,而较低的γ值使得智能体更关注即时奖励。
8.根据权利要求1所述的一种基于Q学习的资源分配方法,其特征在于:在步骤S7中,小基站不断地与环境进行交互,通过选择动作直到达到高信噪比高吞吐量高公平性的目标。
CN202110075181.4A 2021-01-20 2021-01-20 一种基于q学习的资源分配方法 Active CN112822781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110075181.4A CN112822781B (zh) 2021-01-20 2021-01-20 一种基于q学习的资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110075181.4A CN112822781B (zh) 2021-01-20 2021-01-20 一种基于q学习的资源分配方法

Publications (2)

Publication Number Publication Date
CN112822781A true CN112822781A (zh) 2021-05-18
CN112822781B CN112822781B (zh) 2022-04-12

Family

ID=75858688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110075181.4A Active CN112822781B (zh) 2021-01-20 2021-01-20 一种基于q学习的资源分配方法

Country Status (1)

Country Link
CN (1) CN112822781B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113316174A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种非授权频谱智能接入方法
CN113316154A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
WO2023147704A1 (en) * 2022-02-07 2023-08-10 Mediatek Singapore Pte. Ltd. Methods and apparatus for sidelink communications on unlicensed frequency bands

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108112082A (zh) * 2017-12-18 2018-06-01 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109219025A (zh) * 2018-09-28 2019-01-15 北京邮电大学 一种无线终端直连通信资源分配方法及装置
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
WO2019231289A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN110636523A (zh) * 2019-09-20 2019-12-31 中南大学 一种基于q学习的毫米波移动回程链路能量效率稳定方案
CN111065102A (zh) * 2019-12-16 2020-04-24 北京理工大学 基于q学习的免授权频谱下5g多系统共存资源分配方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108112082A (zh) * 2017-12-18 2018-06-01 北京工业大学 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
WO2019231289A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN109219025A (zh) * 2018-09-28 2019-01-15 北京邮电大学 一种无线终端直连通信资源分配方法及装置
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN110636523A (zh) * 2019-09-20 2019-12-31 中南大学 一种基于q学习的毫米波移动回程链路能量效率稳定方案
CN111065102A (zh) * 2019-12-16 2020-04-24 北京理工大学 基于q学习的免授权频谱下5g多系统共存资源分配方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ERRONG PEI: "A Chaotic Q-learning-Based Licensed Assisted Access Scheme Over the Unlicensed Spectrum", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
ERRONG PEI: "A Deep Learning based Resource Allocation Algorithm for Variable Dimensions in D2D-Enabled Cellular Networks", 《 2020 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》 *
ZHIQUN ZOU: "Deep Reinforcement Learning for D2D transmission in unlicensed bands", 《2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS》 *
ZHIQUN ZOU: "Distributed Spectrum and Power Allocation for D2D-U Networks", 《SPRINGER》 *
连传强: "面向资源分配问题的Q-CF多智能体强化学习", 《智能系统学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113316174A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种非授权频谱智能接入方法
CN113316154A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
CN113316174B (zh) * 2021-05-26 2022-07-08 重庆邮电大学 一种非授权频谱智能接入方法
CN114363938A (zh) * 2021-12-21 2022-04-15 重庆邮电大学 一种蜂窝网络流量卸载方法
CN114363938B (zh) * 2021-12-21 2024-01-26 深圳千通科技有限公司 一种蜂窝网络流量卸载方法
WO2023147704A1 (en) * 2022-02-07 2023-08-10 Mediatek Singapore Pte. Ltd. Methods and apparatus for sidelink communications on unlicensed frequency bands

Also Published As

Publication number Publication date
CN112822781B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN112822781B (zh) 一种基于q学习的资源分配方法
Afaqui et al. IEEE 802.11 ax: Challenges and requirements for future high efficiency WiFi
US11711857B2 (en) Orthogonal frequency division multiple access communication apparatus and communication method
JP6896712B2 (ja) 共有通信媒体上での共存のためのチャネル構成
Soua et al. Multichannel assignment protocols in wireless sensor networks: A comprehensive survey
Abichar et al. WiMAX: The emergence of wireless broadband
US8326309B2 (en) Resource allocation in co-existence mode
JP2021185682A (ja) 協調された帯域および非協調の帯域におけるnr−ss統一動作モードのための方法および装置
KR20180045016A (ko) 공유 통신 매체 상에서의 공존을 위한 액세스 단말 간 비차단 및 향상된 경합
CN107580327B (zh) 基于最佳频段选择的认知无线网络吞吐量优化方法
Pyo et al. Throughput analysis and improvement of hybrid multiple access in IEEE 802.15. 3c mm-wave WPAN
EP2433465A2 (en) Apparatus and methods for multi-radio coordination of heterogeneous wireless networks
Leng et al. Medium access control in vehicular ad hoc networks
Damayanti et al. Collision chain mitigation and hidden device-aware grouping in large-scale IEEE 802.11 ah networks
EP2104391B1 (en) A transceiver apparatus and a method for transceiving data packets in a mobile communication network
Salameh et al. Opportunistic medium access control for maximizing packet delivery rate in dynamic access networks
Xu et al. Effective labeled time slots based D2D transmission in cellular downlink spectrums
Zhang et al. An OFDMA-based joint reservation and cooperation MAC protocol for the next generation WLAN
Xing et al. Adaptive spectrum sharing of LTE co-existing with WLAN in unlicensed frequency bands
Kaleem et al. Full-duplex enabled time-efficient device discovery for public safety communications
Ahn et al. Full-duplex MAC protocol using buffer status reports during unused uplink periods in WLAN
Pei et al. A Q-learning based Resource Allocation Algorithm for D2D-Unlicensed communications
Haider et al. Enhanced LBT mechanism for LTE-Unlicensed using reinforcement learning
Kiran et al. Wi-Fi and LTE Coexistence in Unlicensed Spectrum
EP4191935A1 (en) Communication apparatus and communication method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant