CN107493195B - 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 - Google Patents

一种小小区动态时分双工结合q学习的上下行子帧的配置方法 Download PDF

Info

Publication number
CN107493195B
CN107493195B CN201710733069.9A CN201710733069A CN107493195B CN 107493195 B CN107493195 B CN 107493195B CN 201710733069 A CN201710733069 A CN 201710733069A CN 107493195 B CN107493195 B CN 107493195B
Authority
CN
China
Prior art keywords
small cell
state
function
action
system model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710733069.9A
Other languages
English (en)
Other versions
CN107493195A (zh
Inventor
赵峰
刘博�
陈宏滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201710733069.9A priority Critical patent/CN107493195B/zh
Publication of CN107493195A publication Critical patent/CN107493195A/zh
Application granted granted Critical
Publication of CN107493195B publication Critical patent/CN107493195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/14Two-way operation using the same type of signal, i.e. duplex
    • H04L5/1469Two-way operation using the same type of signal, i.e. duplex using time-sharing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型;2)定义系统模型的状态转移函数P和回报函数R;3)设置上下行子帧重配置周期;4)配置单位周期内小小区上下行子帧;5)构造系统模型目标函数;6)优化目标函数。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。

Description

一种小小区动态时分双工结合Q学习的上下行子帧的配置 方法
技术领域
本发明涉及无线通信技术领域,具体是一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。
背景技术
小小区网络技术被认为是一种解决当前移动数据流量爆炸式增长的通信技术手段之一,也是移动通信技术演进及下一代移动通信网络的关键技术之一。但由于小小区网络所服务的移动终端较少,移动终端在小区间的切换较为频繁,导致了小小区网络中数据业务的变化难以计算,上下行业务量很难维持在一个相对比较稳定的比例,因此,传统宏蜂窝小区里的半静态子帧重配置将无法使用,不能满足不同移动终端的业务量需求,造成频谱资源的巨大浪费。如何使小小区网络能够及时有效地调整其子帧配置成为当前急需解决的问题。动态时分双工技术为克服这一问题提供了很好的方向,动态时分双工作为当前热门的移动通信技术,其特点为不需要成对的频率、能使用各种频率资源、适用于不对称的上下行数据传输速率,能明显的表现出频谱资源丰富的优势。
发明内容
本发明的目的是针对现有技术的不足,而提供一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。
实现本发明目的的技术方案是:
一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在这种系统模型场景中,宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计,为实际应用提供了可能性,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,即一部分小小区处于下行阶段,另一部分小小区处于上行阶段,因此,在这种系统场景下,小小区网络之间不需要保持同步,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合,S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合 A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t), R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),在系统模型中,小小区网络的任务是学习从环境状态到动作状态的对应,从而获得最佳的回报函数,小小区网络根据其连接的移动终端所反馈的上下行缓存中待传总比特数量,调整子帧的配置方案,每个回报函数的下标表示在固定周期内,小小区网络根据选择的动作动态配置子帧所产生的回报信号,系统中采用的动作模型为无限范围模型,即折扣回报模型或动作序列无限模型,回报函数R (t)表示为公式(1):
Figure GDA0002649526690000021
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0<γ<1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程,通过动态规划的方法解决,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用 At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数 Ptt+1(at)表示为公式(2):Ptt+1(at) = Pr(Xt+1 = st+1|Xt = st,a (t) = at)(2) ;
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作, Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms,越短的重配置周期具有较强适应动态变化的能力,但是所需要的网络开销也越大,区别于传统时分双工的子帧类型,系统中不设置特殊子帧,每个子帧都可以动态变化为上行或下行子帧,转换时的保护间隔可放在下行子帧的最后面或者上行子帧的最前面;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号 rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R (t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
Figure GDA0002649526690000031
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,
Figure GDA0002649526690000032
是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为
Figure GDA0002649526690000033
即为系统模型需要求解的目标函数公式(4):
Figure GDA0002649526690000034
Figure GDA0002649526690000035
为状态st+1时刻最佳值函数;
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,小小区设备通过优化更新值函数来寻找最优策略,并从反馈函数中通过不断迭代获得值函数的估计值,即值迭代方法,在值迭代方法中,不需要知道详细的策略,只需要了解每个状态的最优值对应的动作状态,Q学习方法即属于值迭代方法中较为常见的一类,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
Figure GDA0002649526690000041
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(s,a)表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,
Figure GDA0002649526690000042
表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0<α<1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0<γ<1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为
Figure GDA0002649526690000043
用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
Figure GDA0002649526690000044
动作值函数Qn+1(st,a)为公式(7):
Figure GDA0002649526690000045
R(st,a)表示在st的状态下采取a的动作后取得的回报值,
Figure GDA0002649526690000046
表示状态st到状态st+1的概率,
状态值函数Vn+1(st)为公式(8):Vn+1(st)=maxQn+1(st,a) (8),
迭代有限次数后,能收敛到最优策略为公式(9):
Figure GDA0002649526690000051
其中ε为给定任意正数,无论它多么小。
步骤3)中所述的上下行子帧重配置周期为200ms。
这种方法设计了一种系统模型:小小区设备采用动态时分双工技术,利用Q学习算法,学习环境状态到动作的映射来获得最佳上下行子帧配置比,当移动终端有更多的下行包需要传送时,小小区设备利用基于Q学习算法的动态时分双工技术让系统自动选择下行子帧较多的配置,当小小区网络中上行包的数量大于下行包的数量时,小小区设备选择上行子帧较多的配置,小小区网络根据自身的业务量状况动态的选择合适的上下行子帧配置,能更加灵活适应业务需求,对降低小小区基站端能耗也有一定作用,动态时分双工上下行子帧配置有两方面的含义:从时间上看,某一个特定小小区设备在一段时间内可能会根据网络情况采用不同的上下行子帧配置;从空间上看,对于较大区域中的网络内各个小小区设备可能采用不同的上下行子帧配置。
这种方法解决了因传统的半静态子帧重配置而造成频谱资源的巨大浪费问题,将小小区网络根据所处的复杂环境,不断学习、不断“试错”,得到环境信息从而调整上下行子帧配置来达到最大回报,使频谱高效地用在智能终端、能提高频谱效率以及能量效率。
附图说明
图1为实施例中方法流程示意图;
图2为实施例中小小区网络中动态时分双工系统模型示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步的说明,但不是对本发明的限定。
实施例
参照图1,图2,一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在这种系统模型场景中,宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计,为实际应用提供了可能性,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,,即一部分小小区处于下行阶段,另一部分小小区处于上行阶段,因此,在这种系统场景下,小小区网络之间不需要保持同步,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合, S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t),R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),在系统模型中,小小区网络的任务是学习从环境状态到动作状态的对应,从而获得最佳的回报函数,小小区网络根据其连接的移动终端所反馈的上下行缓存中待传总比特数量,调整子帧的配置方案,每个回报函数的下标表示在固定周期内,小小区网络根据选择的动作动态配置子帧所产生的回报信号,系统中采用的动作模型为无限范围模型,即折扣回报模型或动作序列无限模型,回报函数R (t)表示为公式(1):
Figure GDA0002649526690000061
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0<γ<1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程,通过动态规划的方法解决,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数Ptt+1(at)表示为公式(2):Ptt+1(at) = Pr(Xt+1 = st+1|Xt = st,a (t) = at) (2) ;
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作, Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms,越短的重配置周期具有较强适应动态变化的能力,但是所需要的网络开销也越大,区别于传统时分双工的子帧类型,系统中不设置特殊子帧,每个子帧都可以动态变化为上行或下行子帧,转换时的保护间隔可放在下行子帧的最后面或者上行子帧的最前面;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号 rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R (t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
Figure GDA0002649526690000072
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,
Figure GDA0002649526690000073
是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为
Figure GDA0002649526690000074
即为系统模型需要求解的目标函数公式(4):
Figure GDA0002649526690000081
Figure GDA0002649526690000082
为状态st+1时刻最佳值函数;
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,小小区设备通过优化更新值函数来寻找最优策略,并从反馈函数中通过不断迭代获得值函数的估计值,即值迭代方法,在值迭代方法中,不需要知道详细的策略,只需要了解每个状态的最优值对应的动作状态,Q学习方法即属于值迭代方法中较为常见的一类,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
Figure GDA0002649526690000083
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(s,a)表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,
Figure GDA0002649526690000084
表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0<α<1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0<γ<1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为
Figure GDA0002649526690000085
用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
Figure GDA0002649526690000091
动作值函数Qn+1(st,a)为公式(7):
Figure GDA0002649526690000092
R(st,a)表示在st的状态下采取a的动作后取得的回报值,
Figure GDA0002649526690000093
表示状态st到状态st+1的概率,
状态值函数Vn+1(st)为公式(8):Vn+1(st)=maxQn+1(st,a) (8),迭代有限次数后,能收敛到最优策略为公式(9):
Figure GDA0002649526690000094
其中ε为给定任意正数,无论它多么小。
本例步骤3)中所述的上下行子帧重配置周期为200ms。

Claims (2)

1.一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合,S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t),R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),回报函数R(t)表示为公式(1):
Figure FDA0002649526680000011
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0<γ<1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数Ptt+1(at)表示为公式(2):
Ptt+1(at)=Pr(Xt+1=st+1|Xt=st,a(t)=at) (2);
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作,Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R(t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
Figure FDA0002649526680000021
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,
Figure FDA0002649526680000022
是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为
Figure FDA0002649526680000023
即为系统模型需要求解的目标函数公式(4):
Figure FDA0002649526680000024
Figure FDA0002649526680000025
Figure FDA0002649526680000026
为状态st+1时刻最佳值函数;
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
Figure FDA0002649526680000027
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(st,a) 表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,
Figure FDA0002649526680000028
表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0<α<1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0<γ<1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为
Figure FDA0002649526680000031
用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
Figure FDA0002649526680000032
动作值函数Qn+1(st,a)为公式(7):
Figure FDA0002649526680000033
R(st,a)表示在st的状态下采取a的动作后取得的回报值,
Figure FDA0002649526680000034
表示状态st到状态st+1的概率,状态值函数Vn+1(st)为公式(8):Vn+1(st)=maxQn+1(st,a) (8),
迭代有限次数后,能收敛到最优策略为公式(9):
Figure FDA0002649526680000035
其中ε为给定任意正数,无论它多么小。
2.根据权利要求1所述的小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,步骤3)中所述的上下行子帧重配置周期为200ms。
CN201710733069.9A 2017-08-24 2017-08-24 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 Active CN107493195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710733069.9A CN107493195B (zh) 2017-08-24 2017-08-24 一种小小区动态时分双工结合q学习的上下行子帧的配置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710733069.9A CN107493195B (zh) 2017-08-24 2017-08-24 一种小小区动态时分双工结合q学习的上下行子帧的配置方法

Publications (2)

Publication Number Publication Date
CN107493195A CN107493195A (zh) 2017-12-19
CN107493195B true CN107493195B (zh) 2020-10-30

Family

ID=60646536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710733069.9A Active CN107493195B (zh) 2017-08-24 2017-08-24 一种小小区动态时分双工结合q学习的上下行子帧的配置方法

Country Status (1)

Country Link
CN (1) CN107493195B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387543A (zh) * 2010-09-02 2012-03-21 中兴通讯股份有限公司 一种时分双工系统中动态子帧的配置方法及装置
CN103369568A (zh) * 2013-07-11 2013-10-23 西安交通大学 Lte-a中继系统中基于博弈论的无线资源优化方法
CN104868975A (zh) * 2011-03-31 2015-08-26 华为技术有限公司 时分双工系统中子帧配置的方法、基站及用户设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015061987A1 (en) * 2013-10-30 2015-05-07 Qualcomm Incorporated Cross-carrier indication of uplink/downlink subframe configurations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387543A (zh) * 2010-09-02 2012-03-21 中兴通讯股份有限公司 一种时分双工系统中动态子帧的配置方法及装置
CN104868975A (zh) * 2011-03-31 2015-08-26 华为技术有限公司 时分双工系统中子帧配置的方法、基站及用户设备
CN103369568A (zh) * 2013-07-11 2013-10-23 西安交通大学 Lte-a中继系统中基于博弈论的无线资源优化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A multi-greedy spectrum auction algorithm for cognitive small cell networks;Feng Zhao, Bo Liu and Hongbin Chen;《international journal of distributed senor networks》;20170603;全文 *
Interference Analysis and Performance Evaluation on the Coexistence of Macro and Micro/Pico Cells in LTE Networks;Yang Lan and Atsushi Harada;《Vehicular Technology Conference》;20121231;全文 *
LAA系统在非授权频段上的动态子帧配置策略;姜炜; 刘是枭; 胡恒; 张晨璐;《电信科学》;20160720;全文 *
非授权频段长期演进系统中的混合动态分簇算法;张刚; 姜炜; 刘是枭;《计算机应用》;20170810;全文 *

Also Published As

Publication number Publication date
CN107493195A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109905918B (zh) 一种基于能效的noma蜂窝车联网动态资源调度方法
CN108521673A (zh) 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109831808B (zh) 一种基于机器学习的混合供电c-ran的资源分配方法
CN108923898B (zh) 硬件损伤下无线能量传输的大规模mimo系统能效优化方法
Mismar et al. A framework for automated cellular network tuning with reinforcement learning
CN109195207B (zh) 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法
CN103826283A (zh) 一种无线自组网中节点的路由方法及装置
CN108541001A (zh) 一种用于能量可收集双向协作通信的中断率优化算法
CN109104734B (zh) 一种集能型无线中继网络吞吐量最大化方法
CN104581918B (zh) 基于非合作博弈的卫星跨层联合优化功率分配方法
CN109272167B (zh) 一种基于uudn和q神经网络的绿色能量合作方法
CN105142208A (zh) 嵌入m2m的蜂窝网络中高能效的功率和时隙分配方法
CN105227221A (zh) 一种cran中高能效的基站开关选择方法
EP4029171A1 (en) Methods for block error rate target selection for a communication session and related apparatus
CN108990141B (zh) 一种基于深度多网络学习的集能型无线中继网络吞吐量最大化方法
CN104640192A (zh) 一种发射功率控制方法、Mesh节点与无线网状网系统
CN107493195B (zh) 一种小小区动态时分双工结合q学习的上下行子帧的配置方法
CN106330608A (zh) 在数能一体化通信网络中上行用户吞吐量公平性优化方法
CN109150333B (zh) 基于能量共享的分布式基站远程天线单元选择方法
CN104023381A (zh) 一种基于有效容量的上行ofdma家庭基站双层网络的功率控制方法
Xie et al. Multi-armed bandit based task offloading by probabilistic V2X communication in vehicle edge cloud system
De Domenico et al. Backhaul-aware small cell DTX based on fuzzy Q-Learning in heterogeneous cellular networks
Li et al. Online power allocation for sum rate maximization in TDD massive MIMO systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171219

Assignee: Guangxi Zilan Media Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980045856

Denomination of invention: A configuration method for uplink and downlink subframes in small cell dynamic time division duplex combined with Q-learning

Granted publication date: 20201030

License type: Common License

Record date: 20231106

EE01 Entry into force of recordation of patent licensing contract