CN107493195B - 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 - Google Patents
一种小小区动态时分双工结合q学习的上下行子帧的配置方法 Download PDFInfo
- Publication number
- CN107493195B CN107493195B CN201710733069.9A CN201710733069A CN107493195B CN 107493195 B CN107493195 B CN 107493195B CN 201710733069 A CN201710733069 A CN 201710733069A CN 107493195 B CN107493195 B CN 107493195B
- Authority
- CN
- China
- Prior art keywords
- small cell
- state
- function
- action
- system model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 100
- 238000012546 transfer Methods 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 63
- 238000005516 engineering process Methods 0.000 claims description 15
- 230000007613 environmental effect Effects 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000001413 cellular effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/14—Two-way operation using the same type of signal, i.e. duplex
- H04L5/1469—Two-way operation using the same type of signal, i.e. duplex using time-sharing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0446—Resources in time domain, e.g. slots or frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型;2)定义系统模型的状态转移函数P和回报函数R;3)设置上下行子帧重配置周期;4)配置单位周期内小小区上下行子帧;5)构造系统模型目标函数;6)优化目标函数。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。
Description
技术领域
本发明涉及无线通信技术领域,具体是一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。
背景技术
小小区网络技术被认为是一种解决当前移动数据流量爆炸式增长的通信技术手段之一,也是移动通信技术演进及下一代移动通信网络的关键技术之一。但由于小小区网络所服务的移动终端较少,移动终端在小区间的切换较为频繁,导致了小小区网络中数据业务的变化难以计算,上下行业务量很难维持在一个相对比较稳定的比例,因此,传统宏蜂窝小区里的半静态子帧重配置将无法使用,不能满足不同移动终端的业务量需求,造成频谱资源的巨大浪费。如何使小小区网络能够及时有效地调整其子帧配置成为当前急需解决的问题。动态时分双工技术为克服这一问题提供了很好的方向,动态时分双工作为当前热门的移动通信技术,其特点为不需要成对的频率、能使用各种频率资源、适用于不对称的上下行数据传输速率,能明显的表现出频谱资源丰富的优势。
发明内容
本发明的目的是针对现有技术的不足,而提供一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。
实现本发明目的的技术方案是:
一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在这种系统模型场景中,宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计,为实际应用提供了可能性,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,即一部分小小区处于下行阶段,另一部分小小区处于上行阶段,因此,在这种系统场景下,小小区网络之间不需要保持同步,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合,S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合 A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t), R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),在系统模型中,小小区网络的任务是学习从环境状态到动作状态的对应,从而获得最佳的回报函数,小小区网络根据其连接的移动终端所反馈的上下行缓存中待传总比特数量,调整子帧的配置方案,每个回报函数的下标表示在固定周期内,小小区网络根据选择的动作动态配置子帧所产生的回报信号,系统中采用的动作模型为无限范围模型,即折扣回报模型或动作序列无限模型,回报函数R (t)表示为公式(1):
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0<γ<1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程,通过动态规划的方法解决,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用 At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数 Ptt+1(at)表示为公式(2):Ptt+1(at) = Pr(Xt+1 = st+1|Xt = st,a (t) = at)(2) ;
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作, Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms,越短的重配置周期具有较强适应动态变化的能力,但是所需要的网络开销也越大,区别于传统时分双工的子帧类型,系统中不设置特殊子帧,每个子帧都可以动态变化为上行或下行子帧,转换时的保护间隔可放在下行子帧的最后面或者上行子帧的最前面;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号 rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R (t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为即为系统模型需要求解的目标函数公式(4):
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,小小区设备通过优化更新值函数来寻找最优策略,并从反馈函数中通过不断迭代获得值函数的估计值,即值迭代方法,在值迭代方法中,不需要知道详细的策略,只需要了解每个状态的最优值对应的动作状态,Q学习方法即属于值迭代方法中较为常见的一类,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(s,a)表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0<α<1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0<γ<1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
动作值函数Qn+1(st,a)为公式(7):
状态值函数Vn+1(st)为公式(8):Vn+1(st)=maxQn+1(st,a) (8),
迭代有限次数后,能收敛到最优策略为公式(9):
其中ε为给定任意正数,无论它多么小。
步骤3)中所述的上下行子帧重配置周期为200ms。
这种方法设计了一种系统模型:小小区设备采用动态时分双工技术,利用Q学习算法,学习环境状态到动作的映射来获得最佳上下行子帧配置比,当移动终端有更多的下行包需要传送时,小小区设备利用基于Q学习算法的动态时分双工技术让系统自动选择下行子帧较多的配置,当小小区网络中上行包的数量大于下行包的数量时,小小区设备选择上行子帧较多的配置,小小区网络根据自身的业务量状况动态的选择合适的上下行子帧配置,能更加灵活适应业务需求,对降低小小区基站端能耗也有一定作用,动态时分双工上下行子帧配置有两方面的含义:从时间上看,某一个特定小小区设备在一段时间内可能会根据网络情况采用不同的上下行子帧配置;从空间上看,对于较大区域中的网络内各个小小区设备可能采用不同的上下行子帧配置。
这种方法解决了因传统的半静态子帧重配置而造成频谱资源的巨大浪费问题,将小小区网络根据所处的复杂环境,不断学习、不断“试错”,得到环境信息从而调整上下行子帧配置来达到最大回报,使频谱高效地用在智能终端、能提高频谱效率以及能量效率。
附图说明
图1为实施例中方法流程示意图;
图2为实施例中小小区网络中动态时分双工系统模型示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步的说明,但不是对本发明的限定。
实施例
参照图1,图2,一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在这种系统模型场景中,宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计,为实际应用提供了可能性,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,,即一部分小小区处于下行阶段,另一部分小小区处于上行阶段,因此,在这种系统场景下,小小区网络之间不需要保持同步,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合, S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t),R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),在系统模型中,小小区网络的任务是学习从环境状态到动作状态的对应,从而获得最佳的回报函数,小小区网络根据其连接的移动终端所反馈的上下行缓存中待传总比特数量,调整子帧的配置方案,每个回报函数的下标表示在固定周期内,小小区网络根据选择的动作动态配置子帧所产生的回报信号,系统中采用的动作模型为无限范围模型,即折扣回报模型或动作序列无限模型,回报函数R (t)表示为公式(1):
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0<γ<1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程,通过动态规划的方法解决,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数Ptt+1(at)表示为公式(2):Ptt+1(at) = Pr(Xt+1 = st+1|Xt = st,a (t) = at) (2) ;
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作, Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms,越短的重配置周期具有较强适应动态变化的能力,但是所需要的网络开销也越大,区别于传统时分双工的子帧类型,系统中不设置特殊子帧,每个子帧都可以动态变化为上行或下行子帧,转换时的保护间隔可放在下行子帧的最后面或者上行子帧的最前面;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号 rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R (t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为即为系统模型需要求解的目标函数公式(4):
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,小小区设备通过优化更新值函数来寻找最优策略,并从反馈函数中通过不断迭代获得值函数的估计值,即值迭代方法,在值迭代方法中,不需要知道详细的策略,只需要了解每个状态的最优值对应的动作状态,Q学习方法即属于值迭代方法中较为常见的一类,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(s,a)表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0<α<1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0<γ<1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
动作值函数Qn+1(st,a)为公式(7):
状态值函数Vn+1(st)为公式(8):Vn+1(st)=maxQn+1(st,a) (8),迭代有限次数后,能收敛到最优策略为公式(9):
其中ε为给定任意正数,无论它多么小。
本例步骤3)中所述的上下行子帧重配置周期为200ms。
Claims (2)
1.一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:
1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合,S={s0,s10,…st…s100},0≤t≤100,其中st表示为每个环境状态在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比;A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数R(t),R={r-5,r-4,…rd…r5},其中rd表示为反馈得到的回报函数具体数值量,-5≤d≤5;
2)定义系统模型的状态转移函数P和回报函数R(t):系统模型假设小小区网络不知道状态转移函数P和回报函数R(t),回报函数R(t)表示为公式(1):
式中,rt+k为回报值,即在t时刻采取第k步骤的回报值,γ为折扣因子,其中γ为规定范围内的一个正数0<γ<1,用来调整小小区在系统中的配置周期;当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R(t),在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数Ptt+1(at)表示为公式(2):
Ptt+1(at)=Pr(Xt+1=st+1|Xt=st,a(t)=at) (2);
其中at表示在小小区设备在状态t时的做出的动作,Pr为概率,Xt+1表示t+1个动作,Xt表示第t个动作,st+1表示第t+1个状态,st表示第t个状态;
3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms;
4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,环境状态信号st就是指在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号rd,rd∈R,即rd表示在状态st时选择动作a后的回报;
5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R(t),即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),
值函数Vπ(st)在状态st,策略π下表示为公式(3):
式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,Vπ(st+1)为状态st+1时的值函数,γ为折扣因子,是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为即为系统模型需要求解的目标函数公式(4):
6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则
系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(st,a) 表来评价决策的性能,R(st,a)表示在st的状态下采取a的动作后取得的回报值,表示状态st到状态st+1的概率,更新Qπ(st,a)的表达式为公式(6):
Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a)) (6)
其中,α为学习率,0<α<1,α为符合规定范围内的正数,表示学习效果的百分比;其中γ为折扣因子,γ为规定范围内的一个正数0<γ<1,Q(st+1,ai)表示在st+1时刻动作ai时最折扣报函数;st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为用Vn(st)表示n次迭代后的值函数估计值,具体值迭代方法步骤为:
①对于所有状态集S,初始化值函数V0(st),st∈S;
②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,
动作值函数Qn+1(st,a)为公式(7):
迭代有限次数后,能收敛到最优策略为公式(9):
其中ε为给定任意正数,无论它多么小。
2.根据权利要求1所述的小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,步骤3)中所述的上下行子帧重配置周期为200ms。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710733069.9A CN107493195B (zh) | 2017-08-24 | 2017-08-24 | 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710733069.9A CN107493195B (zh) | 2017-08-24 | 2017-08-24 | 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107493195A CN107493195A (zh) | 2017-12-19 |
CN107493195B true CN107493195B (zh) | 2020-10-30 |
Family
ID=60646536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710733069.9A Active CN107493195B (zh) | 2017-08-24 | 2017-08-24 | 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107493195B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102387543A (zh) * | 2010-09-02 | 2012-03-21 | 中兴通讯股份有限公司 | 一种时分双工系统中动态子帧的配置方法及装置 |
CN103369568A (zh) * | 2013-07-11 | 2013-10-23 | 西安交通大学 | Lte-a中继系统中基于博弈论的无线资源优化方法 |
CN104868975A (zh) * | 2011-03-31 | 2015-08-26 | 华为技术有限公司 | 时分双工系统中子帧配置的方法、基站及用户设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015061987A1 (en) * | 2013-10-30 | 2015-05-07 | Qualcomm Incorporated | Cross-carrier indication of uplink/downlink subframe configurations |
-
2017
- 2017-08-24 CN CN201710733069.9A patent/CN107493195B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102387543A (zh) * | 2010-09-02 | 2012-03-21 | 中兴通讯股份有限公司 | 一种时分双工系统中动态子帧的配置方法及装置 |
CN104868975A (zh) * | 2011-03-31 | 2015-08-26 | 华为技术有限公司 | 时分双工系统中子帧配置的方法、基站及用户设备 |
CN103369568A (zh) * | 2013-07-11 | 2013-10-23 | 西安交通大学 | Lte-a中继系统中基于博弈论的无线资源优化方法 |
Non-Patent Citations (4)
Title |
---|
A multi-greedy spectrum auction algorithm for cognitive small cell networks;Feng Zhao, Bo Liu and Hongbin Chen;《international journal of distributed senor networks》;20170603;全文 * |
Interference Analysis and Performance Evaluation on the Coexistence of Macro and Micro/Pico Cells in LTE Networks;Yang Lan and Atsushi Harada;《Vehicular Technology Conference》;20121231;全文 * |
LAA系统在非授权频段上的动态子帧配置策略;姜炜; 刘是枭; 胡恒; 张晨璐;《电信科学》;20160720;全文 * |
非授权频段长期演进系统中的混合动态分簇算法;张刚; 姜炜; 刘是枭;《计算机应用》;20170810;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107493195A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN109905918B (zh) | 一种基于能效的noma蜂窝车联网动态资源调度方法 | |
CN108521673A (zh) | 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 | |
CN109831808B (zh) | 一种基于机器学习的混合供电c-ran的资源分配方法 | |
CN108923898B (zh) | 硬件损伤下无线能量传输的大规模mimo系统能效优化方法 | |
Mismar et al. | A framework for automated cellular network tuning with reinforcement learning | |
CN109195207B (zh) | 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法 | |
CN103826283A (zh) | 一种无线自组网中节点的路由方法及装置 | |
CN108541001A (zh) | 一种用于能量可收集双向协作通信的中断率优化算法 | |
CN109104734B (zh) | 一种集能型无线中继网络吞吐量最大化方法 | |
CN104581918B (zh) | 基于非合作博弈的卫星跨层联合优化功率分配方法 | |
CN109272167B (zh) | 一种基于uudn和q神经网络的绿色能量合作方法 | |
CN105142208A (zh) | 嵌入m2m的蜂窝网络中高能效的功率和时隙分配方法 | |
CN105227221A (zh) | 一种cran中高能效的基站开关选择方法 | |
EP4029171A1 (en) | Methods for block error rate target selection for a communication session and related apparatus | |
CN108990141B (zh) | 一种基于深度多网络学习的集能型无线中继网络吞吐量最大化方法 | |
CN104640192A (zh) | 一种发射功率控制方法、Mesh节点与无线网状网系统 | |
CN107493195B (zh) | 一种小小区动态时分双工结合q学习的上下行子帧的配置方法 | |
CN106330608A (zh) | 在数能一体化通信网络中上行用户吞吐量公平性优化方法 | |
CN109150333B (zh) | 基于能量共享的分布式基站远程天线单元选择方法 | |
CN104023381A (zh) | 一种基于有效容量的上行ofdma家庭基站双层网络的功率控制方法 | |
Xie et al. | Multi-armed bandit based task offloading by probabilistic V2X communication in vehicle edge cloud system | |
De Domenico et al. | Backhaul-aware small cell DTX based on fuzzy Q-Learning in heterogeneous cellular networks | |
Li et al. | Online power allocation for sum rate maximization in TDD massive MIMO systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20171219 Assignee: Guangxi Zilan Media Technology Co.,Ltd. Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY Contract record no.: X2023980045856 Denomination of invention: A configuration method for uplink and downlink subframes in small cell dynamic time division duplex combined with Q-learning Granted publication date: 20201030 License type: Common License Record date: 20231106 |
|
EE01 | Entry into force of recordation of patent licensing contract |