CN107493195B

CN107493195B - 一种小小区动态时分双工结合q学习的上下行子帧的配置方法

Info

Publication number: CN107493195B
Application number: CN201710733069.9A
Authority: CN
Inventors: 赵峰; 刘博�; 陈宏滨
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2020-10-30
Anticipated expiration: 2037-08-24
Also published as: CN107493195A

Abstract

本发明公开了一种小小区动态时分双工结合Q学习的上下行子帧的配置方法，其特征是，包括如下步骤：1）构建动态时分双工小小区系统模型；2）定义系统模型的状态转移函数P和回报函数R；3）设置上下行子帧重配置周期；4）配置单位周期内小小区上下行子帧；5）构造系统模型目标函数；6）优化目标函数。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。

Description

一种小小区动态时分双工结合Q学习的上下行子帧的配置方法

技术领域

本发明涉及无线通信技术领域，具体是一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。

背景技术

小小区网络技术被认为是一种解决当前移动数据流量爆炸式增长的通信技术手段之一，也是移动通信技术演进及下一代移动通信网络的关键技术之一。但由于小小区网络所服务的移动终端较少，移动终端在小区间的切换较为频繁，导致了小小区网络中数据业务的变化难以计算，上下行业务量很难维持在一个相对比较稳定的比例，因此，传统宏蜂窝小区里的半静态子帧重配置将无法使用，不能满足不同移动终端的业务量需求，造成频谱资源的巨大浪费。如何使小小区网络能够及时有效地调整其子帧配置成为当前急需解决的问题。动态时分双工技术为克服这一问题提供了很好的方向，动态时分双工作为当前热门的移动通信技术，其特点为不需要成对的频率、能使用各种频率资源、适用于不对称的上下行数据传输速率，能明显的表现出频谱资源丰富的优势。

发明内容

本发明的目的是针对现有技术的不足，而提供一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。

实现本发明目的的技术方案是：

一种小小区动态时分双工结合Q学习的上下行子帧的配置方法，包括如下步骤：

1)构建动态时分双工小小区系统模型：定义系统模型中，宏蜂窝网络和小小区网络使用不同的频谱，将动态时分双工技术运用在小小区网络中，在这种系统模型场景中，宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计，为实际应用提供了可能性，在固定时刻内，每一个小小区的上下行子帧重配置决策独立于其他小小区，即一部分小小区处于下行阶段，另一部分小小区处于上行阶段，因此，在这种系统场景下，小小区网络之间不需要保持同步，系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合，S＝{s₀,s₁₀,…s_t…s₁₀₀}，0≤t≤100，其中s_t表示为每个环境状态在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比；A是动作状态的离散集合 A＝{a_i,a_j}，a_i表示小小区网络保持之前的子帧配置不变，a_j表示小小区网络改变之前的子帧配置，P是一个状态转移函数:P＝S*A*S∈[0,1]，R是回报函数R(t)， R＝{r_-5,r_-4,…r_d…r₅}，其中r_d表示为反馈得到的回报函数具体数值量，-5≤d≤5；

2)定义系统模型的状态转移函数P和回报函数R(t)：系统模型假设小小区网络不知道状态转移函数P和回报函数R(t)，在系统模型中，小小区网络的任务是学习从环境状态到动作状态的对应，从而获得最佳的回报函数，小小区网络根据其连接的移动终端所反馈的上下行缓存中待传总比特数量，调整子帧的配置方案，每个回报函数的下标表示在固定周期内，小小区网络根据选择的动作动态配置子帧所产生的回报信号，系统中采用的动作模型为无限范围模型，即折扣回报模型或动作序列无限模型，回报函数R (t)表示为公式(1):

式中，r_t+k为回报值，即在t时刻采取第k步骤的回报值，γ为折扣因子，其中γ为规定范围内的一个正数0<γ<1，用来调整小小区在系统中的配置周期；当γ＝0时，表示小小区网络只考虑立即回报；γ越接近1，表示小小区网络考虑了长期回报，系统中的最终目标即为小小区获得最佳的回报函数R(t)，小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程，通过动态规划的方法解决，在状态转移函数P中，小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作，即为一个随机过程X，用 A_t,(A_t∈A)表示在小小区设备在状态t时的所有可能的动作集，则状态转移概率函数 P_tt+1(a_t)表示为公式(2)：P_tt+1(a_t) ＝ Pr(X_t+1 ＝ s_t+1|X_t ＝ s_t,a (t) ＝ a_t)(2) ；

其中a_t表示在小小区设备在状态t时的做出的动作，Pr为概率，X_t+1表示t+1个动作， X_t表示第t个动作，s_t+1表示第t+1个状态，s_t表示第t个状态；

3)设置上下行子帧重配置周期：设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms，越短的重配置周期具有较强适应动态变化的能力，但是所需要的网络开销也越大，区别于传统时分双工的子帧类型，系统中不设置特殊子帧，每个子帧都可以动态变化为上行或下行子帧，转换时的保护间隔可放在下行子帧的最后面或者上行子帧的最前面；

4)配置单位周期内小小区上下行子帧：在每一个周期内，小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号s_t,s_t∈S，环境状态信号s_t就是指在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比，通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A，一旦动作a执行，小小区就针对性的调整上下行子帧配置并产生一个回报信号 r_d,r_d∈R，即r_d表示在状态s_t时选择动作a后的回报；

5)构造系统模型目标函数：系统模型的最终的目标是小小区获得最佳的回报函数R (t)，即小小区在固定周期内寻求一个策略π，考量策略的标准是根据策略在未来的折扣回报期望值，即值函数V^π(s_t)，

值函数V^π(s_t)在状态s_t，策略π下表示为公式(3):

式中，R(s_t,π(s_t))定义为系统模型中小小区设备在状态s_t时采取策略π得到的期望回报，V^π(s_t+1)为状态s_t+1时的值函数，γ为折扣因子，

是采取策略π(s_t)后由状态s_t转移到状态s_t+1的概率，假设将π^*定义为系统模型的最优策略，则最佳值函数为

即为系统模型需要求解的目标函数公式(4)：

为状态s_t+1时刻最佳值函数；

6)优化目标函数：在系统模型中，优化目标函数采用值迭代方法中的Q学习方法，小小区设备通过优化更新值函数来寻找最优策略，并从反馈函数中通过不断迭代获得值函数的估计值，即值迭代方法，在值迭代方法中，不需要知道详细的策略，只需要了解每个状态的最优值对应的动作状态，Q学习方法即属于值迭代方法中较为常见的一类，假设公式(5)Q^π(s_t,a)表示在策略π下，状态s_t时采取动作a后的折扣回报函数，则

系统模型中小小区设备执行动作得到回报函数后更新相应的Q^π(s,a)表来评价决策的性能，R(s_t,a)表示在s_t的状态下采取a的动作后取得的回报值，

表示状态s_t到状态s_t+1的概率，更新Q^π(s_t,a)的表达式为公式(6):

Q^π(s_t,a)＝Q^π(s_t,a)+α(R(s_t,a)+γmaxQ(s_t+1,a_i)-Q^π(s_t,a)) (6)

其中，α为学习率，0<α<1，α为符合规定范围内的正数，表示学习效果的百分比；其中γ为折扣因子，γ为规定范围内的一个正数0<γ<1，Q(s_t+1,a_i)表示在s_t+1时刻动作a_i时最折扣报函数；s_t+1,a_i分别表示转移到的下一状态及在状态s_t+1时可能采取的动作，系统模型中小小区设备为了得到最佳值函数为

用V_n(s_t)表示n次迭代后的值函数估计值，具体值迭代方法步骤为:

①对于所有状态集S，初始化值函数V₀(s_t)，s_t∈S；

②n≥0，对所有的环境状态s_t∈S，动作状态a∈A，进行迭代，

动作值函数Q_n+1(s_t,a)为公式(7):

R(s_t,a)表示在s_t的状态下采取a的动作后取得的回报值，

表示状态s_t到状态s_t+1的概率，

状态值函数V_n+1(s_t)为公式(8)：V_n+1(s_t)＝maxQ_n+1(s_t,a) (8)，

迭代有限次数后，能收敛到最优策略为公式(9):

其中ε为给定任意正数，无论它多么小。

步骤3)中所述的上下行子帧重配置周期为200ms。

这种方法设计了一种系统模型：小小区设备采用动态时分双工技术，利用Q学习算法，学习环境状态到动作的映射来获得最佳上下行子帧配置比，当移动终端有更多的下行包需要传送时，小小区设备利用基于Q学习算法的动态时分双工技术让系统自动选择下行子帧较多的配置，当小小区网络中上行包的数量大于下行包的数量时，小小区设备选择上行子帧较多的配置，小小区网络根据自身的业务量状况动态的选择合适的上下行子帧配置，能更加灵活适应业务需求，对降低小小区基站端能耗也有一定作用，动态时分双工上下行子帧配置有两方面的含义：从时间上看，某一个特定小小区设备在一段时间内可能会根据网络情况采用不同的上下行子帧配置；从空间上看，对于较大区域中的网络内各个小小区设备可能采用不同的上下行子帧配置。

这种方法解决了因传统的半静态子帧重配置而造成频谱资源的巨大浪费问题，将小小区网络根据所处的复杂环境，不断学习、不断“试错”，得到环境信息从而调整上下行子帧配置来达到最大回报，使频谱高效地用在智能终端、能提高频谱效率以及能量效率。

附图说明

图1为实施例中方法流程示意图；

图2为实施例中小小区网络中动态时分双工系统模型示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的说明，但不是对本发明的限定。

实施例

参照图1，图2，一种小小区动态时分双工结合Q学习的上下行子帧的配置方法，包括如下步骤：

1)构建动态时分双工小小区系统模型：定义系统模型中，宏蜂窝网络和小小区网络使用不同的频谱，将动态时分双工技术运用在小小区网络中，在这种系统模型场景中，宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计，为实际应用提供了可能性，在固定时刻内，每一个小小区的上下行子帧重配置决策独立于其他小小区，，即一部分小小区处于下行阶段，另一部分小小区处于上行阶段，因此，在这种系统场景下，小小区网络之间不需要保持同步，系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合， S＝{s₀,s₁₀,…s_t…s₁₀₀}，0≤t≤100，其中s_t表示为每个环境状态在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比；A是动作状态的离散集合A＝{a_i,a_j}，a_i表示小小区网络保持之前的子帧配置不变，a_j表示小小区网络改变之前的子帧配置，P是一个状态转移函数:P＝S*A*S∈[0,1]，R是回报函数R(t)，R＝{r_-5,r_-4,…r_d…r₅}，其中r_d表示为反馈得到的回报函数具体数值量，-5≤d≤5；

式中，r_t+k为回报值，即在t时刻采取第k步骤的回报值，γ为折扣因子，其中γ为规定范围内的一个正数0<γ<1，用来调整小小区在系统中的配置周期；当γ＝0时，表示小小区网络只考虑立即回报；γ越接近1，表示小小区网络考虑了长期回报，系统中的最终目标即为小小区获得最佳的回报函数R(t)，小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程，通过动态规划的方法解决，在状态转移函数P中，小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作，即为一个随机过程X，用A_t,(A_t∈A)表示在小小区设备在状态t时的所有可能的动作集，则状态转移概率函数P_tt+1(a_t)表示为公式(2)：P_tt+1(a_t) ＝ Pr(X_t+1 ＝ s_t+1|X_t ＝ s_t,a (t) ＝ a_t) (2) ；

值函数V^π(s_t)在状态s_t，策略π下表示为公式(3):

即为系统模型需要求解的目标函数公式(4)：

为状态s_t+1时刻最佳值函数；

Q^π(s_t,a)＝Q^π(s_t,a)+α(R(s_t,a)+γmaxQ(s_t+1,a_i)-Q^π(s_t,a)) (6)

①对于所有状态集S，初始化值函数V₀(s_t)，s_t∈S；

动作值函数Q_n+1(s_t,a)为公式(7):

R(s_t,a)表示在s_t的状态下采取a的动作后取得的回报值，

表示状态s_t到状态s_t+1的概率，

状态值函数V_n+1(s_t)为公式(8)：V_n+1(s_t)＝maxQ_n+1(s_t,a) (8)，迭代有限次数后，能收敛到最优策略为公式(9):

其中ε为给定任意正数，无论它多么小。

本例步骤3)中所述的上下行子帧重配置周期为200ms。

Claims

1.一种小小区动态时分双工结合Q学习的上下行子帧的配置方法，其特征是，包括如下步骤：

1)构建动态时分双工小小区系统模型：定义系统模型中，宏蜂窝网络和小小区网络使用不同的频谱，将动态时分双工技术运用在小小区网络中，在固定时刻内，每一个小小区的上下行子帧重配置决策独立于其他小小区，系统模型中包含(S,A,P,R)四个集合,S是环境状态的离散集合，S＝{s₀,s₁₀,…s_t…s₁₀₀}，0≤t≤100，其中s_t表示为每个环境状态在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比；A是动作状态的离散集合A＝{a_i,a_j}，a_i表示小小区网络保持之前的子帧配置不变，a_j表示小小区网络改变之前的子帧配置，P是一个状态转移函数:P＝S*A*S∈[0,1]，R是回报函数R(t)，R＝{r_-5,r_-4,…r_d…r₅}，其中r_d表示为反馈得到的回报函数具体数值量，-5≤d≤5；

2)定义系统模型的状态转移函数P和回报函数R(t)：系统模型假设小小区网络不知道状态转移函数P和回报函数R(t)，回报函数R(t)表示为公式(1):

式中，r_t+k为回报值，即在t时刻采取第k步骤的回报值，γ为折扣因子，其中γ为规定范围内的一个正数0<γ<1，用来调整小小区在系统中的配置周期；当γ＝0时，表示小小区网络只考虑立即回报；γ越接近1，表示小小区网络考虑了长期回报，系统中的最终目标即为小小区获得最佳的回报函数R(t)，在状态转移函数P中，小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作，即为一个随机过程X，用A_t,(A_t∈A)表示在小小区设备在状态t时的所有可能的动作集，则状态转移概率函数P_tt+1(a_t)表示为公式(2)：

P_tt+1(a_t)＝Pr(X_t+1＝s_t+1|X_t＝s_t,a(t)＝a_t) (2)；

其中a_t表示在小小区设备在状态t时的做出的动作，Pr为概率，X_t+1表示t+1个动作，X_t表示第t个动作，s_t+1表示第t+1个状态，s_t表示第t个状态；

3)设置上下行子帧重配置周期：设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms；

4)配置单位周期内小小区上下行子帧：在每一个周期内，小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号s_t,s_t∈S，环境状态信号s_t就是指在固定周期内，小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比，通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A，一旦动作a执行，小小区就针对性的调整上下行子帧配置并产生一个回报信号r_d,r_d∈R，即r_d表示在状态s_t时选择动作a后的回报；

5)构造系统模型目标函数：系统模型的最终的目标是小小区获得最佳的回报函数R(t)，即小小区在固定周期内寻求一个策略π，考量策略的标准是根据策略在未来的折扣回报期望值，即值函数V^π(s_t)，

值函数V^π(s_t)在状态s_t，策略π下表示为公式(3):