CN109462839A

CN109462839A - 一种基于自适应调整策略的drx机制通信方法

Info

Publication number: CN109462839A
Application number: CN201811418588.7A
Authority: CN
Inventors: 周建鸿; 冯钢; 秦爽; 严牧
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-03-12
Anticipated expiration: 2038-11-26
Also published as: CN109462839B

Abstract

本发明公开了一种基于自适应调整策略的DRX机制通信方法，所述方法应用于无线网络通信系统中，无线网络通信系统中的用户端与基站采用自适应调整策略的DRX机制进行通信，在无法确定客户端的业务模式和业务特点的前提下，在降低接入延迟和提高能效方面来看，采用本申请提出的AC‑DRX机制的性能远远优于采用现有的DRX机制，其结果非常接近上限值，即在业务特点预知的情况下，通过选取合适的DRX周期所能达到的最大能效值。

Description

一种基于自适应调整策略的DRX机制通信方法

技术领域

本发明涉及无线网络通信领域，具体地，涉及一种基于自适应调整策略的DRX机制通信方法。

背景技术

随着物联网的飞速发展和机器类通信(MTC)的广泛使用，大大扩展了通信领域应用业务的范围，比如智能交通系统、远程医疗系统、自动设备的大规模部署等。其中，旨在为大量机器类通信设备提供网络连接的海量机器类通信(massive MTC,mMTC)服务更是在5G网络标准中被定义为三大通用5G服务之一。MTC的主要特点为：通信主体为小流量业务、终端成本低以及终端能效高。现有通信系统中已经开始采用一些技术以满足MTC的要求，但是仍然还有很大的提升空间，比如对于采用电池供能的MTC设备来说，现有的电池技术所提供的电池容量难以满足飞速发展的物联网应用和服务需求，因此如何尽可能的提高设备能效对于MTC设备来说显得至关重要，这已经成为工业界日益关注的热点问题。

在现有的无线网络通信系统中(比如LTE/LTE-A)，主要采用标准化DRX机制有效降低终端能耗。现有的DRX机制主要采用空闲和连接两种操作模式。在空闲模式的DRX机制下，如果没有数据需要传输，用户进入一个叫作“深度睡眠”的状态，在这个状态下用户仅保留侦听物理下行控制信道(Physical Downlink Control Channel,PDCCH)的连接，其他连接发射功率全部关闭，以最大程度节省终端能耗；当侦听到有数据包需要发送时，用户需要等待下一个可用寻呼帧向基站发送连接请求，在请求被接收重新建立好连接以后才能转发数据包，这个过程会带来较大的传输时延，因此空闲模式的DRX机制主要适用于业务类型为非实时性同时终端接入频率低的场景。在连接模式的DRX机制下，用户可以周期性进入“休眠状态”，在这个状态下用户终端也一直保持与基站的连接，只关闭数据传输时的发射功率，此时用户端可节省的能耗不如“深度睡眠”状态多，但是在这个状态下，当用户收到发送数据包请求时可以更快处理发送请求，因此这种模式的DRX机制主要适用于业务类型对实时性要求相对较高，终端接入频率较高的场景。如果“休眠状态”时间越长，则用户端可节省的能耗越大，但是相应数据包发送请求获得相应的时延就越长，因此合理的“休眠周期“的设置，使其能否与实际业务数据流模式匹配是影响机制提高能效的关键因素。

现有的LTE/LTE-A通信系统中，连接模式的DRX机制中采用一长一短两个”DRX休眠周期”，以适应变化的业务流模式，但是在MTC场景下，接入网络的设备以及应用业务多种多样，相应的数据流也多数为非平稳分布，与此同时，对不同的业务类型来说，时延要求也不同，在这种情况下采用已有的一长一短两个固定“休眠周期“的DRX机制不足以适应多种变化的数据流模型，无法最大化提高用户端能效。由于不同业务数据流模型的非稳定性和不可预见性，因此如何提前合理设置”休眠周期“适应未来数据流模型的变化成为一个NP难的随机优化问题，利用传统的最优化理论很难获得最优解。

现有DRX机制为：LTE/LTE-A标准支持连接和空闲两种模式的DRX机制。在连接模式DRX机制下，UE(User Equipment)在整个DRX周期期间不释放无线资源配置(RRC)连接。此模式适用于设备需要频繁访问网络的场景。在空闲模式DRX机制下，UE在大多数时间释放RRC连接。这意味着如果UE端侦听到传输请求，则需要与BS之间的重新同步来建立连接。该空闲DRX模式适用于UE能容忍很高的延迟且访问不频繁的情况。

对于连接模式DRX机制，UE端可设置短周期T_S和长周期T_L两个固定周期，以适应特定的流量模式。在当前的LTE/LTE-A中，两个周期关系通常被指定为T_L＝NT_S，其中N是给定的正整数。LTE-A系统中支持的最长DRX周期为2.56s。因此，当使用连接模式DRX时，UE可能存在如下5种状态，机制内各状态间转换关系如图2所示。

·S₀:持续接收态(T_inact)

·S₁:短周期激活态(T_son)

·S₂:短周期休眠态(T_soff)

·S₃:长周期激活态(T_lon)

·S₄:长周期休眠态(T_loff)

其中(T_xx)表示该状态持续时间。如果数据包在UE为状态S₀，S₁或S₃时到达，则会被立即传输，同时DRX机制将被重启。否则，如果数据包在UE处于S₂或S₄时到达，则要在相应休眠时间T_soff或T_loff到期之后才能被传输，被传输后DRX机制将被重启。

在空闲模式DRX机制下，如果暂时没有接收到传输请求，则UE将进入“深度睡眠”状态，这意味着除了时钟被激活UE的所有其他处理单位都被关闭。在这种模式下，一些子帧被预设为寻呼时机(Paging Occasion,PO)，并且UE仅可以在一个PO子帧到达时检查是否数据传输请求。如果UE可以在PO到达时准确地被唤醒，则该检查时间(持续时间)可以减少到1ms。然而，由于使用压控晶体振荡器(VCO)的实际UE时钟通常有漂移现象，并且在某些环境下SNR可能太低，在这种情况下，UE和eNB间首先需要同步，该过程主要依靠主同步信号(PSS)和辅同步信号(SSS)。对于同步过程，当一个PO子帧到达时，UE首先被转移到“转换”状态，此时时钟，无线电发射器和信道块会被激活。如果到达的PO包含PSS/SSS子帧，则UE将被转移到“寻呼解码”状态。在“寻呼解码”状态中，UE可以获得寻呼信息，该寻呼信息可以告知UE是否有传输请求到达，有否传输请求到达又决定UE下一次转移到连接状态还是“深度睡眠”状态。在这种情况下，“开启”时间最多可以减少到1毫秒。然而，如果到达的PO不包含PSS/SSS子帧，则UE保持“转换”状态直到下一个PSS/SSS对应的PO到达。其状态转换如图3所示。

在4G网络通讯系统中，客户端通过采用非连续接收(Discontinuous Reception,DRX)机制，周期性断开与基站的网络连接以达到节能的目的。作为5G网络系统下一种新的通讯方式，机器类通信(Machine Type Communication-MTC)变得越来越普遍，这种通信方式的特点之一就是客户端业务类型各式各样，相应的业务特征和服务需求差异也非常大，此时采用已有的DRX机制可能会造成难以接受的接入延迟或者较高的能耗，反而达不到节能的目的。

发明内容

本发明提供了一种基于自适应调整策略的DRX机制通信方法，在无法确定客户端的业务模式和业务特点的前提下，在降低接入延迟和提高能效方面来看，采用本申请提出的AC-DRX机制的性能远远优于采用现有的DRX机制，其结果非常接近上限值，即在业务特点预知的情况下，通过选取合适的DRX周期所能达到的最大能效值。

本申请提出了一种基于自适应调整策略的DRX机制—AC-DRX。该机制通过采用在线学习算法，自适应调整DRX周期使客户端休眠时间与多样化业务模式尽量匹配，以达到最大程度节省能耗的目的。在AC-DRX机制下，时间被分割成小段的时间窗，用户端通过学习历史时间窗内数据流的统计规律，在每个时间窗到来之初，确定当前时间窗长度内采用的DRX周期，并将这个DRX周期应用于当前时间窗内到达的所有数据流。为了加速自适应学习过程，本申请采用了基于对称采样的Actor-Critic(AC)算法计算每个时间窗的DRX周期。

人工智能算法强化学习(Reinforcement Learning,RL)算法可以用于解决这类马尔科夫决策框架下的随机优化问题。强化学习(RL)算法是指决策体在感知当前环境状态下，采取某种策略不断产生动作，并通过对动作结果(值函数)的评估，不断更新动作和值函数以获得最好的长期折扣回报和(值函数)的过程。利用RL，可以通过一段学习时间的累积，利用业务的历史数据流模式规律预测未来的业务数据流模式，再根据预测情况合理设置休眠周期的时间长度，以达到在满足应用业务时延需求的基础上，尽最大可能提高能效。由于对休眠周期的时长设置问题是一个在线调整的连续动作空间问题，因此可采用RL算法框架下的演员-评论家(Actor-Critic,AC)算法来解决这类涉及连续动作空间和连续状态空间的在线学习马尔科夫决策问题。传统的AC算法一般采用高斯分布作为动作选择策略，每次只通过高斯分布策略随机产生一个动作。由于高斯分布是一个对称函数，因此单采样的方法导致了更新策略参数和值函数参数的方向盲目性，从而在更新策略参数和值函数参数时引起较大的方差。因此在连续的动作和状态空间问题上，算法收敛速度很慢。

为了能尽量利用业务数据流模式特点，合理的动态化设置DRX机制中的休眠周期以达到在满足业务时延需求的前提下，最大程度的提高用户端能效，本申请提出了一种基于在线学习算法的自适应DRX周期调整的机制—AC-DRX机制。该方法通过学习业务历史数据流模式特征预测未来数据流模式特征，从而选择最佳休眠周期时间长度执行DRX机制。首先，针对现有DRX机制中的一长一短DRX休眠周期都是预先固定设置好的，在应用业务运行过程中无法实时调整。针对这个问题本方法对现有DRX机制做了一些改进，使DRX机制中的休眠周期可以被动态化调整。接下来，本方法利用RL算法中的在线学习算法-AC算法对业务的数据流模型进行预测从而实时计算最优化休眠周期时长。

强化学习(RL)技术使得在马尔可夫决策过程(MDP)框架下对解决这种随机优化问题提供了一种有效方法。在RL框架中，决策代理感知环境，然后采取行动以获得奖励，通过重复该过程以实现最大长期折扣奖励总和。由于DRX配置的问题是在连续状态和连续动作空间下的马尔可夫决策问题，RL框架下的Actor-Critic(AC)算法对于获得这类问题的最佳解决方案特别有效。为了确保MTC可容忍延迟的情况下，最大限度地提高设备能效，针对MTC应用场景，本申请提出了一种新的基于在线学习策略的DRX机制，AC-DRX机制。通过在线学习过去的流量模式，可以推导出适当的DRX周期，以更好地提高设备的能效。首先，本方法修改了可以适应各种服务的传统DRX机制，尤其是MTC。然后，本方法提出了一种基于RL框架的AC-DRX机制。在AC-DRX机制中，利用AC算法在线学习历史数据信息以预测即将到来的业务流量模式，然后相应地选择DRX周期。在配置DRX周期时，本方法将对称采样思想扩展到传统的AC算法，以保证算法的收敛性，加快学习过程。

本申请提供了一种基于自适应调整策略的DRX机制通信方法，所述方法应用于无线网络通信系统中，无线网络通信系统中的用户端与基站采用自适应调整策略的DRX机制进行通信。

在图1的场景中，BS可以基于它们的延迟要求自适应地为设备/设备组配置DRX周期。需要UE辅助以将应用延迟要求传达给SBS。实际上，3GPP 11中指定的UE辅助机制可用于此目的。在该机制中，UE可以通过使用功率偏好指示符(PPI)将其功率偏好发送到BS。PPI触发实现留给UE供应商，并且不同延迟要求的配置取决于网络供应商。在本方法的模型中，PPI可以用于帮助UE向BS发送延迟要求，并且BS将相应地配置DRX周期。

改进DRX机制为：

如前所述，传统DRX机制尝试利用到达数据包之间的时间间隔来提高功效。实际上，本方法预先分配指定的DRX模式并配置固定周期组(T_S，T_L)以匹配到达时间的随机数据包，但代价是引入延迟，这不适合高度动态的场景，如MTC。为了解决这个问题，本方法提出了一种改进的DRX机制，以适应不同的MTC流量模式。在改进的DRX机制中，本方法将时间划分为不同的时间间隔，每个时间间隔被称为一个DRX决策窗口(DW)。窗口时间长度由给定数量的到达数据包确定。由于数据包到达的随机性，DW的长度是随机变量。在每个DW的开始时，BS将设置一个统一的DRX周期给UE或UE组。另外，改进后的DRX机制将联合考虑连接和空闲模式，即不需要提前预选当前DRX机制工作在哪种模式下。因此，在本方法的改进后的DRX机制中，UE可能存在于以下四种状态：

·S₀:持续接收态，此状态下UE可持续接收和转发数据包。

·S₁:周期激活态，这个状态是DRX周期中的激活状态，在此状态下，数据包仍然可以被持续接收和转发。

·S₂:周期休眠态，此状态下，到达数据包只有在下个DRX周期激活态到来时才能被接收和转发。

·S₃:空闲态。此状态下，除了时钟被激活外，UE会断开所有RRC连接

改进的DRX机制的机制运行图和状态转换图分别如图4和图5所示。如果数据包到达并被转发后，则整个机制将重新被运行。机制中一个定义了4个定时器，即不活动定时器T_inact，DRX周期激活态的持续时间定时器T_on，DRX周期休眠态持续时间定时器T_off，连接空闲状态转换定时器T_trans和倒数计数器M.一旦有数据包到达UE并被接收，则会触发不活动定时器T_inact，此时UE进入状态S₀。如果在T_inact到期后没有数据包到达，则UE进入状态S₁。相反，如果数据包在T_inact到期之前到达，则UE保持在状态S₀，并且T_inact重新启动。在状态S₁，如果在T_on到期之后没有数据包到达，则UE进入状态S₂。类似地，如果分组在状态S₁期间到达，则UE状态返回状态S₀并且T_inact再次重新开始。继续从状态S₂开始，如果在T_off期间没有数据包到达，则UE的状态再次变为状态S₁。本方法将T_ctcle＝T_on+T_off定义为一个DRX周期的长度。如果一直没有数据包到达，则状态S₁和状态S₂重复出现，直到连接空闲转移定时器T_trans＝MT_cycle到期，然后UE进入RRC空闲态S₃，并等待直到下一个数据包到达后重新建立连接，此时建立连接的过程与现有的空闲模式DRX机制类似。

接下来本方法将采用AC算法在每个DW开始前，以满足时延要求为前提，以更高的准确度配置该DW的DRX周期，本方法在以下部分将其称为AC-DRX机制。

基于上述改进DRX机制的原理，针对每个DW而言，需要在该DW内所有数据包到达前就应该将针对该DW准确的DRX周期预先配置好。显然，只有在完全预测该DW的业务流量模式时才能获得最佳DRX周期。与通常假设到达数据包通常为泊松分布的相关工作不同，本方法采用基于RL框架的算法来分析每个窗口开始时数据包到达时间之前的历史数据，以预测即将到来的窗口中的数据包到达模式，从而为该DW配置DRX周期。

显然，使用改进的DRX机制，T_off和T_idle的总长度越长，节省的能量就越多。本方法定义了统一的能效性能参数，即DW长度T_interval上累积的休眠时间(在状态S₁和状态S₂)和RRC释放的空闲时间(在状态S₃)的比例，定义为：

其中Kⁱ表示当第(i+1)_th个数据包在UE状态为S₁和S₂时到达，此时第i_th个时间间隔Δt_i包含的DRX周期的数量。为第j_th个数据包在UE状态S₃时到达，此时RRC释放的空闲时间。N_j表示在UE状态为S_j时到达的数据包的数量，其中j＝{0，1，2，3}。另一方面，如果在UE处于S₂或S₃时有数据包到达，则该数据包的转发过程将被推迟。本方法定义了延迟性能参数，即DW长度T_interval上累积延迟时间的比例，定义为：

其中ηⁱ表示当UE状态为S₂或S₃时，第i_th个到达的数据包被转发的延迟时间与T_off的比例。因此，本方法可以通过设置适当的DRX周期T_cycle＝T_on+T_off来最大化能效，因此这个问题可以表述为：

T_cycle＝argmaxα (3)

其中T_ave-max是UE可以容忍的最大平均延迟，即延迟性能要求，N是一个DW内的数据包总数。尽管可以观察到DW内的所有数据包的到达时间，但是相应的UE状态不能被固定，因为不同的T_cycle可能导致到达的数据包面对的UE状态不同。换句话说，设置T_cycle可能会影响UE的状态，从而影响能效和延迟。在此过程中，某些选定操作(选择T_cycle)会产生一些奖励(节能)，同时会影响环境(数据包到达时UE所处的状态组合)，此时奖励和环境是对决策者的反馈，以影响如何做出下一步操作决定。该过程可以很好地建模为马尔科夫决策过程(MDP)，并且可以通过使用基于RL框架的算法来解决。由于该模型涉及连续状态连续动作空间，因此RL中的AC算法很适合用于动态配置T_cycle，旨在满足系统平均时延要求的基础上，最大化长期能效因子。

AC-DRX机制的MDP建模：

多维连续状态和一维连续动作空间中的顺序决策问题可以建模为MDP，其定义为M＝<S，A，T，R>，其中S，A，T和R分别表示系统状态、动作、转移概率和奖励函数的集合。在每个时间步，系统采取动作a∈A从状态s∈S转换到状态s′∈S，并且获得奖励R(s，a)。在AC-DRX机制的模型中，假设一个DW中有N个数据包到达，到达时间为{t₁，t₂，...，t_N}，第i_th个DW的时间长度是在改进DRX机制中，给定第i_th个时间间隔Δt_i＝t_i+1-t_i，i∈(1，2，...，N)，第(i+1)_th个数据包可能在UE处于4个状态S₀，S₁，S₂或S₃中的任意一个状态时到达，这取决于T_cycle的长度，如图6所示。

本方法的目标是通过在各个DW中选择一系列适当的DRX周期来最大化长期能效因子。本方法用定义环境状态，其中i∈{0，1，2，3}。在状态s^k∈S时，BS基于随机策略π_θ(s^k，a^k)以及当前状态组合下选取一个动作T_cycle∈(0，min(T，T_max))。

执行完当前动作后，系统状态将转换到下一个状态π_θ(s^k，a^k)是一个带参数θ的策略，意指在状态s^k下动作a^k被选择的概率。因此从状态s^k转移到状态s^k+1的概率可以表示为

立即回报R可以表示为

其中A被定义为增加能效因子的奖励，反映了延迟性能相对于能效的影响。与此同时，折扣累积奖励的期望，即长期能效因子，可以表示为状态值函数：

其中折扣因子γ∈[0，1)是指未来状态将对当前状态做出折扣贡献，而s⁰是给定的初始状态。一旦第k_th个DW内所有数据包全部到达，此时s^k+1可以由当前DW确定的T_cycle和所有数据包的到达时刻唯一确定。此时，状态值函数可以重写为贝尔曼方程，如(7)和(7.1)，它表示当前状态和下一状态之间的状态值函数的关系。

本方法的目标是找到一个最优策略π^*，通过执行该策略产生的一些列动作能达到最大化长期能效因子的目的，此时贝尔曼方程可以改写成：

配置DRX周期的AC算法框架：

RL框架可以用来解决MDP问题，其中决策代理(或控制器)通过与其环境交互来优化其行为。AC算法专门用于解决连续状态连续动作空间的MDP优化问题，其算法框架如图7所示。通常，评论家将使用瞬时差分误差(TD error)评估由T_cycle决定的新状态的状态值函数(长期能效)，以判断它是否有所改善。同时，演员将根据瞬时差分误差(TD error)调整策略，可以加速迭代过程以找到最大状态值函数。

演员-策略梯度理论：

本方法选择策略函数π_θ(s^k，a^k)，(s^k∈S，a^k∈A)对参数θ连续可微，此时策略函数梯度可表示为：

此处表示对参数θ求偏微分，d^π(s)＝lim_t→∞P(s_t＝s|s₀，π_θ)是所有状态在策略π_θ下的平稳分布概率。又因可以选择某些合适的偏置项b(s)以减少求解策略梯度时的方差，最小的偏置项为b^*＝V^π(s)。引入似然率和偏置项以后，策略梯度可重新表示为：

其中A^π＝Q^π(s，a)-V^π(s)是在引入偏置项后的优势函数。

评论家-值函数估计：

RL算法的基本过程是根据估计值函数修改当前策略，并将值函数记录在表中。表的维度是S中的状态s^k的数量。在本方法的框架中，环境状态由定义，因此表的维度将随着在一个DW内的到达数据包的数量而指数增加。如果状态空间S太大，难以记录所有状态下的状态值函数(长期能效)。在这种情况下，可用近似函数表示长期能效函数。线性逼近和非线性逼近是两种主要使用的方法。与非线性近似相比，线性近似更容易收敛到全局最优。因此本方法采用以下函数形式近似长期能效函数：

其中φ(s)是状态s，(s∈S)的特征向量，在某一特定状态s下为定值，此时更新状态值函数便可等效于更新参数向量υ。

基于在线学习AC-DRX机制的通信过程：

在如图1的典型MTC场景下，采用AC学习方法来确定每个DW的DRX周期，图8显示了每个DW中基于AC-DRX机制的通信过程。

动作选择：

让本方法考虑一个特定的DW，比如第k_th个DW，并且环境处于状态s_k∈S。首先，BS需要根据随机策略决定DRX周期(即选择动作)，以提高能效并平衡两个相互竞争的目标：a)寻找更好的T_cycle(探索)和b)追求尽可能多的奖励(利用)。因此，BS不仅有机会根据过去的经验尝试合适的T_cycle，还有机会探索新的T_cycle。在本方法的机制中，采用高斯分布作为随机策略，因此BS在状态s^k下选择动作的概率为：

此处μ(s^k)和σ(s^k)分别为动作选择T_cycle的均值和方差，对它们做参数化近似为：

其中为策略特征向量，为策略参数向量，此时策略梯度可以重新计算为：

其中σ(s^k)表示选择动作时的探索力度，该参数将随着算法收敛而逐渐减小。如果σ→0，这将破坏整个算法的稳定性。为了解决这个问题，Williams etal.在文献[8]中提到参数θ的学习速率可以采用ασ²，其中α为常数。采用相同的方法，本方法算法中的策略梯度可重新计算为：

由于η和σ(s^k)可能太大而破坏算法的稳定性，可以用经验解来限制η和σ(s^k)的大小。考虑到学习初期利用占主导，可以将θ₀初始化为0，σ(s⁰)设置为1，此时设置σ(s)∈[0，1]，并且设置当|η|＞3时对η重新取值直到|η|≤3。

在传统的AC(Conventional AC)算法中，通常通过单次扰动产生单个动作a^k＝μ(s^k)+ησ(s^k)被用于学习。这是一种简单的采样方法，但可能带来以下三个问题：1)由于只能通过高斯单次噪声扰动ησ(s^k)产生单个动作，而η取值的随机性导致算法无法确认扰动的方向。显然，这不是一个有效的探索方法，有可能导致值函数收敛慢。此外，TD误差和梯度估计可能导致在一段较长时间内累积较大的偏差。2)由于扰动的随机性有可能导致策略参数θ被重复修改。3)值函数梯度仅由当前动作决定，而不是整个动作空间中的所有动作，这可能导致较大的TD误差。因此，CAC算法的收敛速度不令人满意。

为解决上述问题，本方法提出了一种基于对称扰动采样的采样策略，以加速收敛。基于正或负对称扰动，可以选择两个动作来与每个DW中的环境交互，最终代理根据贪婪原则选择要执行的动作。因此定义当前动作集A^k为：

其中C＝{+1，-1}，第k_th个DW中高斯噪声扰动∈^k＝ησ(s^k)。

基于当前选择的T_cycle执行DRX机制：

BS将所选择的T_cycle广播到相应的UE/UE组，UE端执行提出的改进DRX机制，第k_th个DW数据包全部到达后，系统状态将由s^k变为s^k+1，此时UE端可计算TD误差为：

其中和分别为该DW中执行DRX机制后获得的奖励和系统转移到的下一个状态，γ是当前动作对未来状态影响的折扣因子，并将所计算TD误差传回BS。

更新状态值函数：

接下来在BS端，评论家根据最新状态值函数的大小，在两个对称动作中贪婪选择引起较大值函数的动作，此时所选取的更新动作可表示为：

因此，可以根据上一步计算的TD误差来更新值函数的参数向量为：

其中表示产生最大TD误差的相应动作标识符。此时，UE端确定采用动作为与此新的状态也表示为α_υ，k表示值函数参数向量的学习步长，此时值函数更新可表示为：

更新策略：

最后，BS端在更新状态值函数以后将继续利用计算的TD误差评价并更新演员端的策略。与更新值函数参数向量的方法不同，此处不再通过贪婪方法确定其中一个选择的动作，更新策略参数向量则综合考虑通过对称扰动产生的两个动作带来的效果。具体来说，由于执行了两个动作和执行机制，则会产生两个TD误差，分别记为和本方法分别选择和作为TD误差以更新均值μ和方差δ的参数向量，因此策略参数向量更新为：

和

其中α_μ，k和α_δ，k分别为均值μ和方差δ的参数向量学习速率。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本文中，本方法为MTC场景提出了一种称为AC-DRX的改进的DRX机制，以在延迟的约束下最大化长期能效。四态转换过程使得AC-DRX机制适应频繁且不频繁的接入场景，同时所提出的机制中的时分机制动态地配置DRX周期成为可能。基于改进后DRX机制的原理，采用AC算法基于流量模式的在线学习知识可预测地配置DRX周期，实现最优化策略以最大化折扣长期能效总和。本方法已经使用数值结果来证明AC-DRX机制可以在MTC场景下，在没有任何先验流量信息的条件下，比为HTC设计的传统DRX机制更好的提高能效。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是典型MTC场景示意图；

图2是现有连接模式DRX机制示意图；

图3是现有空闲模式DRX机制示意图；

图4是改进DRX机制运行示意图；

图5是改进DRX机制状态转换示意图；

图6是数据包到达时UE出于4种状态的说明示意图；

图7是AC算法框架示意图；

图8是AC-DRX机制执行过程示意图；

图9a-图9d是不同数据包到达率下的AEE比例对比示意图；

图10a-图10d是不同数据包到达率下的AD比例对比示意图；

图11是CAC-DRX和AC-DRX的收敛性对比示意图；

图12是一个DW中不同到达数据包数量的AEE比例对比示意图；

图13是决策时间对比示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

AC-DRX算法性质：

(1)复杂度分析

在本方法的算法中，由于值函数(评论家)和策略(演员)都是线性模型，迭代更新υ^k和θ^k的复杂度在时间和空间上分别为O(M)和0(N)。此外，本方法提出的算法中采用对称扰动的采样方法一次生成两个动作，执行两个动作后产生的较大的TD误差将用于更新值函数，这可以消除扰动方向的不确定性。同时，采用更新策略参数向量，这意味着策略将向TD误差较大的扰动方向进行调整。基于以上分析可以看出两个方向的扰动可以有效地加速值函数的收敛。然而，由于以下情况，本方法的算法的计算复杂性可能变大。首先，如果|η|＞3，则算法可能需要重新计算。但是，由于本方法选用η时采用的取值|η|＞3的概率仅为0.26％，这是微不足道的。其次，TD误差将被计算两次，并且两次TD误差都是线性迭代过程，因此增加的复杂度仅为O(P)。

总之，AC-DRX算法的计算复杂度与传统的AC算法几乎相同，这是合理的。但与传统的AC算法相比，它实现了更快的收敛速度。

(2)收敛性证明

本方法通过使用类似证明平均代价的TD误差学习算法的收敛性的方法来证明本方法的AC-DRX算法的收敛性。

假设1：马尔可夫链的转移概率P为不可约和非周期性的。

假设2：(a)基函数{φ_k|k＝1，...，k}线性独立(i.e.，φ满秩)；(b)对所有φr≠e。

假设3：(a)存在正的确定性序列γ_t，并且(b)存在一个正标量c，对所有k满足η_t＝Cγ_t。

定理1:如果以上假设同时成立，则以下结论成立：

1)对于任意λ∈[0，1)，平均成本TD(λ)算法收敛的概率为1。

2)序列μ_t的极限是平均成本μ^*。

3)序列r_t的极限是方程IIT^λ(φr^*)＝φr^*的唯一解。

在本方法的算法中，首先假定选一个贪婪的随机策略π′。由于π′并不是一个确定策略，因此π′的选择并不会对算法的探索和最后的收敛性产生影响，假设通过采用策略π′产生一个状态、动作、奖励数据集其中采用对称采样后对比结果来确定。 n和m分别表示在策略π′下状态和可选择的动作的总数，如果在连续空间下，则n，m→∞。

本方法定义策略π′下的状态转移概率为：

由于系统的状态s^k由第k_th个时间窗的数据包随机到达时刻和随机策略π′下该时间窗确定的T_cycle共同决定，因此状态转移概率满足非周期性和不可约性，假设1成立。

在本方法的算法中，值函数用线性关系V^π′(c_i)＝υ^Tφ(c_i)逼近，其中υ和φ(c_i)分别为状态下，值函数的参数向量和特征向量。由于本方法的目标是节省能耗，因此只需要考虑在状态S₁，S₂和S₃时到达的数据包即可，假设数据包在这三种状态下到达服从均匀分布，则特征向量可表示为

其中M表示从S2状态转换到S3状态时，经历的DRX周期的数量，明显此时的特征向量线性独立，假设2成立。算法中，本方法选择参数向量υ的学习速率α_υ，k∈(0，1)，则满足，因此假设3成立。状态取决于数据包到达时刻和选取的DRX周期，由于本方法的系统中在DW开始之初就已经选定，因此在DW结束时，状态转换概率P(s^k+1＝c_n|s^k＝c_m，a^k＝ω_i)＝1.。此时，在第k_th个DW结束时，获得的奖励可表示为

此时，策略π′下的值函数可写为

平均值函数可计算为

误差函数的几何加权平均近似T⁽⁰⁾(V)可表示为

T⁽⁰⁾(V)＝V(π′)-V^*(π′)e+P(π′)V′, (27)

根据以上分析，可以得到如下推理1，同时可证明本文算法的收敛性。

推理1：在满足假设1，2和3的条件下，对于任意给定随机策略π′，其获得的平均奖励和其值函数的线性逼近参数向量υ^k分别收敛于平均值函数V^*(π′)和平均参数向量υ(π′)的概率为1，同时υ(π′)为方程IIT⁽⁰⁾(φr^*)＝φr^*的唯一解，其中II＝φ(φ′Dφ)^-1φ′D表示一种运算符，D＝diag{d^π′(c_i)}。

数值结果分析：

本方法定义了以下两个性能指标，以证明本方法提出的AC-DRX机制在提高设备能效方面的有效性：

·累积能效比(AEE)：累计休眠时间和RRC释放空闲时间相对于整个系统运行时间的比例。显然，AEE可用于清楚地显示在不同DRX机制下节省能耗的程度。

·累计延迟比(AD)：累计等待时间超过系统运行时间的比例，用于评估算法的延迟性能的优劣。

本方法将本方法提出的AC-DRX机制(AC-DRX)与以下两种算法进行比较：

·传统的DRX机制(C-DRX)：在3GPP中标准化。该方法不考虑流量特性，并且对所有UE使用固定的统一DRX周期；

·理想的DRX机制(I-DRX)：其中假设所有分组到达遵循具有已知平均到达率的泊松分布。然后理论上可以得到在可容忍平均延迟约束下的最优DRX周期。当然，I-DRX是理想的，可以用作比较参考。在本方法的仿真中，假设一些典型的参数设置。数据包到达率λ分别设置为2,1,1/10和1/30pps。由于MTC的数据包大小足够小，可以忽略传输时间，这是大多数MTC设备的正常情况。

本方法首先比较不同平均到达率的三种DRX机制的AEE，如图9所示。选择DW的长度作为20个包到达的时间长度。从图中可以看出，I-DRX始终如预期的那样实现了最高的AEE。实际上，I-DRX的AEE可以被视为性能上限，因为假设流量模式事先是完全已知的。与C-DRX相比，本方法提出的AC-DRX机制实现了显着的AEE改善。改进来自于本方法在MDP框架下使用RL来动态确定适当的DRX周期以最大化UE能量效率。相比之下，C-DRX不考虑数据流量模式而使用固定的DRX周期所能达到的能效非常有限。本方法还可以观察到在λ较小时，AC-DRX提高能效的效果更显著。原因如下：随着λ减小，两个数据包到达之间的时间间隔会增大，此时UE不需要经常返回活动状态，可以保持在较长时间内保持休眠状态。此外，本方法可以注意到，在系统运行之初，AC-DRX机制的AEE小于C-DRX，但随着时间的推移急剧增加，并且迅速变得大于C-DRX。这是因为关于流量模式的先验信息在开始时是未知的。历史数据随时间累积，本方法的AC-DRX机制可以从累积的历史数据中学习流量模式，以便做出更好的决策。同时，本方法检查三种机制的累积延迟(AD)，图10显示了AD随DW的变化关系。从图中本方法可以看出I-DRX具有最高的AD，而本方法的AC-DRX机制具有比C-DRX更高的AD。本方法想提一下，在本方法的AC-DRX机制中没有违反MTC设备的延迟要求。因此，AC-DRX机制可以根据UE延迟要求和业务动态自适应地利用延迟容限来提高能量效率。

接下来，本方法研究了提出的对称采样AC算法在提高算法收敛性方面的有效性。本方法使用传统的AC算法，执行修改过DRX机制(称为CAC-DRX)实现动态DRX周期配置。图11显示了平均奖励与DW数量的关系。本方法可以看到AC-DRX具有更快更好的收敛性能。这是因为对称采样消除了扰动盲，并将策略参数更新为TD误差较大的方向。

此外，本方法还研究了DW长度对AC-DRX机制性能的影响。图12表示了AEE比率与DW长度分别为5,10,20和50个包的DW数量的关系。本方法可以看到AEE和收敛速度将随着DW的长度而提高。但是，在DW长度增加到20个包之后，改善的效果变得不明显。这是因为本方法的AC-DRX机制根据过去到达的数据包间隔选择DRX周期。如果更多数据包到达一个DW，则BS(代理)可以选择更好的T_cycle(做出更准确的决策)以提高UE的能效。然而，如果一个DW中的到达数据包的数量对于学习而言足够大，则DW中的更多数据包将对进一步改善性能贡献很少。接下来，本方法定义BS(代理)将每个DW中的T_cycle决定为决策时间所用的平均时间。图13显示了决策时间与一个DW内到达数据包的数量。本方法可以看到决策时间随着到达的数据包的数量单调增加，并且当到达的数据包变为20时它迅速增加，因为一个DW中的更多到达数据包需要更多时间让BS(代理)做出决定。因此，在本方法的模拟中，选择一个DW的长度作为20个包的时间长度。换句话说，DRX周期将每20个到达的数据包进行调整，以保持更好的AEE，同时减少决策时间。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自适应调整策略的DRX机制通信方法，其特征在于，所述方法应用于无线网络通信系统中，无线网络通信系统中的用户端与基站采用自适应调整策略的DRX机制进行通信，自适应调整策略的DRX机制包括：

将时间划分为不同的时间间隔，每个时间间隔为一个DRX决策窗口DW；决策窗口DW时间长度由给定数量的到达数据包确定；用户端通过学习历史时间窗内数据流，将历史经验传递到基站，在每个时间窗到来前，基站确定当前时间窗长度内采用的DRX周期，并将确定的DRX周期发送到用户端并应用于当前时间窗内到达的所有数据流；在开始时，基站将设置一个统一的DRX周期给用户端或用户端组；

在自适应调整策略的DRX机制中，用户端存在于以下四种状态：

S₀：持续接收态，此状态下用户端能够持续接收和转发数据包；

S₁：周期激活态，为DRX周期中的激活状态，在此状态下，数据包能够被持续接收和转发；

S₂：周期休眠态，此状态下，到达数据包只有在下个DRX周期激活态到来时才能被接收和转发；

S₃：空闲态，此状态下，除了时钟被激活外，用户端会断开所有RRC连接。

2.根据权利要求1所述的基于自适应调整策略的DRX机制通信方法，其特征在于，在自适应调整策略的DRX机制中，如果数据包到达并被转发后，则整个自适应调整策略的DRX机制将重新被运行；自适应调整策略的DRX机制中定义了：不活动定时器T_inact、DRX周期激活态的持续时间定时器T_on、DRX周期休眠态持续时间定时器T_off、连接空闲状态转换定时器T_trans、倒数计数器M；当有数据包到达用户端并被接收，则会触发不活动定时器T_inact，此时用户端进入状态S₀；如果在T_inact到期后没有数据包到达，则用户端进入状态S₁；如果数据包在T_inact到期之前到达，则用户端保持在状态S₀，并且T_inact重新启动；在状态S₁，如果在T_on到期之后没有数据包到达，则用户端进入状态S₂；如果分组在状态S₁期间到达，则用户端状态返回状态S₀并且T_inact再次重新开始；继续从状态S₂开始，如果在T_off期间没有数据包到达，则用户端的状态再次变为状态S₁；将T_cycle＝T_on+T_off定义为一个DRX周期的长度；如果一直没有数据包到达，则状态S₁和状态S₂重复出现，直到连接空闲转移定时器T_trans＝MT_cycle到期，然后用户端进入RRC空闲态S₃，并等待直到下一个数据包到达后重新建立连接。

3.根据权利要求1所述的基于自适应调整策略的DRX机制通信方法，其特征在于，在自适应调整策略的DRX机制中采用基于RL框架的算法分析每个窗口开始时数据包到达时间之前的历史数据，以预测即将到来的窗口中的数据包到达模式，为DW配置DRX周期。

4.根据权利要求3所述的基于自适应调整策略的DRX机制通信方法，其特征在于，DW长度T_interval上累积的休眠时间和RRC释放的空闲时间的比例，定义为：

其中Kⁱ表示当第(i+1)_th个数据包在用户端状态为S₁和S₂时到达，此时第i_th个时间间隔Δt_i包含的DRX周期的数量；为第j_th个数据包在用户端状态S₃时到达，此时RRC释放的空闲时间；N_j表示在用户端状态为S_j时到达的数据包的数量，其中j＝{0，1，2，3}；

DW长度T_interval上累积延迟时间的比例，定义为：

其中ηⁱ表示当用户端状态为S₂或S₃时，第i_th个到达的数据包被转发的延迟时间与T_off的比例；通过设置适当的DRX周期T_cycle＝T_on+T_off来最大化能效，获得：

T_cycle＝argmaxα (3)

其中T_ave-max是用户端可以容忍的最大平均延迟，即延迟性能要求，N是一个DW内的数据包总数。

5.根据权利要求3所述的基于自适应调整策略的DRX机制通信方法，其特征在于，

多维连续状态和一维连续动作空间中的顺序决策问题可以建模为MDP，其定义为M＝<S，A，T，R>，其中S，A，T和R分别表示系统状态、动作、转移概率和奖励函数的集合；在每个时间步，系统采取动作a∈A从状态s∈S转换到状态s′∈S，并且获得奖励R(s，a)；

在自适应调整策略的DRX机制的模型中，假设一个DW中有N个数据包到达，到达时间为{t₁，t₂，...，t_N}，第i_th个DW的时间长度是在自适应调整策略的DRX机制中，给定第i_th个时间间隔Δt_i＝t_i+1-t_i，i∈(1，2，...，N)，第(i+1)_th个数据包可能在用户端处于4个状态S₀，S₁，S₂或S₃中的任意一个状态时到达；

目标是最大化长期能效因子；用定义环境状态，其中i∈{0，1，2，3}；在状态s^k∈S时，基站基于随机策略π_θ(s^k，a^k)以及当前状态组合下选取一个动作T_cycle∈(0,min(T，T_max))；执行完当前动作后，系统状态将转换到下一个状态π_θ(s^k，a^k)是一个带参数θ的策略，指在状态s^k下动作a^k被选择的概率；因此从状态s^k转移到状态s^k+1的概率可以表示为：

立即回报R可以表示为：

其中A被定义为增加能效因子的奖励，反映了延迟性能相对于能效的影响；长期能效因子可以表示为状态值函数：

其中折扣因子γ∈[0，1)是指未来状态将对当前状态做出折扣贡献，而s⁰是给定的初始状态；

当第k_th个DW内所有数据包全部到达，此时s^k+1可以由当前DW确定的T_cycle和所有数据包的到达时刻唯一确定；状态值函数可以重写为贝尔曼方程如(7)和(7.1)，表示当前状态和下一状态之间的状态值函数的关系：

目标是找到一个最优策略π^*，贝尔曼方程可以改写成：

6.根据权利要求3所述的基于自适应调整策略的DRX机制通信方法，其特征在于，评论家将使用瞬时差分误差TD error评估由T_cycle决定的新状态的状态值函数长期能效，以判断是否有所改善；演员将根据瞬时差分误差TD error调整策略，加速迭代过程以找到最大状态值函数；

(1)演员-策略梯度理论

选择策略函数π_θ(s^k，a^k)，(s^k∈S，a^k∈A)对参数θ连续可微，此时策略函数梯度可表示为：

此处表示对参数θ求偏微分，d^π(s)＝lim_t→∞P(s_t＝s|s₀，π_θ)是所有状态在策略π_θ下的平稳分布概率；引入似然率和偏置项以后，策略梯度可重新表示为：

其中A^π＝Q^π(s，a)-V^π(s)是在引入偏置项后的优势函数；

(2)评论家-值函数估计

采用以下函数形式近似长期能效函数：

其中φ(s)是状态s，(s∈S)的特征向量，在某一特定状态s下为定值，此时更新状态值函数等效于更新参数向量υ。

7.根据权利要求1所述的基于自适应调整策略的DRX机制通信方法，其特征在于，每个DW中基于在线学习自适应调整策略的DRX机制的通信过程包括：选择动作；基于当前选择的T_cycle执行DRX机制；更新状态值函数；更新策略。

8.根据权利要求7所述的基于自适应调整策略的DRX机制通信方法，其特征在于，定义当前动作集A^k为：

其中C＝{+1，-1}，第k_th个DW中高斯噪声扰动∈^k＝ησ(s^k)。

9.根据权利要求7所述的基于自适应调整策略的DRX机制通信方法，其特征在于，策略参数向量更新为：

和