CN110267338A

CN110267338A - 一种d2d通信中联合资源分配和功率控制方法

Info

Publication number: CN110267338A
Application number: CN201910609855.7A
Authority: CN
Inventors: 宋彬; 许珂; 王丹; 秦浩
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-09-20
Anticipated expiration: 2039-07-08
Also published as: CN110267338B

Abstract

本发明公开了一种D2D通信中联合资源分配和功率控制方法，克服了现有资源分配方案会导致频谱资源浪费同时无法满足系统容量最大化的问题。本发明含有以下步骤，一、离散划分信道资源块和功率等级；二、对D2D通信场景基于深度强化学习建模；三、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构；四、基于设置好的系统模型，利用深度强化学习的算法使智能体和环境交互进行1000次迭代学习输出最优结果；五、输出学习到的最优策略。本发明采用深度Q网络代替Q表来指导智能体更新策略解决了交互序列具有相关性会使得模型不稳定的问题和场景状态空间和动作空见过大的问题。

Description

一种D2D通信中联合资源分配和功率控制方法

技术领域

本发明涉及通信技术领域，特别是涉及一种D2D通信中联合资源分配和功率控制方法。

背景技术

在混合蜂窝通信和D2D通信场景中，主要存在三种干扰：D2D链路对蜂窝链路的干扰、蜂窝链路对D2D链路的干扰和D2D链路之间的干扰。控制系统上述三种干扰的手段主要有三个方面，即模式选择，资源分配和功率控制。在传统通信的研究中，提出了一种混合蜂窝和D2D系统的干扰避免机制，通过用户模式选择减轻了蜂窝传输对D2D通信的干扰。在此之上，专家学者研究了联合模式选择和资源分配方案的方法以提高用户的吞吐量，这同时可以通过促进D2D和蜂窝链路之间的频谱资源的复用来延长用户设备的电池寿命。除了传统的通信方法外，强化学习方法也已成为解决无线通信中干扰管理问题的新兴方法。现有的基于强化学习的干扰控制方法主要针对信道资源分配或功率控制问题来展开，采用集中式Q学习或分布式Q学习，以实现最小化系统干扰。

尽管强化学习在解决通信网络中的一些问题方面具有一些优势，但它仍然具有局限性。由于通信场景的复杂性和用户业务请求的不确定性，目前采用的基于Q学习的强化学习方法进行通信场景建模简化了很多实际的场景条件，如在解决用户干扰的问题时，仅单一考虑功率选择或信道资源分配技术，这不足以最大化利用频谱资源和能量资源。若联合频谱资源分配和功率控制技术时，采用现有的Q学习方法进行问题建模，会面临状态动作空间大，强化学习性能较差并且其收敛速度可能迟缓、学习结果不稳定等严峻问题。因而导致系统阻塞率较高、吞吐量低的情况，难以满足实际通信需求。另外，目前现有的方法都是针对单一干扰问题提出相应的解决方案，本发明提出了一种基于深度强化学习的联合信道资源分配和功率控制方法，可用于解决现有技术难以解决的高维状态空间以及复杂离散动作空间的问题，进一步提高系统容量。

发明内容

本发明主要针对在D2D通信场景中现有资源分配方案会导致频谱资源浪费同时无法满足系统容量最大化的的问题，提供一种保证蜂窝用户服务质量的D2D通信中联合资源分配和功率控制方法。

本发明的技术解决方案是，提供一种具有以下步骤的D2D通信中联合资源分配和功率控制方法：含有以下步骤，

步骤一、离散划分信道资源块和功率等级；

步骤二、对D2D通信场景基于深度强化学习建模；

步骤三、设计深度Q网络中的用于训练的Behavior网络和用于计算的Target网络的网络结构；

步骤四、基于设置好的系统模型，利用深度强化学习的算法使智能体和环境交互进行1000次迭代学习输出最优结果；

步骤五、输出学习到的最优策略，即所有用户的信道资源和功率等级的分配情况。

所述步骤一中，假设同一小区内共有M个蜂窝用户和N个D2D用户对，即有M个蜂窝链路、N个D2D发射机及N个D2D链路，将连续信道带宽离散化分为K个资源块，每个信道资源块带宽都相同，相邻的信道资源是总频谱中的相邻部分；将功率分为L个功率级供基站选择，每个D2D发射机和蜂窝用户均选择已划分好的信道资源，并在信道资源上选择特定的功率级来传输数据。

所述步骤二包含以下分步骤，

步骤2.1、将D2D发射机设置为智能体，则同一小区内有N个D2D对，即N个智能体，形成多智能体场景，针对每一个智能体，环境是M个蜂窝用户和其他N-1个D2D用户发射机；

步骤2.2、定义智能体状态为一个三维矩阵，包括智能体占用信道的状态，选择功率级别的状态和智能体的数量信息；对所有智能体和信道资源块进行编号，每个智能体都有占用信道资源和其选择功率等级的信息，智能体对信道资源的占用情况用二值函数表示；若某一智能体对某一信道资源占用时取值为1，否则为0，该智能体在选择的特定信道上的发射功率用实际选择的功率级别表示，若智能体未选择该信道，则功率为0；

步骤2.3、定义智能体某时刻的动作包括智能体在该时刻选择的信道和功率等级；智能体选择信道的信息包括智能体的编号和所选择信道的编号，用二值函数表示，智能体选择信道并占用表示为1，否则为0，智能体在所选信道上选择功率等级的信息由所选实际功率等级表示；

步骤2.4.奖励函数与系统容量和约束有关，定义系统容量为奖励函数，定义D2D用户复用蜂窝用户频谱资源的约束条件为：

约束条件一、蜂窝用户的信噪比大于正常通信需求的最低门限值τ_C；

约束条件二、蜂窝用户传输数据满足当前业务的最低传输速率要求；

约束条件三、D2D用户传输数据满足当前业务的最低传输速率要求；

约束条件四、D2D用户所选的发射功率级不可超过其在信道上传输的最大功率；

当某时刻所选择的动作满足以上四个约束条件时，奖励函数设置为混合蜂窝通信和D2D通信系统总容量，否则为系统容量的的X倍给予处罚，其中X为-0.01到-0.1，系统容量依据香农公式计算。

所述步骤三中：用于训练的Behavior网络和用于计算的Target网络共有五层，其中三层卷积层用于提取特征和两层全连接层，最后一层分为两个向量，分别表示两个输出值，即可选信道的Q值和可选功率级的Q值。

所述步骤四包含以下分步骤，

步骤4.1、DQN算法初始化，

步骤4.1.1、初始化样本回放缓存区的容量为D，得到一个长度为D的空队列，用来存储智能体与环境交互得到的序列，样本回放缓存区用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息的；

步骤4.1.2、初始化智能体的状态模型和动作模型，得到相应状态矩阵和动作矩阵；

步骤4.1.3、随机设置Behavior网络参数θ和Target网络参数θ^-使网络可用；

步骤4.2、环境参数初始化，

步骤4.2.1、初始化用户距离，设置小区半径为R，基站在小区中心位置，D2D用户和蜂窝用户在小区内随机分布，得到所有用户到基站和用户之间的距离；

步骤4.2.2、创建初始状态矩阵，为初始化后得到的状态矩阵和动作矩阵赋值，占用信道为1不占用为0且每个用户只能占用一个信道，即在矩阵的K维度上对应于每个用户只能有一个1值，在状态矩阵的1维度上在L个功率等级上随机选择一个功率等级值；

步骤4.3、迭代学习最优策略，

步骤4.3.1、将当前状态输入Behavior网络，经过三层卷积层提取特征和两层全连接层，得到两个输出向量分别表示所有可选信道资源动作和可选功率等级动作的Q值；

步骤4.3.2、每个智能体根据贪心算法(ε-greedy)来平衡探索和利用，选择信道资源和功率等级，即智能体以概率ε选取Q值最大的动作，以概率1-ε随机选择，更新当前动作矩阵；

步骤4.3.3、执行所选动作，得到新一轮的状态；

步骤4.3.4、计算智能体的信噪比：该智能体占用信道传输数据的功率与链路增益的乘积视为该智能体的信号功率，与该用户选择同一信道资源传输数据的其它D2D用户发射机的功率与链路增益乘积之和，加上蜂窝用户的功率与链路增益乘积，以及加性高斯白噪声和邻近小区的干扰功率视为该智能体的总干扰功率，信号功率除以总干扰功率即为该智能体的信噪比；

步骤4.3.5、计算蜂窝用户的信噪比：该蜂窝用户占用信道传输数据的功率与链路增益的乘积视为该蜂窝用户的信号功率，与该用户选择同一信道资源传输数据的D2D用户发射机的功率与链路增益乘积之和，加上邻近小区的干扰功率，以及加性高斯白噪声视为该蜂窝用户的总干扰功率，信号功率除以总干扰功率即为该蜂窝用户的信噪比；

步骤4.3.6、计算当前选择动作后更新的状态的系统容量：根据用户选择的信道资源带宽以及用户信噪比，利用香农公式分别计算蜂窝用户通信系统容量和D2D用户通信系统容量，二者之和即为混合蜂窝通信和D2D通信系统总容量；

步骤4.3.7、检查蜂窝用户信噪比和容量是否满足四个约束条件，求得基于上一状态所选动作的奖励值；

步骤4.3.8、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到样本回放缓存区中；

步骤4.3.9、从样本回放缓存区中采样一批样本，将采样的样本的状态分别送入Behavior网络和Target网络分别计算所选信道资源动作和所选功率等级动作的估计Q值和实际Q值；

步骤4.3.10、根据目标函数(信道资源动作实际Q值-信道资源动作估计Q值)²和(功率等级动作实际Q值-功率等级动作估计Q值)²的平均值进行梯度下降法求解更新Behavior网络参数θ；

步骤4.3.11、将更新后的状态设置为当前状态进行下一次迭代直到学习结束；

步骤4.3.12、每隔固定的迭代次数更新Target网络参数θ^-直到学习结束。

与现有技术相比，本发明D2D通信中联合资源分配和功率控制方法具有以下优点：

1、利用深度强化学习算法使D2D发射机自适应的选择信道和功率资源，同时采用深度Q网络代替Q表来指导智能体更新策略解决了交互序列具有相关性会使得模型不稳定的问题和场景状态空间和动作空见过大的问题。

2、在多任务联合分配的场景下，深度强化学习模块的网络部分采用卷积神经网络(CNN)导出近似Q值来提取学习三维矩阵的特征，并且三层卷积层和两层全连接层后输出两个向量，分别表示两个输出值，这是现有的强化学习Q学习方法难以实现的。

3、将奖励函数定义为系统容量的函数，直观反映智能体的学习状态和优化目标之间的关系。

4、本发明不仅可以确保蜂窝用户的正常通信，还可以最大化信道资源的利用率和系统容量。

附图说明

图1是本发明D2D通信中联合资源分配和功率控制方法中神经网络结构示意图；

图2是本发明D2D通信中联合资源分配和功率控制方法的实现流程示意图；

图3是本发明D2D通信中联合资源分配和功率控制方法中仿真实验针对语音服务和音频电话业务资源分配性能的结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明D2D通信中联合资源分配和功率控制方法作进一步说明：主体技术思路是：在D2D场景中将D2D发射机看作智能体，智能体通过与环境交互，获取当前状态，并采取行动，包括选择信道和选择功率等级的动作，根据环境的奖励反馈来更新策略，获取一种最优的资源分配方案，使得系统容量最大化。智能体与环境交互，然后对环境执行动作，选择信道资源和功率等级，依照状态转移概率改变状态同时环境给出奖励或惩罚反馈。

在某一时刻，一智能体发送通信请求，当该智能体与蜂窝用户或其他智能体共享相同的信道时，它们之间可能存在干扰问题。本发明结合了信道选择和功率选择，其中智能体的动作空间由两种不同的动作组成。因此，在智能体的学习过程中，状态空间和动作空间都是非常复杂的。巨大的状态空间和动作空间使得通过Q学习获取最优策略的方法变得困难，因此本发明采用深度Q网络(Deep Q Network：DQN)来学习在高维输入的情况下，智能体获取最优策略的方案。

如图2所示，本发明的具体实现步骤如下。

步骤一：离散划分信道资源块和功率等级；

在D2D通信场景中，每个小区既有蜂窝用户，又有D2D用户，在同一小区中，每个蜂窝用户发起业务请求的上行信道资源可以被多个D2D用户非正交复用。本发明假设在同一小区内共有M个蜂窝用户和N个D2D用户对，即有M个蜂窝链路、N个D2D发射机及N个D2D链路，本发明将连续信道带宽离散化分为K个资源块，每个信道资源块带宽都相同，相邻的信道资源是总频谱中的相邻部分；将功率分为L个功率级供基站选择，每个D2D用户发射机和蜂窝用户均可选择已划分好的信道资源，并在这些信道资源上选择特定的功率级来传输数据，用户选择的功率级可以相同，也可以不同。

步骤二：对D2D通信场景基于深度强化学习建模。

步骤2.1、在本发明提出的模型中，将D2D发射机设置为智能体，同一小区内有N个D2D对，即N个智能体，该场景为多智能体场景。针对每一个智能体，环境是M个蜂窝用户和其他N-1个D2D用户发射机。智能体通过与环境交互，获取当前状态，并采取行动，包括选择信道和选择功率等级，根据环境的反馈来更新策略。

步骤2.2、本发明定义智能体状态为一个三维矩阵，包括智能体占用信道的状态，选择功率级别的状态和智能体的数量信息；对所有智能体和信道资源块进行编号，每个智能体都有占用信道资源和其选择功率等级的信息。智能体对信道资源的占用情况用二值函数表示，若某一智能体对某一信道资源占用时取值为1，否则为0。另外，该智能体在选择的特定信道上的发射功率用实际选择的功率级别表示，若智能体未选择该信道，则功率为0。

步骤2.3、本发明定义智能体某时刻的动作包括智能体在该时刻选择的信道和功率等级。智能体选择信道的信息包括智能体的编号和所选择信道的编号，用二值函数表示。智能体选择信道并占用表示为1，否则为0。智能体在所选信道上选择功率等级的信息由所选实际功率等级表示。

步骤2.4、奖励函数是实现智能体的学习目标的关键。本发明的学习目标是使智能体自主学习选择信道和功率级获取最优分配策略以达到优化总系统容量的目的。奖励函数与系统容量和约束有关，因此，本发明将系统容量定义为奖励函数，同时为了保证蜂窝链路的通信质量，满足业务的资源需求，本发明考虑D2D用户复用频谱资源时对蜂窝用户信噪比的影响，每次不同服务请求到达时，带宽要求都不同等因素，定义以下D2D用户复用蜂窝用户频谱资源的约束条件：

约束条件一：蜂窝用户的信噪比要大于正常通信需求的最低门限值τ_C；

约束条件二：蜂窝用户传输数据满足当前业务的最低传输速率要求，比如语音服务和音频电话业务成功传输的最小传输速率要求为30kbps，每个蜂窝用户的传输速率计算如下；

Rate_C＝B_c log₂(1+SINR_C)

Rate_C代表蜂窝用户的传输速率，B_c代表该蜂窝用户占用的信道资源带宽，SINR_C代表该蜂窝用户此时的信噪比；

约束条件三：D2D用户传输数据满足当前业务的最低传输速率要求,每个D2D用户的传输速率计算如下；

Rate_D＝B_D log₂(1+SINR_D)

Rate_D代表D2D用户的传输速率，B_D代表该蜂窝用户占用的信道资源带宽，SINR_D代表该D2D用户此时的信噪比；

约束条件四：D2D用户发射机所选的发射功率级不可超过其在信道上传输的最大功率。

步骤三：设计深度Q网络(DQN：Deep Q network)中的用于训练的Behavior网络和用于计算的Target网络的网络结构.

本发明设计DQN中的用于训练的Behavior网络和用于计算的Target网络采用卷积神经网络(CNN)，共有五层，包括三层卷积层用于提取特征和两层全连接层，最后一层分为两个向量，分别表示两个输出值，即可选信道的Q值和可选功率级的Q值，避免现有Q网络的单输出层造成动作信息紊乱的情况。网络结构如图1所示。

步骤四：基于设置好的系统模型，利用深度强化学习的算法使智能体和环境交互进行800-1500次迭代学习输出最优结果，迭代次数对于不同数量级的系统模型是不一样，量级更大的系统模型的次数会更多，即环境越复杂学习时间会越长；

步骤4.1、DQN算法初始化

步骤4.1.1、初始化样本回放缓存区(Replay Buffer)的容量为D，得到一个长度为D的空队列，用来存储智能体与环境交互得到的序列，样本回放缓存区(Replay Buffer)用于存储智能体和环境交互获得的状态、动作、奖励和下一状态的样本信息的，以便于之后从中采样计算误差并训练网络，避免神经网络输入数据的相关性导致整体学习效果不稳定的问题；

步骤4.1.2、依据步骤二对状态动作的设计，初始化智能体的状态、动作模型，得到相应状态、动作矩阵。本发明假设在同一小区内共有M个蜂窝用户和N个D2D用户对，传输功率分为L级，存在K个信道资源块，则初始化的状态矩阵为(M+N)*K*1的三维全零矩阵。每个智能体的可选动作有K*L个为(K+1)*1的二维矩阵；

步骤4.2、环境参数初始化

步骤4.2.2、创建初始状态矩阵，根据步骤二对智能体状态表示的描述为步骤2.2中初始化的状态矩阵和动作矩阵赋值，占用信道为1不占用为0且每个用户只能占用一个信道，即在矩阵的K维度上对应于每个用户只能有一个1值，在状态矩阵的1维度上在L个功率等级上随机选择一个功率等级值；

步骤4.3、迭代学习最优策略

步骤4.3.1、将当前状态输入Behavior网络，经过三层卷积层提取特征和两层全连接层，得到两个输出向量分别表示所有可选信道资源动作和可选功率等级动作的估计Q值

步骤4.3.3、执行所选动作，得到新一轮的状态；

步骤4.3.4、计算D2D用户(智能体)的信噪比：该智能体占用信道传输数据的功率与链路增益的乘积视为该智能体的信号功率，与该用户选择同一信道资源传输数据的其它D2D用户的功率与链路增益乘积之和，加上蜂窝用户的功率与链路增益乘积，以及加性高斯白噪声和邻近小区的干扰功率视为该智能体的总干扰功率，信号功率除以总干扰功率即为该智能体的信噪比，其中，邻近小区的干扰功率与邻近小区内用户的发射功率和距离有关，功率越小，距离越远，干扰越小；

步骤4.3.5、计算蜂窝用户的信噪比：该蜂窝用户占用信道传输数据的功率与链路增益的乘积视为该蜂窝用户的信号功率，与该用户选择同一信道资源传输数据的D2D用户的功率与链路增益乘积之和，加上邻近小区的干扰功率，以及加性高斯白噪声视为该蜂窝用户的总干扰功率，信号功率除以总干扰功率即为该蜂窝用户的信噪比；

步骤4.3.6、计算当前选择动作后更新的状态的系统容量：根据用户选择的信道资源带宽以及用户信噪比，利用香农公式分别计算蜂窝用户通信系统容量D2D用户通信系统容量，二者之和即为混合蜂窝通信和D2D通信系统总容量；

步骤4.3.8、将更新前的状态、所选择的动作、奖励值、更新后的状态作为一组序列存储到Replay Buffer中；

步骤4.3.9、从Replay Buffer中采样一批样本，将采样的样本的状态分别送入Behavior网络和Target网络分别计算所选信道资源动作和所选功率等级动作的估计Q值和实际Q值；

步骤4.3.12、每隔固定的迭代次数更新Target网络参数θ^-直到学习结束；

步骤五：输出学习到的最优策略，即所有用户的信道资源和功率等级的分配情况。

上述步骤主要说明了资源分配和功率控制的过程和利用DQN进行更新的步骤。在训练更新网络参数部分，DQN使用步骤三设计的CNN来近似所选信道和功率的Q值函数。无论选择信道还是功率等级，都可以通过上一步更新的网络参数计算所得的动作集的Q值来学习策略从而选择当前状态下的最优动作。D2D发射机通过与环境的不断交互学习选择信道和功率等级的策略，最终可以保证蜂窝用户正常通信并最大化系统容量。

下面结合仿真实验对本发明作进一步说明，针对一个小区进行具体实验验证。本案例假设有6个D2D用户对随机分布在同一小区内，这些D2D用户复用一个蜂窝用户的频谱资源，总频谱带宽为180kHz，被分为10个信道资源块，每个用户可选2个信道资源，功率被分为[0,4.8,9.6,14.4,19.2,24](dB)5个功率级，每个D2D用户发射机仅可选一个功率级来发送数据，蜂窝用户发射功率固定。

深度神经网络如图1所示。主要仿真参数如表1所示。蜂窝用户对不同的服务有不同的信道资源需求，以语音服务和音频电话业务为例，该业务成功传输的最小带宽要求为30kbps。

本发明的硬件平台为：Intel Core i7-6700 CPU@3.40GHz、8GB RAM、NvidiaQuadro P2000 GPU，软件平台：Linux16.04操作系统、Python3.6，Pytorch0.4.0。

表1实施案例实验参数

参数名称	值
		小区半径	500m
D2D通信距离	50m
		噪声功率/RB	-116dB
蜂窝用户发射功率	23dB
		基站到用户的路径损耗模型	15.3+37.6log(d(km))(dB)
用户到用户的路径损耗模型	28+40log10(d(km))(dB)
		卷积神经网络学习率	0.2
折扣因子	0.99

图3显示了在折扣因子为0.99的情况下，蜂窝用户针对语音服务和音频电话业务的资源分配收敛性能。由于累积奖赏是系统容量的函数，与系统容量正相关，从图3中可以看出随着迭代次数增加，容量逐渐提高，大约在500次达到稳定值。而在不同的服务中，智能体学习得到最终的期望奖励值不同，收敛速度也不尽相同。当服务所需带宽要求较大时，期望奖励值会相应减小，这是因为当蜂窝用户的带宽需求较大时，D2D可复用的信道资源就会相应减少，反之亦然。因此，对频谱需求更少的电子邮件，寻呼和传真服务就会比语音服务和音频电话业务有更好的收敛性能。

Claims

1.一种D2D通信中联合资源分配和功率控制方法，其特征在于：含有以下步骤，

步骤一、离散划分信道资源块和功率等级；

步骤二、对D2D通信场景基于深度强化学习建模；

步骤四、基于设置好的系统模型，利用深度强化学习的算法使智能体和环境交互进行800-1500次迭代学习输出最优结果；

2.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法，其特征在于：所述步骤一中，假设同一小区内共有M个蜂窝用户和N个D2D用户对，即有M个蜂窝链路、N个D2D发射机及N个D2D链路，将连续信道带宽离散化分为K个资源块，每个信道资源块带宽都相同，相邻的信道资源是总频谱中的相邻部分；将功率分为L个功率级供基站选择，每个D2D用户发射机和蜂窝用户均选择已划分好的信道资源，并在信道资源上选择特定的功率级来传输数据。

3.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法，其特征在于：所述步骤二包含以下分步骤，

约束条件一、蜂窝用户的信噪比大于正常通信需求的最低门限值τC；

4.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法，其特征在于：所述步骤三中：用于训练的Behavior网络和用于计算的Target网络共有五层，其中三层卷积层用于提取特征和两层全连接层，最后一层分为两个向量，分别表示两个输出值，即可选信道的Q值和可选功率级的Q值。

5.根据权利要求1所述的D2D通信中联合资源分配和功率控制方法，其特征在于：所述步骤四包含以下分步骤，

步骤4.1、DQN算法初始化，

步骤4.1.3、随机设置Behavior网络参数θ和Target网络参数θ-使网络可用；

步骤4.2、环境参数初始化，

步骤4.3、迭代学习最优策略，

步骤4.3.3、执行所选动作，得到新一轮的状态；

步骤4.3.4、计算智能体的信噪比：该智能体占用信道传输数据的功率与链路增益的乘积视为该智能体的信号功率，与该用户选择同一信道资源传输数据的其它D2D用户的功率与链路增益乘积之和，加上蜂窝用户的功率与链路增益乘积，以及加性高斯白噪声和邻近小区的干扰功率视为该智能体的总干扰功率，信号功率除以总干扰功率即为该智能体的信噪比；

步骤4.3.12、每隔固定的迭代次数更新Target网络参数θ-直到学习结束。