CN114885426B

CN114885426B - 一种基于联邦学习和深度q网络的5g车联网资源分配方法

Info

Publication number: CN114885426B
Application number: CN202210483178.0A
Authority: CN
Inventors: 华雨晴; 宋晓勤; 杨润泽; 胡淑慧
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-04-16
Anticipated expiration: 2042-05-05
Also published as: CN114885426A

Abstract

本发明提出的一种基于联邦学习和深度Q网络的5G车联网资源分配方法，采用混合频谱接入技术进行传输，利用深度强化学习获得最优的V2V链路信道分配和发射功率联合优化策略，引入联邦学习保证用户隐私和数据安全。该算法能够在满足V2V链路延迟和信干噪比门限约束下，最大化网络联合频谱和能量效率。本发明使用FDQN算法可以有效解决V2V链路信道分配和功率选择的联合优化问题，可以在一系列连续状态空间的优化中表现稳定。

Description

一种基于联邦学习和深度Q网络的5G车联网资源分配方法

技术领域

本发明涉及一种车联网技术，尤其涉及一种车联网的资源分配方法，更具体地说，涉及一种基于联邦学习和深度Q网络(Federated learning and Deep Q-Network，FDQN)的5G车联网资源分配方法。

背景技术

车联网(Vehicle-to-everything，V2X)作为智能交通系统(IntelligentTransportation System，ITS)中重要的一环，能够在许多方面实现高效的交通管理，例如道路安全、运输效率和互联网接入等。V2X基础架构支持的服务包括车对车(Vehicle-to-vehicle，V2V)、车对基础设施(Vehicle-to-Infrastructure，V2I)、车对行人(Vehicle-to-Pedestrian，V2P)、车对路侧单元(Vehicle-to-Road Side Unit，V2R)等。

为了满足通信量的与日俱增和通信速率需求的大幅提升，在3GPP长期演进V2X(Long-Term Evolution V2X，LTE V2X)的基础上提出了新空口V2X(New Radio V2X，NRV2X)。其中包括侧链(Sidelink，SL)通信，指终端节点或用户设备(User Equipment，UE)之间的直接通信，而无需数据通过网络。

侧链资源分配具有2种模式，分别是基站安排侧链资源的集中受控模式和UE自行选择侧链资源的分布自治模式。大部分的资源分配方案是以集中方式进行的，每个车辆都要向中央控制器报告信道状态信息(channel state information，CSI)等本地信息。集中式的传输开销很大，并且随着网络规模的扩大而急剧增长。一些研究提出了分布式的资源分配机制，V2V链路首先根据位置和负载相似性分组到集群中，然后将资源块(ResourceBlock，RB)分配给每个集群，并在每个集群中，通过迭代交换两个V2V链路的频谱分配来改进分配，分布式方法更加自主和健壮。

通信量的与日俱增和通信速率需求的大幅提升给车联网资源分配带来了挑战。资源管理常常被表述为优化问题，其中对链路时延、功率、服务质量(Quality of Service，QoS)等的需求在优化约束中得到解决。传统优化方案存在如下问题：一是需要完整的信道状态信息，这在无线信道快速变化的动态环境中很困难；二是5G切片技术对车联网的高可靠性和低延时提出了需求，增加了资源分配的难度，在传统的资源分配方法中建模变得困难。为了解决这些问题，深度强化学习被广泛用于处理车辆通信中的资源分配，并且可以通过中心化训练去中心化执行(Centralized Training Decentralized Execution，CTDE)框架实现半分布式算法。然而，由于其集中式的训练，算法仍存在开销大的弊端。为了平衡集中式训练开销大和分布式收敛慢的问题，同时保护用户数据的隐私，联邦学习被引入车联网资源分配。所有用户在本地计算对模型的更新，一定聚合间隔后，用户上传更新梯度，基站收集用户更新完成汇总，并下发到用户。在联邦学习中，用户在基站的协调下共同训练模型，同时保持训练的去中心化和分散性。因此，本发明提出一种基于FDQN的5G车联网资源分配算法，该方法针对基于5G网络切片技术的侧链通信，并以系统联合能量和频谱效率最大化作为资源分配的优化目标，同时在复杂度和性能之间取得了很好的平衡。

发明内容

发明目的：针对现有技术存在的上述问题，提出一种基于FDQN的5G车联网分布式侧链资源分配方法，V2V通信从uRLLC切片请求服务。该方法拟采用混合频谱接入技术进行传输，能以较低的V2V链路延迟实现系统联合能量和频谱效率最大化。

技术方案：在考虑V2V链路延迟的情况下，以合理高效的资源分配达到系统联合能量和频谱效率最大化的目的。为提高网络传输速率同时提升频谱利用率，采用混合频谱接入技术进行传输，V2I链路和V2V链路共享信道资源。采用分布式的资源分配方法，不需要基站集中调度信道状态信息，将每条V2V链路视为智能体，并且基于本地观察状态信息和每个时隙从基站广播的信道信息来选择信道和发射功率。通过建立深度强化学习模型，利用FDQN算法优化深度强化学习模型。按照聚合间隔，用户上传更新梯度，基站执行聚合算法，并下发到用户。根据优化后的FDQN模型，得到最优的V2V用户发射功率和信道分配策略。完成上述发明通过以下技术方案实现：一种基于FDQN的5G车联网资源分配方法，包括步骤如下：

(1)，车联网中的通信业务分为两种类型即，车辆与路边设施之间(V2I)的高速率通信请求以及车与车之间(V2V)与行车安全相关的数据传输，要求低延时高可靠性的通信；

(2)，采用混合频谱接入技术进行传输，V2I链路和V2V链路共享信道资源；

(3)，构建包括M对V2I链路和K对V2V链路和授权带宽为W₀的车联网资源分配系统模型；

(4)，V2V链路获取信道信息G_k[m]，V2V链路受到的干扰I_k[m]，负载B_k，剩余时延T_k；

(5)，采用分布式的资源分配方法，在考虑V2V链路延迟和信干噪比门限的情况下，以合理高效的资源分配达到系统联合频谱和能量效率最大化为目标构建深度强化学习模型；

(6)，为提高分布式深度强化学习模型性能的同时保护用户隐私和数据安全，利用联邦学习优化深度强化学习模型；

(7)，考虑连续状态空间和离散动作空间的优化问题，利用FDQN算法进行资源分配的深度强化学习模型训练；

(8)，在执行阶段，V2V链路根据本地观察获得当前状态S_t(k)，利用训练好的模型得到最优V2V用户发射功率和信道分配策略；

进一步的，所述步骤(3)包括如下具体步骤：

(3a)，建立V2V用户资源分配系统模型，系统包括M对V2I链路和K对V2V链路，链路分别用集合M＝{1，2...，M}和K＝{1，2...，K}表示，V2V链路的用户设备从uRLLC切片请求服务。总的授权带宽W₀被等分成M个带宽为W的子信道，子信道用集合表示；

(3b)，第m条V2I链路在第m个子带上的SINR可以表示为：

第m条V2I链路的信道容量可以表示为：

其中，和/>分别表示第m个V2I UE和第k个V2VUE的发射功率，σ²表示噪声功率，g_m[m]表示第m条V2I的信道的功率增益，/>表示第k条V2V链路到第m条V2I链路的干扰功率增益，ρ_k[m]表示频谱分配指示符，ρ_k[m]＝1表示第k个V2V链路复用第m个V2I链路的频谱，否则ρ_k[m]＝0；

(3c)，同样地，第k条V2V链路在第m个子带上的SINR可以表示为：

第k条V2V链路在第m个子带上的信道容量可以表示为：

其中

I_k[m]是共享相同子带的所有V2V链路和V2I链路的总干扰功率，g_k[m]是第k条V2V链路车联网用户的信道增益，是第k′条V2V链路对第k条V2V链路的干扰增益；

(3d)，仅考虑传输时延作为V2V链路的时延，因此链路对时延的约束可以写为

其中B_k为VUE需要传输的剩余负载，T_k为链路相对于最大可容忍时延的剩余时延；

V2V通信的可靠性约束条件可以用下式表示：

其中，γ^th是第k条V2V链路上的VUE接收机的信干噪比门限。

(3e)，V2I链路的联合频谱和能量效率可以表示为：

V2V链路的联合频谱和能量效率可以表示为：

其中，P_c是电路功率。

网络联合频谱和能量效率定义为V2I链路和V2V链路联合频谱和能量效率的加权和：

ζ^net＝λ₁ζ^V2I+λ₂ζ^V2V 表达式10

(3f)，综上，可以建立如下的目标函数和约束条件：

其中，约束条件C1和C2是对V2V链路的可靠性和时延约束，约束条件C3说明VUE在所有子带上发射的总功率不能超过最大额定发射功率，约束条件C4和C5意味着每条V2V链路只能分配到一个子带，但是同一个子带可以有多条V2V链路的接入；

进一步的，所述步骤(5)包括如下具体步骤：

(5a)，具体地定义状态空间S为与资源分配有关的信息，包括子信道m上链路瞬时信道信息G_k[m]，子信道m上V2V链路接收到的干扰I_k[m]，V2V用户传输的剩余负载B_k，剩余时延T_k，训练回合数e和ε-贪心算法中的随机探索变量ε，即

s_t(k)＝{{G_k[m]}_m∈M，{I_k[m]}_m∈M，B_k，T_k，e，ε} 表达式12

将V2V链路视为智能体，每次V2V链路基于当前状态s_t(k)∈S选择信道和发射功率；

(5b)，定义动作空间A为发射功率和选择的信道，表示为：

其中为第k个V2V链路用户的发射功率，C_k为第m个信道被第k个V2V链路用户使用情况，共有p个离散的功率值和M个子带供选择，因此动作空间为p×M；

(5c)，定义奖励函数R，V2V资源分配的目标是V2V链路选择频谱子带和发射功率，在满足延迟约束，V2V链路信干噪比门限要求下最大化系统联合频谱和能量效率。因此奖励函数可以表示为：

其中，

其中为第k条V2V链路的信道容量，A₁为一个固定的较大常数值，A₂也为一个常数，λ₃和λ₄为权重。奖励函数的设置使得V2V链路的负载被传输完时，获得的奖励最大；而在链路传输过程中，较高的网络效率会获得较大的奖励，而不满足要求的信干噪比和传输速率会获得惩罚。

为了获得长期的良好回报，应同时考虑眼前的回报和未来的回报。因此，强化学习的主要目标是找到一种策略来最大化预期的累积折扣回报，

其中β∈[0，1]是折扣因子；

(5d)，依据建立好的S，A和R，在Q学习的基础上建立深度强化学习模型，采用双深度Q网络算法，在计算损失函数时，预测网络选择t+1时刻的动作a_t+1(k)，目标网络根据t+1时刻的状态s_t+1(k)和动作a_t+1(k)得出t+1时刻的Q值，以缓解Q值高估问题；在更新网络时，每个智能体都需要最小化如下的损失函数实现梯度下降：

其中，θ^k和θ^k′分别是第k个智能体的预测网络和目标网络参数。Q(s_t(k)，a_t(k)，θ^k)表示神经网络θ^k下对于状态s_t(k)采取动作a_t(k)获得的价值函数，D为样本空间；

进一步，所述步骤(6)包括如下具体步骤：

(6a)在每个聚合间隔，V2V链路用户将本地预测网络参数θ^k上传给基站服务器；

(6b)基站服务器执行聚合算法，获得全局网络参数；聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果，具体公式如下：

其中，θ^global和θ^k分别是全局网络和第k个本地预测网络的参数，N_k和N分别是第k个V2V链路和所有V2V链路的训练批量大小，以其比值来衡量第k个客户端模型参数的贡献度；

(6c)基站服务器将聚合后的模型θ^global分发给V2V链路；

(6d)所有V2V链路更新本地网络θ^k和θ^k′，根据本地观察进行局部的深度强化学习模型训练；如果训练回合数小于预设值，进入步骤(6a)，反之训练结束；

进一步的，所述步骤(7)包括如下具体步骤：

(7a)，启动环境模拟器，初始化每个智能体的预测网络参数θ^k和目标网络参数θ^k′；

(7b)，初始化训练回合数P；

(7c)，更新车辆位置、大尺度衰落、负载和剩余时延等，并初始化P回合中的时间步t；

(7d)，异步地对每个智能体运行预测网络，根据输入状态s_t(k)，输出动作a_t(k)，并获取即时的奖励r_t(k)，同时转到下一状态s_t+1(k)，从而获得训练数据(s_t(k)，a_t(k)，r_t(k)，s_t+1(k))；

(7e)，将训练数据(s_t(k)，a_t(k)，r_t(k)，s_t+1(k))存入各自的经验回放池中；

(7f)，每个智能体从经验回放池中随机采样N_k个训练数据(s_t(k)，a_t(k)，r_t(k)，s_t+1(k))构成数据集D，输入预测网络θ^k；

(7g)，每个智能体通过预测网络和目标网络计算出损失值Loss(k)，采用小批量梯度下降策略，通过神经网络的反向传播来更新智能体预测网络θ^k的参数；

(7h)，训练次数达到目标网络更新间隔，根据预测网络参数θ^k更新目标网络参数θ^k′；

(7i)，判断是否满足t＜K，K为p回合中的总时间步，若是，t＝t+1，进入步骤(7c)，否则，进入步骤(7j)；

(7j)，训练回合数p达到联邦学习聚合间隔，V2V链路用户将本地预测网络参数θ^k上传给基站服务器；gNB运行聚合算法，更新所有智能体的网络参数θ^k和θ^k′；

(7k)，判断是否满足p＜I，I为训练回合数设定阈值，若是，p＝p+1，进入步骤(7c)，否则，优化结束，得到优化后的深度强化学习模型；

进一步的，所述步骤(8)包括如下具体步骤：

(8a)，利用FDQN算法训练好的深度强化学习模型，输入某时刻的状态信息s_t(k)；

(8b)，输出最优动作策略得到最优的V2V用户发射功率/>和分配信道C_k。有益效果：本发明提出的一种基于FDQN算法的5G车联网资源分配方法，采用混合频谱接入技术进行传输，利用深度强化学习获得最优的V2V链路信道分配和发射功率联合优化策略，V2V用户通过选择合适的发射功率和分配信道，来降低V2V链路之间的相互干扰和对V2I链路的干扰，在满足链路延迟的约束下，最大化系统联合能量和频谱效率。本发明使用FDQN算法可以有效解决V2V用户信道分配和功率选择的联合优化问题，可以在一系列连续状态空间的优化中表现稳定。

综上所述，在保证资源分配合理，V2V和V2V链路间低干扰以及计算复杂度低的情况下，本发明提出的一种基于FDQN算法的5G车联网资源分配方法在最大化系统联合能量和频谱效率方面是优越的。

附图说明

图1为本发明实施例提供的基于FDQN的5G车联网资源分配算法结构示意图；

图2为本发明实施例提供的5G车联网资源分配的深度强化学习模型示意图；

图3为本发明实施例提供的基于服务器-客户端结构的联邦学习框架示意图；

图4为本发明实施例提供的FDQN算法下网络联合频谱和能量效率与负载关系的仿真结果图。

具体实施方式

本发明的核心思想在于：V2I和V2V通信以混合频谱方式接入，采用分布式的资源分配方法，将每条V2V链路视为智能体，通过建立深度强化学习模型，利用FDQN算法优化深度强化学习模型。根据优化后的FDQN模型，得到最优的V2V用户发射功率和信道分配策略。

下面对本发明做进一步详细描述。

步骤(1)，车联网中的通信业务分为两种类型即，车辆与路边设施之间(V2I)的高速率通信请求以及车与车之间(V2V)与行车安全相关的数据传输，要求低延时高可靠性的通信；

步骤(2)，采用混合频谱接入技术进行传输，V2I链路和V2V链路共享信道资源；

步骤(3)，构建包括M对V2I链路和K对V2V链路和授权带宽为W₀的车联网资源分配系统模型，包括如下步骤：

(3b)，第m条V2I链路在第m个子带上的SINR可以表示为：

第m条V2I链路的信道容量可以表示为：

其中，和/>分别表示第m个V2I UE和第k个V2VUE的发射功率，σ²表示噪声功率，g_m[m]表示第m条V2I的信道的功率增益，/>表示第k条V2V链路到第m条V2I链路的干扰功率增益，ρ_k[m]表示频谱分配指示符，ρ_k[m]＝1表示第k个V2V链路复用第m个V2I链路的频谱，否则ρ_k[m]＝0。

(3c)，同样地，第k条V2V链路在第m个子带上的SINR可以表示为：

第k条V2V链路在第m个子带上的信道容量可以表示为：

其中

其中B_k为VUE需要传输的剩余负载，T_k为链路相对于最大可容忍时延的剩余时延。

V2V通信的可靠性约束条件可以用下式表示：

其中，γ^th是第k条V2V链路上的VUE接收机的信干噪比门限。

(3e)，V2I链路的联合频谱和能量效率可以表示为：

V2V链路的联合频谱和能量效率可以表示为：

其中，P_c是电路功率。

ζ^net＝λ₁ζ^V2I+λ₂ζ^V2V 表达式10

(3f)，综上，可以建立如下的目标函数和约束条件：

其中，约束条件C1和C2是对V2V链路的可靠性和时延约束，约束条件C3说明VUE在所有子带上发射的总功率不能超过最大额定发射功率，约束条件C4和C5意味着每条V2V链路只能分配到一个子带，但是同一个子带可以有多条V2V链路的接入。

步骤(4)，V2V链路获取信道信息G_k[m]，V2V链路受到的干扰I_k[m]，负载B_k，剩余时延T_k；

步骤(5)，采用分布式的资源分配方法，在考虑V2V链路延迟和信干噪比门限的情况下，以合理高效的资源分配达到系统联合频谱和能量效率最大化为目标构建深度强化学习模型；

深度Q网络的深度强化学习模型采用预测网络和目标网络两个网络，预测网络用于预测当前状态当前动作的Q值，目标网络用于预测下一时刻状态所有动作的Q值；利用经验回放技术进行训练，采用ε-贪心算法平衡探索和利用，并在两个网络之间定义一个损失函数，通过梯度下降的方法优化预测网络权重θ^k；在训练一定次数后，目标网络权重θ^k′会由预测网络权重θ^k移植更新；

为了解决Q值被高估的问题，引入双深度Q网络算法，在计算下一时刻状态的最大Q值时，利用预测网络选择使Q值最大的动作，而用目标网络计算该动作带来的Q值，因为当网络的某一状态某一动作的Q值被高估时，只要用另一个网络的Q值进行预测就能有效解决该问题；

包括如下步骤：

(5a)，具体地定义状态空间S为与资源分配有关的信息，包括子信道m上链路瞬时信道信息G_k[m]，子信道m上V2V链路接收到的干扰I_k[m]，V2V用户传输的剩余负载B_k，剩余时延T_k，训练循环数e和ε-贪心算法中的随机探索变量ε，即

s_t(k)＝{{G_k[m]}_m∈M，{I_k[m]}_m∈M，B_k，T_k，e，ε} 表达式12

(5b)，定义动作空间A为发射功率和选择的信道，表示为：

其中，

其中β∈[0，1]是折扣因子；

(6)为提高分布式深度强化学习模型性能的同时保护用户隐私和数据安全，利用联邦学习优化深度强化学习模型；

联邦学习采用服务器-客户端架构，传输的不再是原始数据而是模型参数，能够很好地解决机器学习对数据多样性的需求和用户对隐私数据的保护之间的矛盾，在服务器的调度下可以利用分布式的节点和数据实现全局模型的共同训练；

包括如下步骤：

(6c)基站服务器将聚合后的模型θ^global分发给V2V链路；

(7)，考虑连续状态空间和离散动作空间的优化问题，利用FDQN算法进行资源分配的深度强化学习模型训练，包括如下步骤：

(7b)，初始化训练回合数P；

步骤(8)，根据优化后的FDQN模型，得到最优V2V用户发射功率和信道分配策略，包括如下步骤：

(8b)，输出最优动作策略得到最优的V2V用户发射功率/>和分配信道C_k。

在图1中，描述了基于FDQN的5G车联网资源分配算法的结构，利用gNB服务器的聚合算法，对分布式V2V链路的Double DQN模型训练进行加速和全局优化，以获得最优的侧链信道分配和功率控制策略。

在图2中，描述了5G车联网资源分配的深度强化学习模型，可以看出V2V链路作为智能体基于当前状态根据策略选择信道和发射功率，并从环境中获取奖励。

在图3中，描述了基于服务器-客户端结构的联邦学习框架，客户端将经过局部训练的模型参数上传给服务器进行聚合，以达到隐私保护和加快训练的作用。

在图4中，描述了FDQN算法下网络联合频谱和能量效率与负载关系的仿真结果，在不同V2V链路负载情况下，FDQN算法相比一般分布式算法能够提高45％左右，相比随机算法能够提高80％以上。

根据对本发明的说明，本领域的技术人员应该不难看出，本发明的基于联邦学习和深度Q网络的5G车联网资源分配方法可以提高系统性能并且能保证用户隐私。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于联邦学习和深度Q网络的5G车联网资源分配方法，其特征在于，包括步骤如下：

(1)将车联网中的通信业务分为两种类型，即车辆与路边设施之间(V2I)的高容量通信请求以及车与车之间(V2V)与行车安全相关、要求低延时高可靠性的通信请求；

(2)采用混合频谱接入技术进行传输，V2I链路和V2V链路共享信道资源；

(3)构建的车联网资源分配系统模型为M对V2I链路和K对V2V链路共用授权带宽为W₀的信道；

(4)采用分布式的资源分配方法，在考虑V2V链路延迟和信干噪比门限的情况下，以系统联合频谱和能量效率最大化为目标构建分布式深度强化学习模型；

(5)为提高分布式深度强化学习模型性能的同时保护用户隐私和数据安全，利用联邦学习优化深度强化学习模型；

(6)在执行阶段，V2V链路根据本地观察获得当前状态S_t(k)，利用训练好的模型得到最优V2V用户发射功率和信道分配策略；

进一步，所述步骤(4)包括如下具体步骤：

(4a)定义状态空间S为与资源分配有关的观测信息和低维度指纹信息，包括子信道m上链路瞬时信道状态信息G_k[m]，子信道m上V2V链路接受到的干扰I_k[m]，V2V链路传输的剩余负载B_k，剩余时延T_k，训练回合数e和ε-贪心算法中的随机探索变量ε，即

s_t(k)＝{{G_k[m]}_m∈M，{I_k[m]}_m∈M，B_k，T_k，e，ε}

(4b)，定义动作空间A为发射功率和选择的信道，表示为

C_k∈{1，2，...，M}

其中，为第k个V2V链路用户离散的发射功率级，C_k∈{1，2，...，M}为第k个V2V链路接入的子带序列，共有p个离散的功率值和M个子带供选择，因此动作空间为p×M；

(4c)定义奖励函数R，侧链资源分配的目标是V2V链路选择频谱子带和发射功率，在满足延迟约束和V2V链路信干噪比门限要求下，最大化网络联合频谱和能量效率，因此奖励函数可以表示为：

其中，

其中，ζ^net、ζ^V2I和ζ^V2V分别为网络、V2I链路和V2V链路联合频谱和能量效率，γ^d为V2V链路信干噪比门限，为第k条V2V链路的信道容量，λ₁、λ₂、λ₃和λ₄为权值，A₁和A₂为固定的奖励值；

(4d)依据建立好的S，A和R，在Q学习的基础上建立深度强化学习模型；采用双深度Q网络算法，在计算损失函数时，预测网络选择t+1时刻的动作a_t+1(k)，目标网络根据t+1时刻的状态s_t+1(k)和动作a_t+1(k)得出t+1时刻的Q值，以缓解Q值高估问题；在更新网络时，每个智能体都需要最小化如下的损失函数实现梯度下降：

其中，β为折扣因子，θ^k和θ^k′分别为第k个智能体的预测网络和目标网络参数，D为样本空间；

进一步，所述步骤(5)包括如下具体步骤：

(5a)在每个聚合间隔，V2V链路用户将本地预测网络参数θ^k上传给基站服务器；

(5b)基站服务器执行聚合算法，获得全局网络参数；聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果，具体公式如下：

(5c)基站服务器将聚合后的模型θ^global分发给V2V链路；

(5d)所有V2V链路更新本地网络θ^k和θ^k′，根据本地观察进行局部的深度强化学习模型训练；如果训练回合数小于预设值，进入步骤(5a)，反之训练结束。