CN113778648B

CN113778648B - 分层边缘计算环境中基于深度强化学习的任务调度方法

Info

Publication number: CN113778648B
Application number: CN202111012837.4A
Authority: CN
Inventors: 陈卓; 卫佩宏
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-07-11
Anticipated expiration: 2041-08-31
Also published as: CN113778648A

Abstract

本发明公开了一种分层边缘计算环境中基于深度强化学习的任务调度方法；包括，基于Sequence‑to‑Sequence(Seq2Seq)建立的的神经网络模型，将该模型应用于求解最优的任务到边缘服务节点的映射，作为智能体中的神经网络结构；采用基于蒙特卡洛策略梯度的深度强化学习方法训练训练该模型，使得该模型具备自学习能力，以具备优化任务调度决策的能力；并在系统中部署有融合神经网络求解和启发式算法的任务调度算法，使得能显著提升调度决策的质量并能在效率与质量之间得到平衡。

Description

分层边缘计算环境中基于深度强化学习的任务调度方法

技术领域

本发明涉及计算机技术领域，具体涉及服务节点依照距离移动用户端的距离分层部署的边缘计算环境中，在面对任务请求动态化以及边缘服务节点资源异构化的情况下，一种基于深度强化学习的智能任务调度方法。

背景技术

随着云计算的快速发展和大规模部署，越来越多的移动应用将其计算密集型任务卸载到云数据中心，通过利用云端丰富的IT资源(如：计算资源、存储资源和网络资源)有效降低本地资源的开销。

但是，远端卸载任务需要较长的数据传输延迟，这影响了任务卸载之后移动应用的体验，特别是对于延迟敏感的移动应用，如：语音辨识和控制，视频图像的识别，交互游戏等应用。为了降低延迟改善移动应用体验，同时优化云数据中心的IT资源负载，边缘计算(边缘云)和雾计算等近端计算模式被提出。

边缘计算通过将许多规模较小的服务节点部署在网络边缘，使得附近的移动用户可以通过无线连接就近访问边缘云服务节点，这样移动设备可以在距离自己更近的边缘云中获得服务，在有效降低服务延迟的同时也避免了云数据中心的资源过载。随着分层部署边缘节点的新模式被提出，即根据任务规模和当前边缘节点的负载，让处于不同层次的节点为任务提供服务，从而达到服务更多任务的目的。如何在多个节点分层部署的边缘云中实现高效的任务调度决策，并使任务所获得的服务延迟最低需要同时考虑：(1)任务对边缘云的资源请求的差异；(2)当前的边缘云系统负载状况；(3)在IT资源异构且分层部署的多个服务节点上进行服务匹配决策；(4)调度决策应在尽可能短的时间做出且调度方案应尽可能逼近理论最优。

发明内容

针对现有技术中的缺陷，本发明提供一种分层边缘计算环境中基于深度强化学习的任务调度方法，以解决上述背景技术中的问题。

本发明的一目的在于提供了一种对于(Seq2Seq)模型的全新应用方案；

本发明的另一目的在于提出了一种使用融合神经网络和启发式混合方法完成任务调度决策的方法；

本发明的再一目的在于提供一种具有自学能力的且使得服务延极大减小的任务调度方法。

为达到上述目的，本发明提供了一种融合神经网络求解和启发式算法的任务调度方法，应用于分层边缘计算环境中，包括以下：

S1、建立一个基于Seq2Seq的神经网络模型，通过该神经网络模型完成卸载任务对边缘云节点的映射；

S2、采用基于蒙特卡洛策略梯度的深度强化学习方法训练基于Seq2Seq的所述神经网络模型，使得基于Seq2Seq的所述神经网络模型作为强化学习中的智能体并获得自学习以优化任务调度决策的能力；其中训练过程为：

1)状态集合：所有系统状态的集合，将边缘云向任务提供服务所产生的延迟作为状态，通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟，即产生状态间的转化。将此状态集合表示为：

S^t＝{h₁(t)，h₂(t)，…，h_n(t)} (10)

其中，h_i(t),i∈[1,n]表示在时间t第i个任务调度至服务节点h_i(t)上；

2)动作空间：把边缘计算中心化协调器可能产生的潜在调度策略定义为动作空间，即一种调度策略是动作集合中的一个元素。此动作集合为：

上式中，

j∈[1，m]表示在时间t边缘云中心化协调器对第j个任务的调度动作；

3)回报模型：本发明中定义了系统的奖励和惩罚，将整个系统建模为带约束的优化问题，对违反约束条件的情况进行计算，并得到惩罚，其惩罚函数为：

其中

式中

为每次执行动作后违反约束的惩罚期望，/>

求得了系统中违反服务率，网络带宽，存储资源以及链路带宽约束条件的惩罚值总和，其中λ_x为惩罚因子，并定义了边缘云向任务提供服务的总延迟L，系统的动作奖励表示为：

所以，卸载任务调度模型的效益函数可表示为：

式中I(s^t，a^t，s^t+1)表示系统在状态为s^t选择行动a^t后，系统所获得的总收益，式中

为系统的总支出，系统目标为将收益最大化，即得到如下优化问题：

其中，η^t为折扣因子(0＜η^t＜1)，并且η^t随着时间增加其值减少，得到最优策略π为系统中对于卸载任务的调度决策。

S3、在系统中部署首次适应启发式算法；当边缘云接收到任务后，会同时生成以通过步骤S2训练后的模型输出的调度解与启发式算法的调度解，所述边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估，并在惩罚值小于零的基础上选择预期延迟最低的解为最优解；当出现调度解的惩罚值均大于零，或存在算法无法完成调度任务的情况，所述边缘计算中心化协调器将以通过步骤S2训练后的模型输出的调度最优解为主要策略，以启发式调度算法为辅助调度算法获得在边缘云中总延迟最小，服务质量最高的调度方案。

进一步地，在步骤S3中融合神经网络求解和启发式算法混合的方法包括以下：

移动应用将自己的资源密集型任务通过就近连接的基站BS卸载至边缘云，当边缘云接收到任务后，会同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解，边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估，并在惩罚值小于零的基础上选择预期延迟最低的解为最优解；当出现调度解的惩罚值均大于零，或存在算法无法完成调度任务的情况，边缘计算中心化协调器将以Seq2Seq神经网络训练后输出的调度最优解为主要策略，以启发式调度算法为辅助调度算法；按照神经网络输出的主要策略依次完成对请求的调度，并在依次对请求任务执行调度时，检查完成本次操作是否会违反系统的服务率，网络带宽，存储资源以及链路带宽的四项约束，若违反则使用辅助调度算法，在可用服务节点中为该请求任务重新选择适合的服务节点。

进一步地，在步骤S2中基于蒙特卡洛策略梯度的深度强化学习下式(15)的方法包括以下：

得到的最优策略函数π_θ(a|h(t))的具体参数，其中h_i(t)∈S^t为输入的任务请求，策略函数π_θ(a|h(t))中概率高的将会分配给惩罚低的动作a，概率低的则会分配给惩罚高的动作a，任务请求序列中未被调度的任务请求将根据已调度的的任务a_h*和环境状态向量共同决定，即：基于历史调度以决定剩余任务的调度操作

一旦智能体在学习过程中达到收敛状态，向系统输入任务时，智能体将会返回合理的调度策略；为评估模型参数，策略梯度法定义了表示权重θ的每个向量的期望回报的目标式；该式为评估调度策略质量的优化目标式，且被每一种不同的调度策略定义，具体由当前环境状态和神经网络模型而设定，因而不直接依赖于模型，只取决于每一次智能体生成的调度策略；为此，定义了与输入请求调度策略相关的预期延迟La：

Agent通过每次输入的任务推断调度策略；因此根据任务分布的期望定义了预期延迟：

如式(19)，问题转化为在满足约束条件的前提下，找到最小化预期延迟期望的策略，其中

为在式(14)定义的系统中违反服务率，网络带宽，存储资源以及链路带宽四项约束条件的惩罚值总和：

利用拉格朗日松弛算法，将公式(19)转化为无约束问题等式(20)，等式(20)中，

为拉格朗日目标式：

采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ：

使用对数似然法获得拉格朗日函数的梯度；其中，L(a|h(t))为转化为无约束问题的拉格朗日对偶函数：

通过蒙特卡罗法对输入采样K个，分为h₁(t)，h₂(t)，…，h_K(t)，同时通过引入Baseline辅助网络b_θ，减小了梯度的方差且没有引入偏差，加快了收敛速度，从而获得更加优质稳定的输出策略，因此将

作近似处理为：

使用Baseline辅助网络，预测了当前调度策略的惩罚，并采用随机梯度下降法对预测值b_θ(h_j(t))与环境实际惩罚值L(a|h_j(t))的均方误差进行训练。

本发明的有益效果体现在：

(1)针对边缘网络卸载任务的Seq2Seq结构。本方法将机器翻译领域的Sequence-to-Sequence(Seq2Seq)模型，首次应用于求解最优的任务到边缘服务节点的映射，作为智能体中的神经网络结构，不仅能够能够有效完成任务对边缘服务节点的映射，且能够高效地提取卸载任务到达顺序这一特征。这种结构对于边缘网络中按序到达的批量网络任务这类需要连续进行信息采样尤其适合。

(2)提出使用融合神经网络和启发式混合方法完成任务调度决策。本方法以计算机算法的形式部署于边缘计算中心化协调器。该方法将强化学习应用于边缘网络中，在智能体于环境信息不断交互的过程，能显著提升调度决策的质量。神经网络和启发式融合方法使得任务调度解在求解质量与求解效率取得了良好的平衡。

(3)该方法使得任务请求的服务延迟大大减小。本方法的实验结果证明能够在与多数算法对比下最接近理论最优解，同时方法的开销相较于其他算法更小。

(4)本方法具有自学习的能力。本方法建立在网络场景中任务请求多变的数据基础之上，当出现历史数据中没有涵盖的任务需求以及到达顺序，环境能够将判断结果反馈至智能体Agent，极大提高了该方法在各种网络场景下的适应能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明面向分层边缘云的任务请求传输图；

图2为本发明中基于Seq2Seq神经网络的智能体训练流程图；

图3为本发明中强化学习的动作-奖励反馈循环图；

图4为本发明中JNNHSP算法执行的流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，本发明的场景适用于边缘网络场景。移动应用将自己的资源密集型任务通过就近连接的基站(Base station,BS)卸载至边缘云，边缘计算中心化协调器(Centralized Coordinator,CC)通过周期性的和边缘服务节点进行交互，能够及时了解当前分每个边缘服务节点的可用IT资源。当任务卸载至边缘云后，CC根据任务对各种资源的请求以及当前服务节点可用资源，运行调度策略将任务调度至合适的服务节点加以执行。

本发明提出的融合神经网络求解和启发式混合方法的任务调度算法(JointNeural Network and Heuristic Scheduling Policy，JNNHSP)将以计算机算法的形式部署于CC，CC按卸载任务到达网络的时间先后顺序进行调度决策并周期性的执行调度策略，在一批卸载任务执行完后为新的一批任务进行调度决策；其中本发明还构建了基于Seq2Seq的边缘云任务调度策略求解框架，以及基于蒙特卡洛梯度策略的强化学习训练方法以及融合神经网络和启发式算法的任务调度算法。

其具体为：首先在系统建立了一个基于序列到序列(Seq2Seq)的神经网络模型，通过基于Seq2Seq的神经网络模型完成卸载任务对边缘云节点的映射，采用基于蒙特卡洛策略梯度的深度强化学习(DRL)方法训练基于Seq2Seq神经网络模型，使得基于Seq2Seq的神经网络模型获得自学习以优化任务调度决策的能力，从而保证任务调度决策的质量。同时在系统中部署首次适应启发式算法，并在以上方法均无法提供优质的任务调度策略时，使用融合神经网络求解和启发式算法混合方法的任务调度算法获得在边缘云中总延迟最小，服务质量最高的调度方案。

如图2、图3所示，上述中的基于Seq2Seq的神经网络模型求解框架，通过使用强化学习策略梯度法对该模型进行训练过程：

该模型中的编码器与解码器由长短时记忆神经网络模型(Long Short-TermMemory,简称LSTM)构成，其解码步长与输入序列相同。到达边缘云的任务请求作为模型的输入，输入向量表示为R＝{r₁,r₂,…,r_n}，输出为将任务调度到的边缘云节点。模型将请求转化为词向量输入编码器，编码器保存由输入序列的隐藏状态之和组成的上下文向量，并进行加权处理输入解码器。解码器的隐藏状态是自身状态与上下文向量编码器状态相结合的结果，解码器最终输出调度向量，输出向量表示为P＝{p₁,p₂,…,p_n}。在图3中，任务请求到达边缘网络表示为智能体(Agent)中Seq2Seq模型的输入r_n，同时创建状态矢量S_t。Seq2Seq模型的输出作为调度策略Policy并执行调度动作A_t，边缘中分层部署的服务节点构成环境，并根据回报目标式获得反馈信号R_t+1以此评估当前调度策略并将R_t+1反馈给智能体对S_t加以更新。环境在和Agent交互过程中对Seq2Seq模型进行训练，使得Seq2Seq的调度输出逐渐趋于最优解。

若将CC与分层的边缘云网络视为一个系统，该系统在时刻t的系统状态只与t-1时刻的系统状态有关，而与t-1时刻以前系统状态无关。考虑到系统具有马尔可夫性以及任务时变的特性，可基于马尔科夫决策过程(Markov Decision Process，MDP)对Seq2Seq神经网络的训练过程进行建模分析。MDP主要描述智能体(Agent)和周围环境进行交互的行为和过程，主要包括：系统状态、执行动作、策略和回报。在MDP模型中，智能体(Agent)根据观察到系统的状态，从可行的行动集中选择一个行动加以执行，使系统转移到下一个状态并得到回报，然后再根据新观察到的系统状态和回报再做出新的决策，反复交互以获得系统的长期最优回报。一个马尔可夫决策过程可以描述为

其中：(1)S为所有系统状态的集合，用于描述当前情况的所有参数；/>

为可能出现的动作(Action)的集合，动作是对智能体行为的描述，是智能体决策的结果；(3)P为状态转移概率矩阵，即不同状态转移之间的概率关系；(4)R为智能体给出动作后环境对智能体的反馈；(5)η为折扣因子，η∈[0，1]。另外，Agent的策略可表示为：

结合本发明所面向的在边缘云中的任务调度问题，可做如下定义，状态集合：所有系统状态的集合，将边缘云向任务提供服务所产生的延迟作为状态，通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟，即产生状态间的转化。将此状态集合表示为：

S^t＝{h₁(t)，h₂(t)，…，h_n(t)} (10)

其中，h_i(t)，i∈[1，n]表示在时间t第i个任务调度至服务节点h_i(t)上。动作空间：把CC可能产生的潜在调度策略定义为动作空间，即一种调度策略是动作集合中的一个元素。此动作集合为：

上式中，

j∈[1，m]表示在时间t边缘云中心化协调器(CC)对第j个任务的调度动作。回报模型：本发明中定义了系统的奖励和惩罚，将整个系统建模为带约束的优化问题，对违反约束条件的情况进行计算，并得到惩罚，其惩罚函数为：

其中

式(14)中

为每次执行动作后违反约束的惩罚期望，/>

求得了系统中违反服务率，网络带宽，存储资源以及链路带宽约束条件的惩罚值总和，其中λ_x为惩罚因子。并定义了边缘云向任务提供服务的总延迟L，系统的动作奖励表示为：

所以，卸载任务调度模型的效益函数可表示为：

式(16)中I(s^t，a^t，s^t+1)表示系统在状态为s^t选择行动a^t后，系统所获得的总收益，式中

为系统的总支出，系统目标为将收益最大化。即得到如下优化问题：

其中，η^t为折扣因子(0＜η^t＜1)，并且η^t随着时间增加其值减少。得到最优策略π为系统中对于卸载任务的调度决策。

进一步地，本发明使用强化学习中基于策略梯度方法的强化学习算法来学习式(15)得到的最优策略函数π_θ(a|h(t))的具体参数，其中h_i(t)∈S^t为输入的任务请求，策略函数π_θ(a|h(t))中概率高的将会分配给惩罚低的动作a，概率低的则会分配给惩罚高的动作a。任务请求序列中未被调度的任务请求将根据已调度的的任务a_h*和环境状态向量共同决定，即：基于历史调度以决定剩余任务的调度操作。

一旦智能体在学习过程中达到收敛状态，向系统输入任务时，智能体将会返回合理的调度策略。为评估模型参数，策略梯度法定义了表示权重θ的每个向量的期望回报的目标式。该式为评估调度策略质量的优化目标式，且被每一种不同的调度策略定义，具体由当前环境状态和神经网络模型而设定，因而不直接依赖于模型，只取决于每一次智能体生成的调度策略。为此，定义了与输入请求调度策略相关的预期延迟La：

Agent通过每次输入的任务推断调度策略。因此根据任务分布的期望定义了预期延迟：

利用拉格朗日松弛算法，将(19)转化为无约束问题(20)，等式(20)中，

为拉格朗日目标式：

使用对数似然法获得拉格朗日函数的梯度。其中，L(a|h(t))为转化为无约束问题的拉格朗日对偶函数：

where.L(a|h(t))＝La(a|h(t))+∑_xλ_x·C_x(a|h(t)) (22)

通过蒙特卡罗法对输入采样K个，分为h₁(t)，h₂(t)，…，h_K(t)。同时，通过引入Baseline辅助网络b_θ，减小了梯度的方差且没有引入偏差，加快了收敛速度，从而获得更加优质稳定的输出策略，因此将

作近似处理为：

基于Seq2Seq神经网络求解框架的训练过程可描述为表1：

表1.基于Seq2Seq神经网络求解框架训练算法

进一步地，如图4所示，融合神经网络与启发式混合调度算法具体为：基于Seq2Seq神经网络的最优解的求解方法基础上，结合首次适应优先启发式算法(First_Fit,FF)，本发明提出了JNNHSP算法，算法主要思想是：移动应用将自己的资源密集型任务通过就近连接的基站BS卸载至边缘云，当边缘云接收到任务后，会同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解，CC根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估，并在惩罚值小于零的基础上选择预期延迟最低的解为最优解。当出现调度解的惩罚值均大于零，或存在算法无法完成调度任务的情况，CC将以Seq2Seq神经网络训练后输出的调度最优解为主要策略，以启发式调度算法为辅助调度算法。按照神经网络输出的主要策略依次完成对请求的调度，并在依次对请求任务执行调度时，检查完成本次操作是否会违反系统的服务率，网络带宽，存储资源以及链路带宽的四项约束，若违反则使用辅助调度算法，在可用服务节点中为该请求任务重新选择适合的服务节点。

JNNHSP算法部署在CC之上，CC按卸载任务到达网络的时间先后顺序进行调度决策。算法以优化这些任务请求在网络场景中被服务的总延迟为目标，避免服务节点的IT资源过载和完成服务导致的边缘云中的网络链路过载。在满足资源需求的多个候选服务节点和网络链路中，选择能够使任务在边缘云中总延迟最小的调度方案。JNNHSP算法伪代码如表2:

表2.JNNHSP算法伪代码

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种融合神经网络求解和启发式算法的任务调度方法，其特征在于，应用于分层边缘计算环境中，包括以下：

S2、采用基于蒙特卡洛策略梯度的深度强化学习方法训练基于Seq2Seq的所述神经网络模型，使得基于Seq2Seq的所述神经网络模型作为强化学习中的智能体并获得自学习以优化任务调度决策的能力；其中基于蒙特卡洛策略梯度的深度强化学习方法的训练过程为：

1)状态集合：所有系统状态的集合，将边缘云向任务提供服务所产生的延迟作为状态，通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟，即产生状态间的转化；将此状态集合表示为：

S^t＝{h₁(t)，h₂(t)，…，h_n(t)} (10)

其中，h_i(t)，i∈[1，n]表示在时间t第i个任务调度至服务节点h_i(t)上；

2)动作空间：把边缘计算中心化协调器可能产生的潜在调度策略定义为动作空间，即一种调度策略是动作集合中的一个元素；此动作集合为：

式中，

表示在时间t边缘云中心化协调器对第j个任务的调度动作；

3)回报模型：定义了系统的奖励和惩罚，将整个系统建模为带约束的优化问题，对违反约束条件的情况进行计算，并得到惩罚，其惩罚函数为：

其中

式中

为每次执行动作后违反约束的惩罚期望，/>

所以，卸载任务调度模型的效益函数可表示为：

其中，η^t为折扣因子(0＜η^t＜1)，并且η^t随着时间增加其值减少，得到最优策略π为系统中对于卸载任务的调度决策；

S3、在系统中部署首次适应启发式算法；当边缘云接收到任务后，会同时生成以通过步骤S2训练后的神经网络模型输出的调度解与启发式算法的调度解，边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估，并在惩罚值小于零的基础上选择预期延迟最低的解为最优解；当出现调度解的惩罚值均大于零，或存在算法无法完成调度任务的情况，所述边缘计算中心化协调器将以通过步骤S2训练后的模型输出的调度最优解为主要策略，以启发式调度算法为辅助调度算法获得在边缘云中总延迟最小，服务质量最高的调度方案。

2.根据权利要求1所述的一种融合神经网络求解和启发式算法的任务调度方法，其特征在于，在步骤S3中融合神经网络求解和启发式算法混合的方法包括以下：

移动应用将自己的资源密集型任务通过就近连接的基站卸载至边缘云，当边缘云接收到任务后，同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解，边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估，并在惩罚值小于零的基础上选择预期延迟最低的解为最优解；当出现调度解的惩罚值均大于零，或存在算法无法完成调度任务的情况，边缘计算中心化协调器将以Seq2Seq神经网络训练后输出的调度最优解为主要策略，以启发式调度算法为辅助调度算法；按照神经网络输出的主要策略依次完成对请求的调度，并在依次对请求任务执行调度时，检查完成本次操作是否会违反系统的服务率，网络带宽，存储资源以及链路带宽的四项约束，若违反则使用辅助调度算法，在可用服务节点中为该请求任务重新选择适合的服务节点。

3.根据权利要求1所述的一种融合神经网络求解和启发式算法的任务调度方法，其特征在于，在步骤S2中基于蒙特卡洛策略梯度的深度强化学习下式(15)的方法包括以下：

智能体通过每次输入的任务推断调度策略；因此根据任务分布的期望定义了预期延迟：

为拉格朗日目标式：

where.L(a|h(t))＝La(a|h(t))+∑_xλ_x·C_x(a|h(t)) (22)

作近似处理为：

使用Baseline辅助网络，预测了当前调度策略的惩罚，并采用随机梯度下降法对预测值b_θ(h_j(t))与环境实际惩罚值L(a|h_j(t))的均方误差进行训练；