CN107644272A

CN107644272A - 基于行为模式的学生异常学习表现预测方法

Info

Publication number: CN107644272A
Application number: CN201710883211.8A
Authority: CN
Inventors: 孙广中; 张茜
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-01-30

Abstract

本发明公开了一种基于行为模式的学生异常学习表现预测方法，包括：基于原始的校园记录获取行为序列，并构建隐马尔可夫模型；从隐马尔可夫模型中提取行为统计特征及行为关联特征；基于提取的行为统计特征及行为关联特征，应用正则化的多任务模型对异常学习表现进行预测。该方案基于丰富的校园数据，获取学生的行为序列，构建行为模型，并从统计特征与关联特征两个角度对学生的个体行为模式进行更加直观与有效的刻画。同时，多任务学习模型的采用可以更细粒度的对学生在不同课程上的异常学习表现进行预测，为学生提供监督和指导，优化教学效果。

Description

基于行为模式的学生异常学习表现预测方法

技术领域

本发明涉及用户行为建模与教育数据挖掘技术领域，尤其涉及一种基于行为模式的学生异常学习表现预测方法。

背景技术

随着教育的信息化，数字校园应运而生。对于学生而言，校园作为主要的生活范围，扮演着一个微型社会的角色，不仅包含学习环境，也提供了基础生活设施如餐厅、宿舍、超市、健身房、校医院等。校园中记录着丰富的多源数据，主要包括：1.基本信息系统，记录学生的基本信息；2.选课系统与成绩查询系统，记录学生的选课与成绩信息；3.消费系统，记录学生日常活动以及与相关消费信息；4.门禁与身份认证系统，提供学生身份认证与位置信息的记录。目前对学生的行为数据进行挖掘的工作较少，数据采集方式有限，应用成本较高。

学习表现是衡量一个学校教学水平最关键的指标，有效与及时的预测学习表现既有利于提高学校监督工作的效率，也有利于学生养成良好的学习习惯。随着教育数据挖掘(EDM)的发展，已有越来越多的工作将数据挖掘方法应用于预测学习表现。近年来对学生学习表现预测的相关工作主要存在两方面的问题：1.采用的预测因子主要包括CGPA、中期评测、人口信息、高校背景信息等，较少有工作根据学生的校园行为对学习表现进行建模与分析。然而在看似无差异的教学环境下，学生的学习表现不仅与教学环境、教学方法以及学生固有的能力有关，与其行为模式存在着很大程度的相关性。2.目前工作通常以学生的综合绩点作为预测目标，采用回归或者分类的方法预测学生的学习表现。但其忽略了课程之间的差异性，预测粒度较为粗糙，指导意义不强。

发明内容

针对现有的学习表现预测方法存在着预测因子不全面、预测粒度较为粗糙等不足之处，本发明的目的是提供一种基于行为模式的学生异常学习表现预测方法，从丰富的校园记录中挖掘与刻画学生的校园行为模式，并对学生在不同课程上的异常学习表现进行有效的预测。

本发明的目的是通过以下技术方案实现的：

一种基于行为模式的学生异常学习表现预测方法，包括：

基于原始的校园记录获取行为序列，并构建隐马尔可夫模型；

从隐马尔可夫模型中提取行为统计特征及行为关联特征；

基于提取的行为统计特征及行为关联特征，应用正则化的多任务模型对异常学习表现进行预测。

由上述本发明提供的技术方案可以看出，基于丰富的校园数据，获取学生的行为序列，构建行为模型，并从统计特征与关联特征两个角度对学生的个体行为模式进行更加直观与有效的刻画。同时，多任务学习模型的采用可以更细粒度的对学生在不同课程上的异常学习表现进行预测，为学生提供监督和指导，优化教学效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于行为模式的学生异常学习表现预测方法的流程图；

图2为本发明实施例提供的一种基于行为模式的学生异常学习表现预测方法的框架图；

图3为本发明实施例提供的隐马尔可夫模型示意图

图4为本发明实施例提供的多任务模型示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于行为模式的学生异常学习表现预测方法，如图1所示，主要包括如下步骤：

步骤11、基于原始的校园记录获取行为序列，并构建隐马尔可夫模型。

步骤12、从隐马尔可夫模型中提取行为统计特征及行为关联特征。

步骤13、基于提取的行为统计特征及行为关联特征，应用正则化的多任务模型对异常学习表现进行预测。

本发明实施例提供的一种基于行为模式的学生异常学习表现预测方法的框架图如图2所示，各个步骤的具体实现过程如下：

一、基于原始的校园记录构建学生行为模式。

目前，校园一卡通作为学生校园生活的主要媒介，能够自动捕获的学生日常消费与身份认证等行为数据。如表1所示，为原始的校园记录(USERID,DEALTIME,TRANSMONEY,ORGINID,DEALCODE)包含用户的学生学号、行为时间戳、行为位置、交易金额、交易类型等信息。

表1原始的校园记录

通过对原始的校园记录做进一步处理与挖掘，获取每一个用户的行为序列，并对其行为模式进行建模。具体如下：

1、获取行为序列。

首先，定义用户的一条记录为一个事件单元。考虑地点的多样化，如一个学校可能会有多个校区，一个校区内可能分布着多个食堂，采用位置类别来代替具体的物理地点，位置类别可以根据先验判断进行标注，如将不同食堂以及其下各窗口所对应记录的位置类别设置为均设置为食堂。在任意特定的应用场景下，均存在着确定的位置类别集合P、消费类型(交易类型)集合C以及学生群体U。

1)将用户的每一条记录作为一个事件，用户u的一个事件定义为e＝(t,p,c,m),e∈E_u；其中，t、p、c、m分别为事件时间戳、位置所属类别、交易类型、交易金额，E_u为事件集合。如表1中，根据位置类别与交易类型，前五条记录依次是充值事件、在商店的交易事件、在食堂的交易事件、在食堂的交易事件、在超市的交易事件。

2)对于位置类别相同、交易类型相同且在一定时间段内的一组连续事件，可以将其合并为一个活动，如在某一个食堂的多个窗口中的一系列连续消费事件可以合并为一次具体的吃饭活动。

本发明实施例中，对于用户u在一定时间段δ(例如，一个小时)内具有相同位置类别、相同交易类型的一组连续的事件序列(e₁,e₂,...,e_G)，合并为一个活动v＝(t_start,t_end,p,c,m),v∈V_u；其中，G为事件序列的总数，V_u为活动集合，t_start、t_end分别为起始时间戳(即事件e₁的时间戳)、结束时间戳(即事件e_G的时间戳)，且t_end-t_start≤δ。如在表1中的第三、四条记录所对应的两个发生于食堂连续的消费事件可以合并为一次具体的吃饭活动v₀＝(2015-03-02 11:56:03,2015-03-02 11:56:23,canteen,consumption,4.5)。

则根据时间顺序，用户u在指定周期T内的活动序列为Seq(u,t₀)＝(v₁,v₂,...,v_S)，其中t₀为第一个活动v₁的起始时间戳，S为事件序列的总数活动序列中活动的总数。

3)一组多样的活动往往暗示着同样的行为，如吃饭行为会因在时间或地点上的不同分布而对应着多样的活动表现。对于特定应用场景，存在映射f，根据活动时间、位置类别以及交易类型，为活动定义一个唯一确定的行为标签。

对于用户u的第c个活动v_c，其对应的行为为h_c＝f(v_c),h_c∈H，其中函数f为实际应用场景下预定义的确定映射，如于早上5点至11点位置类别为食堂且交易类型为消费的活动对应一次吃早饭行为(f(v)＝Breakfast)、位置类别为校医院的活动对应就诊行为(f(v)＝Treatment)；H为有效行为集，有效行为集H为学生参与度较高(平均频率达到某一阈值)的一个确定行为集合。表2是在示例场景下的选取的有效行为集。如表1中由第三、四条事件合并而来的活动v₀,根据行为映射函数得f(v₀)＝Lunch，即对应着吃午饭行为。

表2有效行为集

因此，活动序列Seq(u,t₀)＝(v₁,v₂,...,v_S)对应的行为序列为Seq′(u,t₀)＝(h₁,h₂,...,h_S)。

如表1中用户U₁前五条记录对应的行为序列为：(Recharge,Shopping,Lunch,Shopping)。

2、构建隐马尔可夫模型。

受移动规律与移动速度的限制，马尔可夫模型是目前应用于行为建模最广泛的模型之一，本发明将采用隐马尔可夫模型(HMM)对学生行为进行建模，其中，利用隐状态刻画用户多样活动背后隐含的行为规律。

首先构造离散化的活动空间V′：将活动的时间以小时为单位进行划分(共划分为24小时)，忽略交易金额。假设当前场景下位置类别有11种，交易类型15种，则活动空间V′＝{v′₁,v′₂,...v′_M}中活动总数M＝24×11×15＝3960，隐状态空间同行为集H＝{h₁,h₂,...h_N}，假设N为12。

利用活动序列构造观测序列O＝(v′₁,v₂′,...,v′_S),v_c'∈V′，提取活动序列对应的行为序列作为隐状态序列I＝(h₁,h₂,...h_S),h∈H，如图3所示。基于L个观测序列和对应的隐状态序列{(O₁,I₁),(O₂,I₂),...,(O_L,I_L)}，构建隐马尔可夫模型λ＝(π,A,B)，通过极大似然估计法估计模型的参数；其中，π、A、B分别为初始概率分布、状态转移概率分布、观测概率分布；具体如下：

初始概率分布π(π₁,π₂,...,π_N)：π_j为N个序列中初始状态为h_j的频率；

状态转移概率分布A＝[a_ij]_N×N，其中a_ij为在某时刻t处于隐状态(行为)h_i条件下在t+1时刻转移到状态(行为)h_j的概率，其估计值为：

上式中，A_ij为相应的频数；

观测概率分布B＝[b_j(k)]_N×M，其中b_j(k)为在某时刻t处于隐状态(行为)h_j下生成观测(活动)v_k的概率，其估计值为：

上式中，B_jk为相应的频数；

如在当前场景下，初始概率分布π为12×1维度的向量，状态转移概率分布A为12×12维度的矩阵，观测转移概率分布B为的12×3690维度的矩阵。

二、从隐马尔可夫模型中提取行为统计特征及行为关联特征。

1、提取行为统计特征。

对于每一个行为h_c，包含其两类可度量属性：指定周期T内行为h_c的累积频率h_fre，以及指定周期T内行为h_c的累积交易金额h_amo，对于非交易类行为(如Exercise、Libraryentrance、Card service、School bus)忽略本属性；

对每个具体行为在上述的任一个属性，从行为水平、行为变化以及行为规律三个方面提取特征，假设行为h_c的频率属性h_fre在第p个单位周期内的均值为连续P个周期内的均值序列为对均值序列随周期t的波动情况做线性拟合其中，b为截距，则：

行为水平：以均值衡量某一特定行为的平均水平；

行为变化：对均值序列在连续多个周期上的线性拟合，以斜率a衡量某一特定行为的变化趋势；

行为规律：对均值序列在连续多个周期上的线性拟合，以残差平方和衡量某一特定行为的规律性。

假设提取统计特征共d1维。

2、提取行为关联特征。

行为之间的转移隐含着用户内在的行为习惯，行为在不同活动上的分布也暗示着用户确定或不确定的生活状态，本发明实施例中，采用熵来衡量行为与行为之间，以及行为与活动之间分布的不确定性：

行为转移熵：隐马尔可夫模型中状态转移概率分布A的每一行能够获得一个特定行为的转移熵：

行为观测熵：隐马尔可夫模型中观测概率分布B的每一行能够求得一个特定行为的观测熵：

由上述过程提取d₁维统计特征与d₂维关联特征，则总维度d＝d₁+d₂。

三、应用正则化的多任务模型对异常学习表现进行预测

1)异常学习表现标签与模型定义

考虑到选课群体的不同，本发明实施例以课程为单位进行任务的划分。假设课程的数量为m，课程l有U_l个学生选修，则定义特征矩阵d是行为统计特征及行为关联特征的总维度，每一行X_l,u是选择课程l的学生u的行为特征向量；定义标签向量为如果学生u在课程l上出现异常学习表现，则表现标签Y_l,u＝1；

如图4所示，对课程l新样本x输入模型，其异常学习表现标签为y＝sign(W_l ^Tx)，W∈R^d×m，每一列W_l是课程l对应的系数向量；

2)少类样本过采样处理

现实情况下，异常学习表现群体其比例较低，数据是有偏的，本发明实施例中，对每一个课程独立地应用SMOTE算法，平衡两类样本(异常类与正常类)，及对每一个异常类样本，以一定的采样率从最近邻样本中随机选择一个样本做线性差值，将构造的新样本加入数据集中；主要过程如下：

对任务l的数据集，其大小为U_l，设少数类(异常类)的样本集为S_l，其大小为SU_l，自动设置上采样率Rate_l＝U_l/SU_l-1；

每一个少类样本x∈S_l，搜索K个其少数类最近邻样本，记为neighbors＝{x′₁,x′₂,...,x′_K}，以Rate_l为倍率，每次从neighbors中选择一个样本x′_b做线性差值构造新样本newx_r，并将新样本加入数据集中：

newx_r＝x+rand(0,1)*(x′_b-x),r＝1,2,...,Rate_l，rand(0,1)表示区间(0,1)内的一个随机数。

例如，若某课程样本数为109，其中异常类别为10，正常类别为99，则经过SMOTE(自动采样率，N_l＝8,K＝5)后，其样本数量为189(90+99)。

3)采用Z-score标准化方法对数据归一化

为消除不同维度之间量纲的影响，需要对数据进行归一化处理，使处理后的每一维特征数据(即之前从隐马尔可夫模型中提取出的特征数据)符合标准正态分布；即均值为0，标准差为1，转化函数为：其中，μ为样本均值，σ为样本标准差。

4)求解最优超参数。

以归一化处理后的数据作为输入，训练正则化的多任务模型，采用交叉验证方法选择最优超参数；

为求解模型即系数矩阵W，最小化准则函数：

其中，第一项为逻辑斯蒂损失，后两项为正则化项，包括：用于选择共享特征空间的l_2,1-范数||W||_2,1，用于增强模型的鲁棒性的Frobenius-范数ρ₁、ρ_L2分别控制模型的稀疏度与复杂度；

将上式划分为如下两部分：

g(x)可导，且其在每项W_l,q,q＝1,2,...,d的梯度为：

其中，X_l,u,q表示选择课程l的学生u第q维特征向量，W_l,q表示课程l在第q维特征值上的系数；

上式满足Lipschitz连续条件，采用近端梯度下降求解最小准则函数下的解W；同时，采用基于交叉验证的网格搜索方法选择最优超参数ρ₁与ρ_L2。

例如采用5-fold交叉验证，对于每一组超参数的可能取值，将样本随机划分为5等分，每次选择一份作为测试集，由剩余样本作为训练集训练模型，选择5组测试的平均结果最优者作为超参数。为保证预测学生异常学习表现的应用性，建议采用召回率(及查全率)作为评价指标。可用MALSAR工具对多任务模型进行求解。

本发明实施例上述方案，基于丰富的校园数据，获取学生的行为序列，构建行为模型，并从统计特征与关联特征两个角度对学生的个体行为模式进行更加直观与有效的刻画。同时，多任务学习模型的采用可以更细粒度的对学生在不同课程上的异常学习表现进行预测，为学生提供监督和指导，优化教学效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于行为模式的学生异常学习表现预测方法，其特征在于，包括：

从隐马尔可夫模型中提取行为统计特征及行为关联特征；

2.根据权利要求1所述的一种基于行为模式的学生异常学习表现预测方法，其特征在于，所述基于原始的校园记录获取行为序列包括：

将用户的每一条记录作为一个事件，用户u的一个事件定义为e＝(t,p,c,m),e∈E_u；其中，t、p、c、m分别为事件时间戳、位置所属类别、交易类型、交易金额，E_u为事件集合；

对于用户u在一定时间段δ内具有相同位置类别、相同交易类型的一组连续的事件序列(e₁,e₂,...,e_G)，合并为一个活动v＝(t_start,t_end,p,c,m),v∈V_u；其中，G为事件序列的总数，V_u为活动集合，t_start、t_end分别为起始时间戳、结束时间戳，且t_end-t_start≤δ；

则根据时间顺序，用户u在指定周期T内的活动序列为Seq(u,t₀)＝(v₁,v₂,...,v_S)，其中t₀为第一个活动v₁的起始时间戳，S为事件序列的总数活动序列中活动的总数；

对于用户第c个活动v_c，其对应的行为为h_c＝f(v_c),h_c∈H，其中函数f为实际应用场景下预定义的确定映射，H为有效行为集；则活动序列Seq(u,t₀)＝(v₁,v₂,...,v_S)对应的行为序列为Seq′(u,t₀)＝(h₁,h₂,...,h_S)。

3.根据权利要求2所述的一种基于行为模式的学生异常学习表现预测方法，其特征在于，所述构建隐马尔可夫模型包括：

首先构造离散化的活动空间V′＝{v′₁,v′₂,...v′_M}：将活动的时间以小时为单位进行划分，忽略交易金额，其中，M为V′中活动的总数；利用活动序列构造观测序列O＝(v′₁,v′₂,...,v′_S),v_c'∈V′，提取活动序列对应的行为序列作为隐状态序列I＝(h₁,h₂,...h_S),h∈H，基于L个观测序列和对应的隐状态序列{(O₁,I₁),(O₂,I₂),...,(O_L,I_L)}，构建隐马尔可夫模型λ＝(π,A,B)，通过极大似然估计法估计模型的参数；其中，π、A、B分别为初始概率分布、状态转移概率分布、观测概率分布。

4.根据权利要求1或3所述的一种基于行为模式的学生异常学习表现预测方法，其特征在于，所述提取行为统计特征包括：

对于每一个行为h_c，包含其两类可度量属性：指定周期T内行为h_c的累积频率h_fre，以及指定周期T内行为h_c的累积交易金额h_amo，对于非交易类行为忽略本属性；

行为水平：以均值衡量某一特定行为的平均水平；

5.根据权利要求1或3所述的一种基于行为模式的学生异常学习表现预测方法，其特征在于，所述提取行为关联特征包括：

行为之间的转移隐含着用户内在的行为习惯，行为在不同活动上的分布也暗示着用户确定或不确定的生活状态，采用熵来衡量行为与行为之间，以及行为与活动之间分布的不确定性：

<mrow> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>_</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>H</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mover> <mi>a</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <msub> <mover> <mi>a</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>;</mo> </mrow>

<mrow> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>_</mo> <mi>O</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>v</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <msup> <mi>V</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mover> <mi>b</mi> <mo>^</mo> </mover> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <msub> <mover> <mi>b</mi> <mo>^</mo> </mover> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>.</mo> </mrow>

6.根据权利要求1或3所述的一种基于行为模式的学生异常学习表现预测方法，其特征在于，所述基于提取的行为统计特征及行为关联特征，应用正则化的多任务模型对异常学习表现进行预测包括：

假设课程的数量为m，课程l有U_l个学生选修，则定义特征矩阵d是行为统计特征及行为关联特征的总维度，每一行X_l,u是选择课程l的学生u的行为特征向量；定义标签向量为如果学生u在课程l上出现异常学习表现，则表现标签Y_l,u＝1；

对课程l新样本x输入模型，其异常学习表现标签为y＝sign(W_l ^Tx)，W∈R^d×m，每一列W_l是课程l对应的系数向量；

对每一个课程独立地应用SMOTE算法，平衡异常类与正常类样本，及对每一个异常类样本，以一定的采样率从最近邻样本中随机选择一个样本做线性差值，将构造的新样本加入数据集中；

再对数据进行归一化处理，使处理后的每一维特征数据符合标准正态分布；

为求解模型即系数矩阵W，最小化准则函数：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>W</mi> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>U</mi> <mi>l</mi> </msub> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mo>(</mo> <mrow> <mo>-</mo> <msub> <mi>Y</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>W</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msub> <mi>X</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&rho;</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msub> <mo>|</mo> <mrow> <mn>2</mn> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>&rho;</mi> <mrow> <mi>L</mi> <mn>2</mn> </mrow> </msub> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>;</mo> </mrow>

将上式划分为如下两部分：

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>U</mi> <mi>l</mi> </msub> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mo>(</mo> <mrow> <mo>-</mo> <msub> <mi>Y</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>W</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msub> <mi>X</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&rho;</mi> <mrow> <mi>L</mi> <mn>2</mn> </mrow> </msub> <mi>T</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>W</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

g(x)可导，且其在每项W_l,q,q＝1,2,...,d的梯度为

<mrow> <mtable> <mtr> <mtd> <mrow> <mo>&dtri;</mo> <mi>g</mi> <msub> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mrow> <mi>l</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>W</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>U</mi> <mi>l</mi> </msub> </munderover> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>Y</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <msub> <mi>X</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mo>+</mo> <mfrac> <mrow> <msub> <mi>Y</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <msub> <mi>X</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>Y</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mo>(</mo> <msubsup> <mi>W</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msub> <mi>X</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mn>2</mn> <msub> <mi>&rho;</mi> <mrow> <mi>L</mi> <mn>2</mn> </mrow> </msub> <msub> <mi>W</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>