CN117132003B

CN117132003B - 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法

Info

Publication number: CN117132003B
Application number: CN202311397307.5A
Authority: CN
Inventors: 郝佳; 甘健侯; 周菊香; 王俊; 朱璐瑜
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-02-06
Anticipated expiration: 2043-10-26
Also published as: CN117132003A

Abstract

本发明涉及一种基于自训练半监督学习的学生学业表现早预测办法，属于学生表现预测领域。步骤为：Step1：收集已完结课程中，学生“行为特征T1‑学业表现Y”标签数据；Step2：收集未完结课程中，学业表现待预测的学生行为特征T2；Step3：在GAN模型基础上加上了一个分类器，形成修订后的模型CTAB‑GAN，针对Step1中的学生“行为特征T1‑学业表现Y”标签数据，利用CTAB‑GAN生成一组带标签的辅助数据集；Step4：设计自训练编码器，实现学生行为特征T2的语义表征；Step5：利用Step3得到的带标签的辅助数据集及Step4得到的语义表征，设计半监督学习模型，实现学生学业表现早预测。本发明可实现学业表现的早预测，为在线平台的管理者提供后续的决策依据。

Description

一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法

技术领域

本发明涉及一种在线学习平台环境下，基于自训练与半监督学习的学生学业表现提前预测方法，属于学生学业表现预测领域。

背景技术

为实现学习方式的灵活性、公平性和普遍性，越来越多的教学机构先后开发了适用于在线学习环境的开放式教学课程，旨在为学生量身打造符合其实际需求的网络教育资源。但最近的研究表明，学生普遍存在的高辍学率和低完成率，使得在线资源难以被充分利用，从而导致学生对于在线学习平台的保留率相对较低。受早期预警系统的启发，如果能够利用学生早期的学习行为(即：点击流、论坛发言、小测验分数等)对其最终的学业表现进行早预测，那么对于管理者及时为有风险的学习者提供帮助、并提高平台的学生保留率，将是意义重大的。

然而，实现在线学习平台下学生学业表现早预测时，主要存在的挑战在于，在线课程面向的是来自世界各地的学习者，因此平台的系统管理端必然存在大量的学生学习行为特征。然而，在课程结束前，所有学习者的行为特征都是无标签的。也就是说，除非等到在线课程的结束，否则在学期中，是没有任何学习者的学业表现标签与其行为特征相匹配的。这就使得研究者们无法利用现有的监督式机器学习或深度学习算法来直接进行预测。同时，大量无标签数据的存在，也会导致学习者行为特征与其最终表现之间难以形成映射关系，从而导致早预测困难。

现有技术中，针对在线平台学生的学业表现预测主要分为两种，其一是针对学生的辍学行为预测；其二是针对学生的学业成绩进行预测。

对于学生的辍学预测而言，《一种CNN-LSTM-SVM网络模型的构建及MOOC辍学预测方法》，中国发明专利(No.CN110059716B，2023)，通过将学生的在线行为数据处理为时间序列数据后，基于一种名为CNN-LSTM-SVM的机器学习与深度学习相结合的辍学预测模型，实现学生辍学与否的有效预测。《一种利用数据增强和特征加权实现的MOOC辍学预测方法》，中国发明专利(No.CN114358135A，2022)则以视频帧为单位，基于一个CNN-GRU辍学模型，通过数据增强、信息提取特征、加权三个步骤来预测学生辍学行为发生的概率。

而对于学业成绩的预测而言，《基于数据挖掘的MOOC学习者学业成绩预测与群体特征分析》，重庆高教研究，2021，利用数据挖掘的方法发现了界面交互、内容交互、人际交互、参与考核这四类学习行为与学业成绩之间的强相关性后，利用人工神经网络、决策树、贝叶斯网等多种机器学习算法实现学业成绩的准确预测。《一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统》，中国发明专利(No.CN106127634A，2016)则是通过学生学习行为的获取和转化后，输入到朴素贝叶斯模型中进行学业成绩的后验概率计算，从而实现学业成绩的精准分类。

上述公知表明，无论是针对在线平台的辍学预测，还是学生学业成绩预测，当前大多方案采取的仍然是在一门课程结束后，收集学生的行为特征和对应的标签数据(包括：辍学与否，学业分数等)后，建立相应的机器学习或是深度学习模型，从而根据模型的输出来判断学生的最终表现。而对于在课程还未完结时，利用无标签的学生行为特征来进行学生学业表现早预测的研究，则相对较少。

学生学业表现预测近年来被广泛应用于在线学习领域。然而，利用自训练-半监督学习模型来进行学业表现早预测的解决方案，目前仍然未见报道。

发明内容

本发明提供一种针对在线学习平台下，利用自训练-半监督学习模型的学生学业表现早预测办法，用以解决当某一门在线课程尚未结束且存在大量无标签的学生行为特征存在时，也能够准确预测其最终的学业表现，为平台管理者提供决策依据。图1为本发明的具体流程。

本发明采用的技术方案是：一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法，包括如下步骤：

Step1：收集已完结课程中，学生“行为特征T1-学业表现Y”标签数据，然后进入Step3；

Step2：收集未完结课程中，学业表现待预测的学生行为特征T2，然后进入Step4；

Step3：在GAN模型基础上加上了一个分类器C，形成修订后的模型CTAB-GAN，针对Step1中的学生“行为特征T1-学业表现Y”标签数据，利用CTAB-GAN生成一组带标签的辅助数据集；

Step4：设计自训练编码器，实现Step2中学生行为特征T2的语义表征；

Step5：利用Step3得到的带标签的辅助数据集及Step4得到的语义表征，设计半监督学习模型，实现学生学业表现早预测。

Step1和Step2可先后进行也可以同时进行。

具体地，Step1的具体步骤如下：

首先，从在线学习平台管理端的多门已完结课程中，收集学生的基础信息、与课程的多项交互信息，以及所对应的学业表现情况数据，随后，将所有的学生行为特征T1分为4类，分别是人口统计学特征F_D-T1、学生参与度特征F_E-T1、学生能力特征F_C-T1，以及学生态度特征F_A-T1，其中，每一项特征的具体取值为：

(9)F_D-T1＝{性别,年龄,健康状况,地区,受教程度}

(10)F_E-T1＝{点击次数，注册时长}

(11)F_C-T1＝{先前学习次数，测验提交次数，小测最高成绩}

(12)F_A-T1＝{测验提交时间间隔}

随后，收集学生所对应的学业表现，并记结果为Y，确定Y的取值有4类，即：Y＝{优秀，通过，不及格，辍学}。

具体地，Step2的具体步骤如下：

从在线平台的管理端，采集目前正在进行的、表现待预测的多门课程的学生行为特征T2，同样地，将其所对应的特征分为：人口统计学特征F_D-T2、学生参与度特征F_E-T2、学生能力特征F_C-T2，以及学生态度特征F_A-T2这4类，其中，每一项特征的具体取值为：

(13)F_D-T2＝{性别,年龄,健康状况,地区,受教程度}

(14)F_E-T2＝{点击次数，注册时长}

(15)F_C-T2＝{先前学习次数，测验提交次数，小测最高成绩}

(16)F_A-T2＝{测验提交时间间隔}。

具体地，Step3中形成修订后的模型CTAB-GAN的具体步骤如下：

在GAN模型基础上加上了一个分类器C，从而更好地识别学生行为特征之间存在的语义连续性，修订后的模型被记为CTAB-GAN，其结构如图2所示。CTAB-GAN包含3个深度神经网络，即：生成器G，判别器D，以及分类器C，其中G负责生成与原始的学生“行为特征T1-学业表现Y”呈一致性的高斯分布数据集，而D则负责识别真实数据“行为特征T1-学业表现Y”与生成数据集中对应数据之间的差异性，C则用于判断生成数据集中多个行为特征之间，是否存在语义不一致的情况。

具体地，Step3中利用CTAB-GAN生成一组带标签的辅助数据集的具体步骤如下：

Step3.1：数据转化：学生的学习行为特征T1包括连续型特征和离散型特征；对于连续型特征而言，将其视作一个包含了多个高斯分布、且每一个分布都具备其独特的平均值和标准差的连续变量；随后，该变量的概率分布便可利用混合高斯分布GMM(GaussianMixed Model)来进行拟合，记第i个连续变量为F_i，假设其由m个独立的高斯分布构成，且这m个分布的平均值和标准差分别为和/>那么，当连续变量F_i取值为F_ij时，其概率便可通过EM算法来求出，且F_ij的每一个概率取值结果被分别记为：接下来，通过公式/>将F_ij的取值归一化后，使其服从正态分布N～(0,1)，由此完成连续特征数据的转化，而对于离散型特征F_j，则通过独热编码的方式直接将其进行转化，并记最终的转化结果为γ_i，最终，学生行为特征T1的转化结果被记为g_x，且其被用公式表示为：/>其中n_z表示特征T1的总个数；

Step3.2：生成器G和判别器D的优化：G和D均采用卷积神经网CNN来进行构建与优化，其中，G由一个双层的CNN(Convolutional Neural Networks)构成，其输入为Step3.1中特征数据转化的结果g_x，以及一个随机采样的噪声向量，该噪声向量的概率分布被记为g_z；而G的输出则作为D的输入，G的损失函数如公式(1)：

其中，x1表示从g_x中采样的任一结果向量，z1表示从g_z中采样的任一结果向量，p_real(x)和P(z)是原有数据和噪声数据的先验分布，E[·]和SD[·]分别为两个分布之间的期望和方差，其结果通过L2范数来计算；

对于D而言，其包含一个4层CNN，且每一层的卷积核大小为3×3，每一层的连接包含一个LeakyReLU函数，而最后一层的激活函数为Sigmoid，D采取反向传播的优化方式，且其损失函数如公式(2)所示。

L_D＝(E_x2′～P(G)[D(x2′)]-E_x2～P(r)[D(x2)])+λE_{x2′～P(x2′)}(|Δ_x2′D(x2′)|₂-1)² (2)

其中，P(G)表示根据生成器G所生成的一个概率分布，P(r)表示根据随机向量r所生成的一个概率分布，x2′表示从概率分布P(G)中采样的一个结果向量，x2表示从概率分布P(r)中采样的一个结果向量，D(·)是D的输出，而P(x2′)是从概率分布P(G)中通过均匀采样所得出的概率分布，(E_x2′～P(G)[D(x2′)]-E_x2～P(r)[D(x2)])度量了D的损失；

Step3.3：分类器C的优化：C的输入为带标签的学生行为特征T1与学业表现Y的原始数据集，其通过一个4层多层感知机MLP来实现，C的损失函数如公式(3)所示。

其中，定义从学生行为特征T1中所选取的任意一个特征为F_x，而l(x1)为特征F_x的取值，remove(·)则表示从特征F_x中删除特定取值，C(·)则表示MLP的输出，即为：学生学业表现Y的预测结果，分类器C的输入与生成器G的输入一致，因此公式(3)中的x1和p_real(x)同公式(1)中含义一致。

Step3.4：重复Step3.2-Step3.3中步骤，不断进行数据的生成、判别与分类，直至判别器D根据公式(2)所计算的损失函数值小于判别收敛阈值η_D，则CTAB-GAN的优化结束。此时，CTAB-GAN的输出即为与原始的学生“行为特征T1-学业表现Y”呈一致性的高斯分布的带标签的辅助数据集。

具体地，Step4的具体步骤如下：

对于学业表现待预测的学生来说，其每一次小测验的学习行为特征为T2，其被当作无标签数据输入到自训练编码器e后，返回的结果z＝e(T2)即为学习者的学习行为语义表征，自编码器e的具体构建步骤如下：

Step4.1：Mask矩阵构建：为保证e(T2)结果的有效性，首先构造一个Mask矩阵mask，其的取值总个数被表示为|T2|，而mask矩阵可被表示为：mask＝[m₁,m₂,…m_i,…m_|T2|],(m_i∈{0,1},i∈{1,2,…,|T2|})，该矩阵中每一个元素的取值均服从Bernoulli二项分布，随后，从无标签数据集中随机选取其中某一个特征T2_x，并用Mask矩阵与其做点乘运算后，得到该特征的屏蔽值矩阵

Step4.2：Mask矩阵mask与特征T2_x的重构：给定待重构的Mask矩阵为以及特征屏蔽值矩阵/>如果能够从/>和/>中，尽可能地还原原始的Mask矩阵mask以及原有特征值T2_x，则证明本发明所设计的自训练编码器是有效的，因此，设计一个如公式(4)所示的优化函数：

其中，P(T2)表示特征T2的概率分布，P_mask则表示mask矩阵的概率分布，由于mask的取值仅为0和1，因此表示矩阵/>与mask之间的二分类交叉熵，则表示原始特征T2_x与重构特征/>之间的重构误差；α(α∈[0,1])是与/>之间的惩罚系数，控制了两个误差在模型中的重要程度；

具体而言，的计算方法如公式(5)所示：

其中，n_U为无标签数据集中的数据条数，mask_i为第i个屏蔽特征的取值，为根据当前所训练的自编码器e进行特征语义表征后，Mask矩阵的重构损失；

而的计算方式如公式(6)所示。

其中，为根据当前所训练的自编码器e进行特征语义表征后，原始特征矩阵的重构损失，/>同时也可被看作是当原始特征T2_x的取值为/>时，它们之间的均方根误差。

所有无标签的学生行为特征T2被输入到本步骤所设计的自训练器中，并返回相应的特征语义表征向量e(T2)。

当给定学业表现待预测的学生行为特征时，基于本发明的Step1-Step5，可实现其学业表现的早预测，从而为在线平台的管理者提供后续的决策依据。

本发明的有益效果是：

(1)本发明针对在线课程尚未结束时，利用现有的学生行为特征对其最终的学业表现进行提前预测，从而在一定程度上为其规避了在线课程的辍学风险，并有效促进了各类网络在线学习资源的利用率。

(2)本发明所采用的CTAB-GAN模型能够拟合带标签的学生行为特征与其学业表现之间的混合式高斯分布，并能在有限数量的带标签数据集基础上，生成同分布的大量标签化辅助数据集，从而更好地帮助半监督学习模型来提升学业表现早预测时的准确性。

(3)本发明所提出的基于自训练-半监督的预测模型，一方面能够利用深度神经网络，发现人工难以捕捉的学习者行为特征之间的潜在语义关系；另一方面也能够充分利用大量的无标签数据，更好地实现学业表现的早预测。

附图说明

图1为本发明的整体流程图；

图2为本发明CTAB-GAN的结构图；

图3为本发明半监督学习的模型的框架图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步说明。

实施例1：本发明针对大量无标签学生行为特征存在时的学业表现早预测，提出了一种基于自训练-半监督学习的解决办法。首先，从当前多门已完结的课程中收集有限的带标签数据集，然后基于生成对抗网络(Generative Adversarial Network,GAN)的方法，来模拟生成与带标签数据集具有相同混合高斯分布的一组辅助训练数据集。随后，收集学业表现待预测的学生行为特征，并利用深度神经网络(Deep Neural Network,DNN)生成一个自训练编码器，该编码器能够在无标签的学生行为特征数据集中，及时捕捉多特征之间的潜在语义关系，并将这种关系表征为特征向量。最后，利用DNN设计一个半监督学习预测器，该预测器的输入为带标签的辅助训练数据集与无标签的学生行为特征向量，而输出则为其学业表现的早预测结果。

Step1：收集已完结课程中，学生“行为特征T1-学业表现Y”标签数据。

某一门课程中共有10名学生选修，并完成了对这门课的学习。当课程结束后，采集这10个学生的“行为特征T1-学业表现Y”标签数据，具体如表1所示。

表1.学生“行为特征T1-学业表现Y”标签数据

Step2：收集未完结课程中，学业表现待预测的学生行为特征T2。

某一门课程共有12名学生选修，且该课程尚未完结，当前共进行了1小测。因此，收集该门课程从开课至今的学生各项行为特征T2，并按照Step1中所提出的方法将其分类后，呈现数据如表2所示。

表2学业表现待预测的学生行为特征T2

Step3：利用GAN生成一组带标签的辅助数据集。

首先，根据Step3.1完成对表1中学生的“行为特征T1-学业表现Y”数据的转化。

以连续特征“年龄”为例，假设该特征由4个具有独立分布的高斯混合变量组成，那么首先计算该变量所对应的平均值η_年龄和标准差σ_年龄，并利用EM算法得出4个变量的混合式概率分布值后，利用该结果将每一个“年龄”变量的取值归一化，使其服从正态分布N～(0,1)。经计算，学生ID1～ID10的“年龄”平均值η_年龄＝36.3，标准差σ_年龄＝6.096。以学生ID1为例，其“年龄”特征归一化的计算方式为：且通过这种方式可以计算出10个学生的行为特征T1归一化结果。接下来，用独热编码的方式处理“性别”这一离散型特征。记“性别＝男”为1，“性别＝女”为0，以学生ID1为例，其“性别”特征编码后的结果为二维向量[1,0]。通过上述方式，分别将每一个学生的特征处理后，输入到CTAB-GAN模型。经过Step3.2-Step3.3，可得到如表3所示的，与原始特征同高斯分布、且数量与表1一致的一组合成数据集。其中，合成数据的ID用S1-S10表示。

表3基于CTAB-GAN的合成数据集

其中，F_D、F_E、F_C、F_A分别为基于CTAB-GAN的合成数据集中的人口统计学特征、学生参与度特征、学生能力特征，以及学生态度特征。

Step4：设计自训练编码器，实现学生行为特征的语义表征。

初始的自训练编码器e由一个4层的全连接神经网络构成。其中，输入层包含11个神经元节点，每一个节点分别接受特定的学生行为特征T2；e包含两个隐含层，且它们的神经元个数分别为4和8；最后是e的输出层，它包含了11个节点，分别输出学生行为特征T2的高维向量表示形式。初始自训练编码器中，每一个神经元节点的参数值为[2,1]，即：y＝2x+1；设置训练的迭代次数为10，并通过公式(4)-(6)可实现神经元节点的参数优化。最终，将表2中的无标签学生行为特征T2输入优化后的自训练编码器e中，可得到如表4的学生行为特征T2的语义表征：

表4学生行为特征语义T2表征

Step5：设计半监督学习模型，实现学生学业表现早预测。

将Step1-3中所有的标签、无标签数据集均输入到Step4中优化完成的自训练编码器中，得到所有数据的高维特征向量。随后，这些向量作为预测器f的输入，并通过反向传播算法来对其进行参数优化。训练器f由一个4层神经网络构成，其中输入层包含11个神经元节点；中间的两个隐藏层中神经元节点的个数分别为4和8；最后一层是输出层，包含4个节点，每一个节点的输出分别为预测为优秀、通过、不合格以及辍学的概率值。初始预测器中，每一个神经元节点的参数值为[1,1]，即：y＝1x+1；设置训练的迭代次数为10。最后，根据优化后的预测器可实现对表2中12名学生的学业表现预测，如表5所示。

表5学业表现的预测结果

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法，其特征在于：包括如下步骤：

Step1：收集已完结课程中，学生“行为特征T1-学业表现Y”标签数据；

Step2：收集未完结课程中，学业表现待预测的学生行为特征T2；

Step5：利用Step3得到的带标签的辅助数据集及Step4得到的语义表征，设计半监督学习模型，实现学生学业表现早预测；

Step1和Step2可先后进行也可以同时进行；

Step3中利用CTAB-GAN生成一组带标签的辅助数据集的具体步骤如下：

Step3.1：数据转化：学生的学习行为特征T1包括连续型特征和离散型特征；对于连续型特征而言，将其视作一个包含了多个高斯分布、且每一个分布都具备其独特的平均值和标准差的连续变量；随后，该变量的概率分布便可利用混合高斯分布GMM来进行拟合，记第i个连续变量为F_i，假设其由m个独立的高斯分布构成，且这m个分布的平均值和标准差分别为和/>那么，当连续变量F_i取值为F_ij时，其概率便可通过EM算法来求出，且F_ij的每一个概率取值结果被分别记为：/>接下来，通过公式/>将F_ij的取值归一化后，使其服从正态分布N～(0,1)，由此完成连续特征数据的转化，而对于离散型特征F_j，则通过独热编码的方式直接将其进行转化，并记最终的转化结果为γ_i，最终，学生行为特征T1的转化结果被记为g_x，且其被用公式表示为：/>其中n_z表示特征T1的总个数；

Step3.2：生成器G和判别器D的优化：G和D均采用卷积神经网CNN来进行构建与优化，其中，G由一个双层的CNN构成，其输入为Step3.1中特征数据转化的结果g_x，以及一个随机采样的噪声向量，该噪声向量的概率分布被记为g_z；而G的输出则作为D的输入，G的损失函数如公式(1)：

对于D而言，其包含一个4层CNN，且每一层的卷积核大小为3×3，每一层的连接包含一个LeakyReLU函数，而最后一层的激活函数为Sigmoid，D采取反向传播的优化方式，且其损失函数如公式(2)所示：

L_D＝(E_x2′～P(G)[D(x2′)-E_x2～P(r)[D(x2)])+λE_{x2′～P(x2′)}(|Δ_x2′D(x2′)|₂-1)² (2)

其中，P(G)表示根据生成器G所生成的一个概率分布，P(r)表示根据随机向量r所生成的一个概率分布，x2′表示从概率分布P(G)中采样的一个结果向量，x2表示从概率分布P(r)中采样的一个结果向量，D(·)是D的输出，而P(x2′)是从概率分布P(G)中通过均匀采样所得出的概率分布，(E_x2'～P(G)[D(x2′)]-E_x2～P(r)[D(x2)])度量了D的损失；

Step3.3：分类器C的优化：C的输入为带标签的学生行为特征T1与学业表现Y的原始数据集，其通过一个4层多层感知机MLP来实现，C的损失函数如公式(3)所示：

其中，定义从学生行为特征T1中所选取的任意一个特征为F_x，而l(x1)为特征F_x的取值，remove(·)则表示从特征F_x中删除特定取值，C(·)则表示MLP的输出，即为：学生学业表现Y的预测结果，分类器C的输入与生成器G的输入一致，因此公式(3)中的x1和p_real(x)同公式(1)中含义一致；

Step3.4：重复Step3.2-Step3.3中步骤，不断进行数据的生成、判别与分类，直至判别器D根据公式(2)所计算的损失函数值小于判别收敛阈值η_D，则CTAB-GAN的优化结束，此时，CTAB-GAN的输出即为与原始的学生“行为特征T1-学业表现Y”标签数据呈一致性的高斯分布的带标签的辅助数据集。

2.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法，其特征在于：Step1的具体步骤如下：

(1)F_D-T1＝{性别，年龄，健康状况，地区，受教程度}

(2)F_E-T1＝{点击次数，注册时长}

(3)F_C-T1＝{先前学习次数，测验提交次数，小测最高成绩}

(4)F_A-T1＝{测验提交时间间隔}

3.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法，其特征在于：Step2的具体步骤如下：

(5)F_D-T2＝{性别，年龄，健康状况，地区，受教程度}

(6)F_E-T2＝{点击次数，注册时长}

(7)F_C-T2＝{先前学习次数，测验提交次数，小测最高成绩}

(8)F_A-T2＝{测验提交时间间隔}。

4.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法，其特征在于：Step3中形成修订后的模型CTAB-GAN的具体步骤如下：

在GAN模型基础上加上了一个分类器C，修订后的模型被记为CTAB-GAN，CTAB-GAN包含3个深度神经网络，即：生成器G，判别器D，以及分类器C，其中G负责生成与原始的学生“行为特征T1-学业表现Y”标签数据呈一致性的高斯分布数据集，而D则负责识别真实数据“行为特征T1-学业表现Y”与生成数据集中对应数据之间的差异性，C则用于判断生成数据集中多个行为特征之间，是否存在语义不一致的情况。

5.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法，其特征在于：Step4的具体步骤如下：

Step4.1：Mask矩阵构建：为保证e(T2)结果的有效性，首先构造一个Mask矩阵mask，其的取值总个数被表示为|T2|，而mask矩阵可被表示为：mask＝[m₁，m₂，…m_i，...m_|T2|]，m_i∈{0，1}，i∈{1，2，...，|T2|}，该矩阵中每一个元素的取值均服从Bernoulli二项分布，随后，从无标签数据集中随机选取其中某一个特征T2_x，并用Mask矩阵与其做点乘运算后，得到该特征的屏蔽值矩阵

其中，P(T2)表示特征T2的概率分布，P_mask则表示mask矩阵的概率分布，由于mask的取值仅为0和1，因此表示矩阵/>与mask之间的二分类交叉熵，/>则表示原始特征T2_x与重构特征/>之间的重构误差；

α是与/>之间的惩罚系数，α∈[0，1]，控制了两个误差在模型中的重要程度；

具体而言，的计算方法如公式(5)所示：

而的计算方式如公式(6)所示：

其中，为根据当前所训练的自编码器e进行特征语义表征后，原始特征矩阵的重构损失；