CN115114974A

CN115114974A - 一种模型蒸馏方法、装置、计算机设备和存储介质

Info

Publication number: CN115114974A
Application number: CN202210551390.6A
Authority: CN
Inventors: 黄通文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-27

Abstract

本申请实施例公开了一种模型蒸馏方法、装置、计算机设备和存储介质；本申请实施例可以获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集；对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型；利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息；获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型，提高了题目推荐的效果。

Description

一种模型蒸馏方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种模型蒸馏方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的不断发展，已经衍生出了许多应用技术。例如，可以将人工智能技术应用到教育领域，通过人工智能技术为学生推荐题目，等等。例如，可以通过训练人工智能模型，从而可以利用人工智能模型为学生推荐题目。但是，题目推荐往往重视高效果和实时性。若为了追求高效果，人工智能模型的结构会较为复杂，而复杂的模型进行题目的推荐会比较耗时，从而造成推荐不够实时。现有技术一般是通过模型蒸馏解决该问题，即将具有复杂结构的模型通过蒸馏获取到结构简单的模型，从而提高模型推荐的实时性，但是，与此同时，模型进行题目推荐的效果会下降得非常明显。

发明内容

本申请实施例提出了一种模型蒸馏方法、装置、计算机设备和存储介质，可以实现在利用人工智能模型进行题目推荐时，即兼顾题目推荐的实时性，又兼顾题目推荐的质量。

本申请实施例提供了一种模型蒸馏方法，包括：

获取题目样本集和用于题目推荐的教师模型，其中，所述题目样本集包括第一题目样本子集和第二题目样本子集；

对所述第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；

利用所述增强后题目样本对所述教师模型进行模型增强，得到增强后教师模型；

利用所述增强后教师模型对所述第二题目样本子集中的题目样本进行识别，得到所述第二题目样本子集中题目样本的参考分布信息；

获取学生模型，利用所述学生模型对所述增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。

相应的，本申请实施例还提供了一种模型蒸馏装置，包括：

获取单元，用于获取题目样本集和用于题目推荐的教师模型，其中，所述题目样本集包括第一题目样本子集和第二题目样本子集；

数据增强单元，用于对所述第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；

模型增强单元，用于利用所述增强后题目样本对所述教师模型进行模型增强，得到增强后教师模型；

识别单元，用于利用所述增强后教师模型对所述第二题目样本子集中的题目样本进行识别，得到所述第二题目样本子集中题目样本的参考分布信息；

蒸馏单元，用于获取学生模型，利用所述学生模型对所述增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。

在一实施例中，所述数据增强单元，可以包括：

第一关系识别子单元，用于对第一题目样本子集中的当前题目样本进行识别，得到所述第一题目样本子集中和所述当前题目样本具有预设关联关系的关联题目样本；

第二关系识别子单元，用于在所述第一题目样本子集中识别和所述关联题目样本具有预设关联关系的目标题目样本，其中，所述目标题目样本包括所述第一题目样本子集中除了所述当前题目样本以外的其他题目样本；

关系建立子单元，用于基于所述当前题目样本和所述关联题目样本之间的预设关联关系，以及所述关联题目样本和目标题目样本之间的预设关联关系，建立所述当前题目样本和所述目标题目样本之间的关联关系，得到所述增强后题目样本。

在一实施例中，所述关系建立子单元，可以包括：

知识点识别模块，用于识别所述当前题目样本的知识点信息，以及所述目标题目样本的知识点信息；

对比模块，用于将所述当前题目样本的知识点信息和所述目标题目样本的知识点信息进行对比，得到对比结果；

关系建立模块，用于基于所述对比结果建立所述当前题目样本和所述目标题目样本之间的关联关系，得到所述增强后题目样本。

在一实施例中，所述模型增强单元，可以包括：

训练子单元，用于利用所述增强后题目样本对每个教师模型进行训练，得到每个教师模型对应的训练后教师模型；

指标生成子单元，用于根据训练后教师模型的训练结果，生成所述训练后教师模型的性能衡量指标，其中，所述性能衡量指标表征所述训练后教师模型进行题目推荐的质量；

组成子单元，用于根据每个训练后教师模型的性能衡量指标，将训练后教师模型组合成所述增强后教师模型。

在一实施例中，所述训练子单元，可以包括：

初始化模块，用于初始化每个增强后题目样本的权重系数，其中，所述权重系数表征增强后题目样本用于训练的价值；

第一训练模块，用于利用所述增强后题目样本对教师模型进行训练，得到初始训练后教师模型和初始训练结果；

更新模块，用于基于所述初始训练结果，对所述增强后题目样本的权重系数进行更新，得到所述增强后题目样本的更新后权重系数；

筛选模块，用于根据所述增强后题目样本的更新后权重系数，在所述增强后题目样本中筛选出目标使用题目样本；

第二训练模块，用于利用所述目标使用题目样本对所述初始训练后教师模型进行训练，得到所述训练后教师模型。

在一实施例中，所述组成子单元，可以包括：

系数生成模块，用于基于所述性能衡量指标生成每个训练后教师模型生成的组合权重系数；

模型融合模块，用于根据所述组合权重系数将每个训练后教师模型进行融合，得到融合后教师模型；

模型构造模块，用于根据预设构造函数将所述融合后教师模型构造成所述增强后教师模型。

在一实施例中，所述识别单元，可以包括：

信息提取子单元，用于对所述题目样本进行信息提取，得到所述题目样本的题面信息；

归一化子单元，用于对所述题面信息进行归一化处理，得到归一化后题面信息；

第一识别子单元，用于利用所述增强后教师模型对所述归一化后题面信息进行识别，得到所述第二题目样本子集中题目样本的参考分布信息。

在一实施例中，所述归一化子单元，可以包括：

内容识别模块，用于在所述题目信息中识别出至少一种类型的待归一化内容；

方式确定模块，用于确定当前类型的待归一化内容的归一化方式；

内容转换模块，用于利用所述归一化方式对所述待归一化内容进行内容转换，得到所述归一化后题面信息。

在一实施例中，所述识别子单元，可以包括：

特征提取模块，用于对所述归一化题面信息进行特征提取，得到所述归一化题面信息的特征信息；

池化模块，用于对所述特征信息进行池化操作，得到池化后特征信息；

分布拟合模块，用于将所述池化后特征信息进行分布拟合，得到所述第二题目样本子集中题目样本的分布信息。

在一实施中，所述蒸馏单元，可以包括：

第二识别子单元，用于利用所述学生模型对所述第二题目样本子集中的题目样本进行识别，得到所述第二题目样本子集中题目样本的分布信息；

损失计算子单元，用于计算增强后教师模型基于题目样本识别得到的参考分布信息和所述学生模型基于题目样本识别得到的分布信息之间的模型损失信息；

调整子单元，用于利用所述模型损失信息对所述学生模型进行调整，得到所述目标学生模型。

在一实施例中，所述损失计算子单元，可以包括：

调节模块，用于调节所述参考分布信息和所述分布信息的平滑程度，得到调节后参考分布信息和调节后分布信息；

对数运算模块，用于对所述调节后分布信息进行对数运算，得到对数运算后分布信息，以及对所述调节后参考分布信息进行对数运算，得到对数运算后参考分布信息；

相乘模块，用于将所述调节后分布信息和所述对数运算后分布信息进行相乘，得到相乘后分布信息，以及将所述调节后参考分布信息和所述对数运算后参考分布信息进行相乘，得到相乘后参考分布信息；

相加模块，用于将所述相乘后参考分布信息和所述相乘后分布信息进行相加，得到所述模型损失信息。

在一实施例中，所述调整子单元，可以包括：

获取模块，用于获取所述题目样本的标签信息；

损失计算模块，用于计算所述题目样本的分布信息和所述标签信息之间的标签损失信息；

损失融合模块，用于将所述标签损失信息和所述模型损失信息进行融合，得到融合后损失信息；

参数调整模块，用于基于所述融合后损失信息对所述学生模型的模型参数进行调整，得到所述目标学生模型。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面的各种可选方式中提供的方法。

相应的，本申请实施例还提供一种存储介质，所述存储介质存储有指令，所述指令被处理器执行时实现本申请实施例任一提供的模型蒸馏方法。

本申请实施例可以获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集；对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型；利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息；获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。通过利用本申请实施例得到的目标学生模型进行题目推荐，可以即兼顾题目推荐的实时性，又兼顾题目推荐的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的模型蒸馏方法的场景示意图；

图2是本申请实施例提供的模型蒸馏方法的流程示意图；

图3是本申请实施例提供的模型蒸馏方法的又一场景示意图；

图4是本申请实施例提供的题面信息的场景示意图；

图5是本申请实施例提供的模型蒸馏方法的又一场景示意图；

图6是本申请实施例提供的模型蒸馏方法的又一流程示意图；

图7是本申请实施例提供的模型蒸馏装置的结构示意图；

图8是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，然而，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出了一种模型蒸馏方法，该模型蒸馏方法可以由模型蒸馏装置执行，该模型蒸馏装置可以集成在计算机设备中。其中，该计算机设备可以包括终端以及服务器等中的至少一个。即，本申请实施例提出的模型蒸馏方法即可以由终端执行，还可以由服务器执行，还可以由能够进行互相通信的终端和服务器共同执行。

其中，终端可以包括但不限于智能手机、平板电脑、笔记本电脑、个人电脑(Personal Computer，PC)、智能家电、可穿戴电子设备、VR/AR设备、车载终端、智能语音交互设备等等。

服务器可以为多个异构系统之间的互通服务器或者后台服务器，还可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器等等。

需要说明的是，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

在一实施例中，如图1所述，模型蒸馏装置可以集成在终端或服务器等计算机设备上，以实施本申请实施例提出的模型蒸馏方法。具体地，服务器11可以获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集；对所述第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型；利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息；获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。然后，服务器11可以将目标学生模型下发给终端10，以使得终端10可以通过目标学生模型进行题目推荐。

以下分别进行详细说明，需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例将从模型蒸馏装置的角度进行描述，该模型蒸馏装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

如图2所述，提供了一种模型蒸馏方法，具体流程包括：

101、获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集。

其中，题目样本集中包括题目样本，题目样本可以用于对模型进行训练和预测等。

在一实施例中，该题目样本可以是变式题。其中，变式题是一类具有多题一解或一题多解特性的题目。变式题对于培养学生的求异思维和差异化思维有帮助，做一抵百，少做深思而高效。

在一实施例中，题目样本集可以包括第一题目样本子集和第二题目样本子集。其中，第一题目样本子集和第二题目样本子集分别包括题目样本集中的部分题目样本。例如，题目样本集中包括多个变式题，然后，可以将题目样本集中的多个变式题划分成两部分，其中一部分存储到第一题目样本子集中，另外一部分存储到第二题目样本子集中。又例如，可以随机地从题目样本集中筛选出部分题目样本存储到第一题目样本子集中，然后随机地从题目样本集中筛选出部分题目样本存储到第二题目样本子集中。

在一实施例中，第一题目样本子集中的题目样本可以进行数据增强，得到增强后题目样本。然后，可以利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型。

而第二题目样本子集可以在增强后教师模型将“知识”迁移到学生模型时，作为模型蒸馏过程所需要的训练集。

通过在教师模型增强为增强后教师模型和增强后教师模型将“知识”迁移到学生模型上这两个阶段采用不同的题目样本集，可以使得模型可以接触到更多不一样的数据，从而提高模型的泛化能力。

其中，教师模型是一个用于题目推荐的人工智能模型。教师模型可以根据用户输入的题目的题面信息，从题目数据库中筛选出和输入的题目相关联的题目，并将相关联的题目推荐给用户。

其中，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

例如，该教师模型可以是卷积神经网络(Convolutional Neural Networks,CNN)、反卷积神经网络(De-Convolutional Networks,DN)、深度神经网络(Deep NeuralNetworks，DNN)、深度卷积逆向图网络(Deep Convolutional Inverse GraphicsNetworks,DCIGN)、基于区域的卷积网络(Region-based Convolutional Networks，RCNN)、基于区域的快速卷积网络(Faster Region-based Convolutional Networks，FasterRCNN)和双向编解码(Bidirectional Encoder Representations from Transformers，BERT)模型等等中的至少一种。

在一实施例中，本申请实施例提出的方法可以应用到所有的智慧教育场景，例如，可以应用于作业引擎当中。作业引擎的核心之一就是变式题，相关的产品功能包括智能组题、薄弱知识点练习、错题本、个性化手册等功能。基于变式题的作业引擎，可以培养学生的求异思维和差异化思维有帮助，做一抵百，少做深思而高效。

102、对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本。

在一实施例中，教师模型是一个用于题目推荐的人工智能模型。为了可以提高题目推荐的质量，教师模型的结构一般比较复杂，当利用教师模型进行题目推荐时，会比较耗时，造成题目推荐不够实时性。因为，可以对教师模型进行模型蒸馏，使得可以将教师模型学习到的“知识”迁移到结构相对没那么复杂的学生模型当中，从而提高题目推荐的实时性。但是，学生模型虽然可以提高题目推荐的实时性，但是，效果下降得会非常明显。为此，本申请实施例提出了一个模型蒸馏方法，如图3所示，该模型蒸馏方法可以将教师模型的性能进行增强后，得到增强后教师模型。然后，再将增强后教师模型学习到的“知识”迁移到学生模型中，从而使得学生模型不仅可以提高题目推荐的效率，还可以保证题目推荐的效果，这样在保持模型轻量的条件下同时效果会更好，既节省了资源的开销又提升了效果。

本申请实施例可以从两个维度对教师模型进行增强，一个是数据维度，另外一个是模型维度。数据维度可以指对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本。模型维度可以指利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型。

在一实施例中，可以基于题目样本之间的关联关系对题目样本进行数据增强。其中，题目样本之间的关联关系可以指相似关系。例如，题目样本A和题目样本B之间具有相同或相似的知识点，则题目样本A和题目样本B之间具有关联关系。又例如，题目样本A和题目样本B的知识点都属于同一个三角函数范围，则题目样本A和题目样本B之间具有关联关系。又例如，题目样本A的知识点总是和题目样本B的知识点进行结合出题，则题目样本A和题目样本B也具有关联关系。

在一实施例中，可以借助题目样本之间的关联关系的性质对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本。

其中，题目样本之间的关联关系的性质可以指数据之间的交换性和传递性。

其中，交换性可以包括正交换性和负交换性。其中，正交换性可以指：若ab相似，那么ba也相似。负交换性可以指：若ab不相似，那么ba也不相似。

其中，传递性可以包括正传递性和负传递性。其中，正传递性可以指：若ab相似，bc相似，那么ac相似。负传递性可以指：若ab相似，bc不相似，那么ac不相似。

在一实施例中，有多种方式可以借助题目样本之间的关联关系的性质对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本。例如，可以直接根据题目样本的正传递性对题目样本进行增强。

具体的，步骤“对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本”，可以包括：

对第一题目样本子集中的当前题目样本进行识别，得到第一题目样本子集中和当前题目样本具有预设关联关系的关联题目样本；

在第一题目样本子集中识别和关联题目样本具有预设关联关系的目标题目样本，其中，目标题目样本包括第一题目样本子集中除了当前题目样本以外的其他题目样本；

基于当前题目样本和关联题目样本之间的预设关联关系，以及关联题目样本和目标题目样本之间的预设关联关系，建立当前题目样本和目标题目样本之间的关联关系，得到增强后题目样本。

其中，当前题目样本可以指当前正在进行数据正确处理的题目样本。

在一实施例中，可以人为地预先设置好题目样本集中的题目样本之间的关联关系。但是，通过人为设置可能会遗漏掉一些题目样本的关联关系，所以此时通过数据增强处理可以为具有关联关系但是没有建立关联关系的样本建立关联关系。

在一实施例中，可以对第一题目样本子集中的当前题目样本进行识别，得到第一题目样本子集中和当前题目样本具有预设关联关系的关联题目样本。然后，在第一题目样本子集中识别和关联题目样本具有预设关联关系的目标题目样本，其中，目标题目样本包括第一题目样本子集中除了当前题目样本以外的其他题目样本。

例如，当前题目样本为题目样本A。通过对当前题目样本进行识别得到题目样本A和题目样本B具有关联关系，则题目样本B为题目样本的关联题目样本。然后，对题目样本B进行识别，得到题目样本B和题目样本A、题目样本C以及题目样本D都具有关联关系。此时，目标题目样本可以包括除了题目样本A以外的题目样本C和题目样本D。

在一实施例中，可以基于当前题目样本和关联题目样本之间的预设关联关系，以及关联题目样本和目标题目样本之间的预设关联关系，建立当前题目样本和目标题目样本之间的关联关系，得到增强后题目样本。

例如，由于题目样本A和题目样本B具有关联关系，题目样本B和题目样本C具有关联关系，根据传递性质，则题目样本A和题目样本C具有关联关系，然后可以建立题目样本A和题目样本C的关联关系。

又例如，由于题目样本A和题目样本B具有关联关系，题目样本B和题目样本D具有关联关系，根据传递性质，则题目样本A和题目样本D具有关联关系，然后，可以建立题目样本A和题目样本D的关联关系。

在一实施例中，若直接根据题目样本的正传递性对题目样本进行增强，会发现增强后题目样本的效果并不好，具体原因如下：

例如，若题目样本a和题目样本b相似得分为0.7，题目样本b和题目样本c相似得分为0.7，通过正传递后，题目样本a和题目样本c的相似得分可能只有0.49，不足0.5，此时，便有可能认为题目样本a和题目样本c不相似了。此外，在判断样本题目之间是否相似一般是依据对题目样本的知识点的标注。若有一些样本题目存在标注错误，尤其是一些多知识点的题目样本，通过正传递后，则会导致错误被放大。例如，题目样本a和题目样本b不相似但被误标注为相似，经过正传递后会产生2条错误样本，错误被间接的放大了。

又例如，例如，假设有4个题目样本Q1、Q2、Q3和Q4，每个题目样本对应的知识点如下：

Q1：三角函数综合、椭圆的定义及标准方程

Q2：三角函数综合、数学归纳法

Q3：数学归纳法、等比数列

Q4:数学归纳法、椭圆的定义及标准方程

若直接根据题目样本的正传递性对题目样本进行增强，可以得到Q1和Q2相似，Q2和Q3相似，经过正传递有Q1和Q3相似。而实际上看，Q1和Q3的考察的知识点差异较大，不是相似题，因为传递过程中相关性变弱了，Q1和Q3没有一个重叠的知识点。

为了克服上述问题，本申请实施例提出了一种增强版本的正传递，具体做法是在对题目样本的单一知识点进行约束的前提下进行传递，因为单一知识点的样本标注一般而言更加准确，标注更加置信，传递后题目样本质量更好。

在一实施例中，为了克服上述问题，在建立当前题目样本和目标题目样本之间的关联关系时，可以判断当前题目样本和目标题目样本是否具有相同的知识点信息，当具有时，才建立当前题目样本和目标题目样本的关联关系。

具体的，步骤“基于当前题目样本和关联题目样本之间的预设关联关系，以及关联题目样本和目标题目样本之间的预设关联关系，建立当前题目样本和目标题目样本之间的关联关系，得到增强后题目样本”，可以包括：

识别当前题目样本的知识点信息，以及目标题目样本的知识点信息；

将当前题目样本的知识点信息和目标题目样本的知识点信息进行对比，得到对比结果；

基于对比结果建立当前题目样本和目标题目样本之间的关联关系，得到增强后题目样本。

其中题目样本的知识点信息可以指题目内容包括了哪些知识点。例如，题目样本的知识点信息可以包括三角函数综合、椭圆的定义及标准方程。又例如，题目样本的知识点信息可以包括三角函数综合和数学归纳法，等等。

在一实施例中，可以识别当前题目样本的知识点信息，以及目标题目样本的知识点信息。然后，将当前题目样本的知识点信息和目标题目样本的知识点信息进行对比，得到对比结果。通过将当前题目样本的知识点信息和目标题目样本的知识点信息进行对比，可以判断当前题目样本和目标题目样本是否具有相同的知识点。若当前题目样本和目标题目样本具有相同的知识点，则建立当前题目样本和目标题目样本之间的关联关系，得到增强后题目样本。若前题目样本和目标题目样本不具有相同的知识点，则不建立当前题目样本和目标题目样本之间的关联关系，得到增强后题目样本。

通过本申请实施例提出的增强版本的正传递，只有当题目样本之间具有相同的单一知识点的约束下才进行知识点的传递，从而提高增强后题目样本的质量。

例如，如上述例子所述，Q4和Q2是相似题，Q2和Q1是相似题，则Q4和Q1则具有是相似题的可能性。此时，可以判断Q4和Q1是否具有相同的知识点。因为Q4和Q1具有相同的知识点椭圆的定义及标准方程，则可以认定Q4和Q1也是相似的。

对第一题目样本子集中的题目样本进行数据增强，可以为具有关联关系，但是没有建立关联关系的题目样本建立关系关联，扩大了具有关联关系的题目样本。当利用增强后题目样本对教师模型进行训练时，可以提高对教师模型进行训练的质量，从而提高增强后教师模型的质量。

103、利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型。

在一实施例中，除了从数据的维度出发对教师模型进行增强，还可以从模型的角度出发，对教师模型进行增强。具体的，可以利用增强后题目样本对教师模型进行增强，得到增强后教师模型。

在一实施例中，可以利用集成学习的方法对教师模型进行模型增强。

其中，集成学习(ensemble learning)，并不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器(基学习器，Base learner)来完成学习任务。集成学习的基本原理是：对于训练集数据，我们通过训练若干个个体弱学习器(weak learner)，通过一定的结合策略，就可以最终形成一个强学习器(strong learner)，以达到博采众长的目的。

其中，强学习器是相对弱学习器而言的概念，强学习器指可以预测相当准确结果的学习算法。而相当于强学习器而言，弱学习器预测的结果一般都会差较多。例如，在本申请实施例中，增强后教师模型可以是强学习器，而教师模型可以是一个弱学习器。

其中，基学习器可以指集成学习中的个体学习器，基学习器通常是弱学习器。例如，在本申请实施例中，教师模型可以是基学习器。

在一实施例中，集成学习有多种构建算法。例如，Bagging算法、随机森林(RandomForest)算法、AdaBoost算法和梯度提升树算法，等等。

在一实施例中，可以利用这些集成学习的构建算法对教师模型进行模型增强，得到增强后教师模型。

例如，可以利用Bagging算法、随机森林(Random Forest)算法、AdaBoost算法或梯度提升树算法等对教师模型进行模型增强，得到增强后教师模型。

在一实施例中，还可以通过提升教师模型的结构复杂度，得到增强后教师模型，这是因为一般模型的结构越复杂，模型的拟合能力可以越高。具体的，可以将多个教师模型训练组合成增强后教师模型。其中，多个教师模型可以是网络结构相同、模型参数也相同的模型。此外，教师模型也可以是网络结构不同，模型参数也不同的模型。

具体的，步骤“利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型”，可以包括：

利用增强后题目样本对每个教师模型进行训练，得到每个教师模型对应的训练后教师模型；

根据训练后教师模型的训练结果，生成训练后教师模型的性能衡量指标，其中，性能衡量指标表征训练后教师模型进行题目推荐的质量；

根据每个训练后教师模型的性能衡量指标，将训练后教师模型组合成增强后教师模型。

在一实施例中，可以利用增强后题目样本对每个教师模型进行训练，得到每个教师模型对应的训练后教师模型。

例如，利用增强后题目样本对每个教师模型进行训练可以指将两个增强后题目样本输入到教师模型中，然后教师模型判断该两个增强后题目样本是否具有关联关系，并输出判断结果。然后，可以将该判断结果和预先设置好的正确的判断结果进行比较，并根据比较结果调整教师模型的系数。

又例如，可以通过调整对多个教师模型进行训练的增强后题目样本，从而提高对教师模型进行训练的质量。具体的，步骤“利用增强后题目样本对每个教师模型进行训练，得到每个教师模型对应的训练后教师模型”，可以包括：

初始化每个增强后题目样本的权重系数，其中，权重系数表征增强后题目样本用于训练的价值；

利用增强后题目样本对教师模型进行训练，得到初始训练后教师模型和初始训练结果；

基于初始训练结果，对增强后题目样本的权重系数进行更新，得到增强后题目样本的更新后权重系数；

根据增强后题目样本的更新后权重系数，在增强后题目样本中筛选出目标使用题目样本；

利用目标使用题目样本对初始训练后教师模型进行训练，得到训练后教师模型。

例如，假设有m个增强后题目样本，则可以首先初始化每个增强后题目样相同的权重系数，即1/m，其中，每个增强后题目样本的权重系数可以表示增强后题目样本用于训练的价值，即增强后题目样本被教师模型选入训练集的概率。一般情况下，增强后题目样本的权重系数越大，其用于训练的价值越大，则被教师模型选入训练集的概率越高。

然后，可以首先利用所有的增强后题目样本对教师模型进行训练，得到初始训练后教师模型和初始训练结果。其中，模型一般需要经过多次训练之后，模型的性能才可以达到要求。对教师模型进行训练的过程中，每次训练得到的，但性能未达到要求的教师模型都可以称之为初始训练后教师模型。而当训练得到的教师模型的性能满足要求时，该模型可以称之为训练后教师模型。

然后，可以基于初始训练结果，对增强后题目样本的权重系数进行更新，得到增强后题目样本的更新后权重系数。

例如，有10个增强后题目样本，分别是w0至w9，初始化每个增强后题目样本的权重系数为0.1。然后，利用这10个增强后题目样本对教师模型进行训练，得到初始训练后教师模型和初始训练结果。对初始训练结果进行识别，得到题目样本w6、w7和w8的预测结果是错误的，此时，可以将w6、w7和w8的权重系数调高，而将其他增强后题目样本的权重系数调低。

然后，可以根据增强后题目样本的更新后权重系数，在增强后题目样本中筛选出目标使用题目样本。其中，目标使用题目样本可以包括被选中作为训练集的题目样本。一般情况下，权重系数更高的样本，被选中的概率会越高，而权重系数越低，被选中的概率也会越低。

然后，可以利用目标使用题目样本对初始训练后教师模型进行训练，得到训练后教师模型。

通过本申请实施例，可以使得教师模型在训练的过程不断地聚焦于那些难以辨别的题目样本上，从而提高训练后教师模型的质量。例如，在训练过程中，教师模型总是对一些知识点较为丰富的题目样本预测错误。通过本申请实施例，可以令教师模型聚焦于这些总是被预测错误的题目样本上，从而不断地提高教师模型对这些题目样本的敏感度和预测能力，从而提高教师模型的预测质量。

在一实施例中，可以根据训练后教师模型的训练结果，生成训练后教师模型的性能衡量指标，其中，性能衡量指标表征训练后教师模型进行题目推荐的质量。即通过该性能衡量指标可以比较多个训练后教师模型之间的训练质量。

例如，该性能衡量指标可以是模型对样本进行预测的错误率。譬如，可以将预测错误的样本处于总训练样本，得到性能衡量指标。

例如，有10个增强后题目样本，分别是w0至w9，初始化每个增强后题目样本的权重系数为0.1。对初始训练结果进行识别，得到题目样本w6、w7和w8的预测结果是错误的，则性能衡量指标可以为0.3。

在一实施例中，可以根据每个训练后教师模型的性能衡量指标，将训练后教师模型组合成增强后教师模型。

具体的，步骤“根据每个训练后教师模型的性能衡量指标，将训练后教师模型组合成增强后教师模型”，可以包括：

基于性能衡量指标生成每个训练后教师模型生成的组合权重系数；

根据组合权重系数将每个训练后教师模型进行融合，得到融合后教师模型；

根据预设构造函数将融合后教师模型构造成增强后教师模型。

例如，可以按照下列公式将性能衡量指标转换为组合权重系数：

其中，α可以表示组合权重系数，∈可以表示性能衡量指标。

然后，可以将每个训练后教师模型和其对应的组合权重系数进行相乘，得到融合后教师模型。然后，可以根据预设构造函数将融合后教师模型构造成增强后教师模型。其中，预设构造函数可以是sign函、sigmoid等等。

例如，可以按照下列公式将训练后教师模型组合成增强后教师模型：

其中，G(x)可以表示增强后教师模型，h_i(x)可以表示第i个教师模型，α_i可以表示第i个教师模型对应的权重组合系数，N可以指一共有N个教师模型，x可以指模型的输入。

通过按照上述公式将训练后教师模型组合成增强后教师模型可以使得预测误差率小的教师模型的话语权较大，其在最终的增强后教师模型中起着较大的决定作用，而预测误差率大的教师模型的话语权较小，其在最终的增强后教师模型中起着较小的决定作用。换言之，质量越高的教师模型在最终的增强后教师模型中占的比例较大，反之较小，从而可以增强后教师模型的质量。

增强后教师模型在泛化性和模型的表达能力方面都比教师模型更将，从而使得蒸馏过程学得更好。

104、利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息。

在一实施例中，在得到增强后教师模型之后，可以将增强后教师模型学习到的“知识”传递到模型结构学生模型上，从而使得通过学生模型可以提高对题目推荐的实时性，并且和现有技术相比，可以提高对学生方案题目推荐的质量。

具体的，可以利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息。然后，获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。

在一实施例中，可以对提取出题目样本中的题面信息，然后，根据题面信息得到题目样本的参考分布信息。

具体的，步骤“利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息”，可以包括：

对题目样本进行信息提取，得到题目样本的题面信息；

对题面信息进行归一化处理，得到归一化后题面信息；

利用增强后教师模型对归一化后题面信息进行识别，得到第二题目样本子集中题目样本的参考分布信息。

其中，题目样本的题面信息可以包括对题目的描述内容。例如，题面信息可以包括样本题目的题干内容、选项、题型、题目适应的年级、学段、学科、知识点和所属章节，等等。例如，如图4所示，可以是题面信息的示意图。

在一实施例中题目样本可能是通过各种途经得到的，例如，可以从书本扫描得到，可以从网上下载得到，等等。因此，题目样本之间可能会存在专业名词表达不统一或者公式不统一的问题，而这会影响模型蒸馏的质量，因此，在得到题目样本的题面信息之后，可以对题面信息进行归一化处理，得到归一化后题面信息。

其中，将题目样本的题面信息进行归一化可以指将题面信息中的专业术语、公式和格式等多种不同类型的待归一化内容进行归一化，且不同的待归一化内容进行归一化的方式可能不同。具体的“步骤“对题面信息进行归一化处理，得到归一化后题面信息”，可以包括：

在题目信息中识别出至少一种类型的待归一化内容；

确定当前类型的待归一化内容的归一化方式；

利用归一化方式对所述待归一化内容进行内容转换，得到归一化后题面信息。”

例如，题目样本可能是从网上获取的。譬如，通过学习网站等获取到题目样本，此时，题目样本会携带网页符号。例如，题目样本的题面信息可能会包括超文本标记语言(Hyper Text Markup Language，HTML)符号或层叠样式表(Cascading Style Sheets，CSS)符号，等等。此时，可以将这些符号去掉，避免这些网页符号会影响模型蒸馏的质量，从而影响学生模型的质量。

其中，可以利用正则匹配的方式将样本题目的题目信息中网页符号去掉。

又例如，不同题目样本可能会利用不同的名词表达相同的意思。例如，有的题目样本可能将“欧几里得度量”描述为“欧式距离”，而有的题目样本可能将“欧几里得度量”描述为“欧氏距离”。因此，可以将这些专业术语进行归一化表示，避免影响模型蒸馏的效果。

其中，可以预先设置好一个专业术语名词替换的表格，该表格中可以记录有表达相同意思的不同名词对应的归一化名词。然后，服务器可以根据该表格进行专业术语的归一化。

此外，不同题目样本可能还会存在利用不同的公式表达相同的意思的情况。此时，也可以对这些公式进行归一化表示，避免影响模型蒸馏的效果。例如，可以利用语法解析工具Antlr将公式进行归一化的表示。

在一实施例中，可以利用增强后教师模型对归一化后题面信息进行识别，得到第二题目样本子集中题目样本的参考分布信息。

具体的，步骤“利用增强后教师模型对归一化后题面信息进行识别，得到第二题目样本子集中题目样本的参考分布信息”，可以包括：

对归一化题面信息进行特征提取，得到归一化题面信息的特征信息；

对特征信息进行池化操作，得到池化后特征信息；

将池化后特征信息进行分布拟合，得到第二题目样本子集中题目样本的分布信息。

在一实施例中，可以对归一化题目信息进行特征提取，得到归一化题面信息的特征信息。

例如，增强后教师模型的模型结构可以如图5所示。通过图5可以看出，增强后教师模型的模型结构可以包括4个部分，分别是题目归一化部分，L层Transformer部分、池化操作部分和分类层部分。

在将样本题目进行归一化之后，可以通过增强后教师模型中的Transformer对归一化题目信息进行特征提取，得到归一化题目信息的特征信息。其中，增强后教师模型中可以包括L层Transformer，每层Transformer主要由一些自注意力(self-attention)机制、层级归一化和前向的全连接层构成。而自注意力机制的主要实现采用的是多头注意力(multi-head attention)机制进行实现。

然后，可以对特征信息进行池化操作，得到池化后特征信息。

其中池化(Pooling)是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化(Max pooling)”是最为常见的。它是将输入的信息划分为若干个矩形区域，对每个子区域输出最大值。除了最大池化之外，池化层也可以使用其他池化函数，例如“平均池化”甚至“L2-范数池化”等。

例如，可以对特征信息进行最大池化操作或平均池化操作，等等。

然后，可以将池化后特征信息进行分布拟合，得到第二题目样本子集中题目样本的分布信息。其中，该分类层可以是由三层神经网络构成，其作用是对样本题目进行分类，从而可以根据分类结果为用户推荐题目。

105、获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。

在一实施例中，在得到第二题目样本子集中题目样本的参考分布信息之后，可以获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，从而得到实现将增强后教师模型的“知识”迁移到学生模型。

其中，学生模型的模型结构可以和增强后教师模型相似，区别点在于学生模型的网络结构比较增强后教师模型的网络结构精简许多。例如，如图5所示，学生模型的结构和增强后教师模型相似，区别点在于学生模型中Transformer的层数比增强后教师模型中Transformer的层数要少。例如，学生模型中Transformer的层数为K层，增强后教师模型中Transformer的层数为L层，其中，L小于K。

在一实施例中，学生模型可以是一个经过预训练的模型。预训练的目标主要包括两个任务：一个全词覆盖的掩码模型的语言任务，另一个是下一个句子预测的任务。通过对学生模型进行预训练，可以使得学生模型预备一定的“知识”基础。当将增强后教师模型的知识迁移到学生模型中时，学生模型可以更好更快地学习增强后教师模型的“知识”从而提高了目标学生模型的模型质量。

在一实施例中，可以通过第二题目样本子集中的题目样本对学生模型进行训练，然后将增强后教师模型识别得到的参考分布信息作为学生模型在训练过程中的“学习目标”，从而引导学生模型学习增强后教师模型的知识。

具体的，步骤“获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型”，可以包括：

利用学生模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的分布信息；

计算增强后教师模型基于题目样本识别得到的参考分布信息和学生模型基于题目样本识别得到的分布信息之间的模型损失信息；

利用模型损失信息对学生模型进行调整，得到所述目标学生模型。

例如，增强后教师模型对题目样本A进行识别，得到题目样本A的参考分布信息。然后，也利用学生模型对题目样本A进行识别，得到题目样本A的分布信息。然后，可以根据题目样本A的参考分布信息和分布信息，计算学生模型的模型损失信息。然后，利用该模型损失信息对学生模型进行调整。

在一实施例中，步骤“计算增强后教师模型基于题目样本识别得到的参考分布信息和学生模型基于题目样本识别得到的分布信息之间的模型损失信息”，可以包括：

调节参考分布信息和所述分布信息的平滑程度，得到调节后参考分布信息和调节后分布信息；

对调节后分布信息进行对数运算，得到对数运算后分布信息，以及对调节后参考分布信息进行对数运算，得到对数运算后参考分布信息；

将调节后分布信息和对数运算后分布信息进行相乘，得到相乘后分布信息，以及将调节后参考分布信息和对数运算后参考分布信息进行相乘，得到相乘后参考分布信息；

将相乘后参考分布信息和相乘后分布信息进行相加，得到模型损失信息。

具体的，可以按照下列公式计算学生模型的模型损失信息：

其中，z_T可以表示增强后教师模型识别得到的题目样本的分布信息，z_s可以表示学生模型识别得到的题目样本的分布信息。其中，τ可以表示温度系数，用于条件分布的平滑程度。σ_T()可以表示增强后教师模型，σ_s()可以表示学生模型。其中，L_CE()可以指交叉熵函数，该交叉熵函数可以表示如下：

在一实施例中，还可以计算学生模型基于题目样本识别得到的分布信息和其标签之间的标签损失信息。然后，基于标签损失信息和模型损失信息，对学生模型的模型参数进行调整，得到目标学生模型。

具体的，步骤“利用模型损失信息对所述学生模型进行调整，得到目标学生模型”，可以包括：

获取题目样本的标签信息；

计算题目样本的分布信息和标签信息之间的标签损失信息；

将标签损失信息和模型损失信息进行融合，得到融合后损失信息；

基于融合后损失信息对学生模型的模型参数进行调整，得到目标学生模型。

例如，可以根据交叉熵函数计算题目样本的分布信息和标签信息之间的标签损失信息。

例如，标签损失信息可以表示如下：

其中，f可以表示题目样本的分布信息，f′可以表示题目样本对应的标签信息。

然后，可以将标签损失信息和模型损失信息进行融合，得到融合后损失信息。具体如下：

Total Loss＝λ*l_KD+(1-λ)l_CE

其中，λ可以表示平衡因子，l_KD表示模型损失函数，l_CE表示标签损失函数。

然后，可以基于融合后损失信息对学生模型的模型参数进行调整，得到目标学生模型。

在一实施例中，本申请还对目标学生模型和教师模型进行了测试，测试结果如表1所示：

表1：测试结果

通过测试结果可以明显看出，目标学生模型可以有效地提高题目推荐的实时性，而且进行题目性能推荐的效果还比教师模型稍微好点。

本申请实施例中，可以获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集；对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型；利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息；获取学生模型，利用所述学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。本申请通过对教师模型进行增强，得到增强后教师模型，使得增强后教师模型的性能可以远远地优于教师模型。当将增强后教师模型的知识“迁移”到学生模型时，可以使得目标学生模型在保持模型轻量级的条件下，进行题目推荐的效果不会下降得非常厉害，甚至进行题目推荐的效果还会优于之前的教师模型。

其次，本申请实施例可以从两个维度对教师模型进行增强，一个是数据维度，另外一个是模型维度。数据维度可以指对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本。模型维度可以指利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型。通过从两个维度对教师模型进行增强，可以使得增强后教师模型的性能大大地提升，从而将增强后教师模型的知识“迁移”到学生模型时，学生模型可以学到更多的知识，以使得目标学生模型的性能得到较大的提升。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

本申请实施例将以模型蒸馏方法集成在服务器上为例来介绍本申请实施例方法。

在一实施例中，如图6所示，一种模型蒸馏方法，具体流程如下：

201、服务器获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集。

例如，题目样本集中包括多个题目样本，其中，该题目样本可以是变式题。其中，变式题是一类具有多题一解或一题多解特性的题目。

在一实施例中，题目样本集可以包括第一题目样本子集和第二题目样本子集。其中，第一题目样本子集和第二题目样本子集分别包括题目样本集中的部分题目样本。例如，题目样本集中包括多个变式题，然后，可以将题目样本集中的多个变式题划分成两部分，其中一部分存储到第一题目样本子集中，另外一部分存储到第二题目样本子集中。

在一实施例中，教师模型是一个用于题目推荐的人工智能模型。为了可以提高题目推荐的质量，教师模型的结构一般比较复杂，当利用教师模型进行题目推荐时，会比较耗时，造成题目推荐不够实时性。因为，可以对教师模型进行模型蒸馏，使得可以将教师模型学习到的“知识”迁移到结构相对没那么复杂的学生模型当中，从而提高题目推荐的实时性。但是，学生模型虽然可以提高题目推荐的实时性，但是，效果下降得会非常明显。为此，本申请实施例提出了一个模型蒸馏方法，该模型蒸馏方法可以将教师模型的性能进行增强后，得到增强后教师模型。然后，再将增强后教师模型学习到的“知识”迁移到学生模型中，从而使得学生模型不仅可以提高题目推荐的效率，还可以保证题目推荐的效果，这样在保持模型轻量的条件下同时效果会更好，既节省了资源的开销又提升了效果。

202、服务器对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本。

例如，假设有4个题目样本Q1、Q2、Q3和Q4，每个题目样本对应的知识点如下：

Q1：三角函数综合、椭圆的定义及标准方程

Q2：三角函数综合、数学归纳法

Q3：数学归纳法、等比数列

Q4:数学归纳法、椭圆的定义及标准方程

根据原有的正传递原则识别题目样本之间的关联性有：Q1和Q2相似，Q2和Q3相似，经过正传递有Q1和Q3相似。而实际上看，Q1和Q3的考察的知识点差异较大，不是相似题，因为传递过程中相关性变弱了，Q1和Q3没有一个重叠的知识点。

而本申请实施例提出的增强版本的正传递，只有当题目样本之间具有相同的单一知识点的约束下才进行知识点的传递，从而提高增强后题目样本的质量。

例如，Q4和Q2是相似题，Q2和Q1是相似题，则Q4和Q1则具有是相似题的可能性。此时，可以判断Q4和Q1是否具有相同的知识点。因为Q4和Q1具有相同的知识点椭圆的定义及标准方程，则可以认定Q4和Q1也是相似的。

通过这种方式，可以扩大具有关联性的题目样本的数量，并且保证了增强后题目样本的质量。

203、服务器利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型。

在一实施例中，可以利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型。

其中，可以通过集成学习的方法对教师模型进行模型增强。

集成学习(ensemble learning)，并不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器(基学习器，Base learner)来完成学习任务。集成学习的基本原理是：对于训练集数据，我们通过训练若干个个体弱学习器(weak learner)，通过一定的结合策略，就可以最终形成一个强学习器(strong learner)，以达到博采众长的目的。

在一实施例，可以以教师模型作为baselearner，然后在每一轮迭代中针对之前的错误样本进行样本权重增加，最终联合多个baselearner最为增强后教师模型。

例如，假设有m个增强后题目样本，则可以首先为每个增强后题目样本都赋予同样的权重，即1/m，其中，每个增强后题目样本的权重可以表示增强后题目样本被教师模型选入训练集的概率。其中，如果增强后题目样本被教师模型正确地分类，则该增强后题目样本的权重便会下降。若增强后题目样本被教师模型错误地分类，则该增强后题目样本的权重会上升。其中，假设教师模型是BERT模型，将教师模型增强为增强后教师模型需要T次迭代过程。

对于每一次迭代的过程，如果某个增强后题目样本已经被准确地分类，那么在构造下一个训练集中，它的权重就被降低；相反，如果某个增强后题目样本没有被准确地分类，那么它的权重就得到提高。同时，可以计算教师模型对应的话语权。然后，对增强后题目样本的权重进行更新，得到更新后题目样本。然后，根据更新后题目样本的权重筛选出新的训练集，并利用该新的训练集训练下一个教师模型，整个训练过程如此迭代地进行下去。

最终，将各个训练得到的教师模型组合成增强后教师模型。各个教师模型的训练过程结束后，预测误差率小的教师模型的话语权较大，其在最终的增强后教师模型中起着较大的决定作用，而预测误差率大的教师模型的话语权较小，其在最终的增强后教师模型中起着较小的决定作用。换言之，误差率低的教师模型在最终的增强后教师模型中占的比例较大，反之较小。

204、服务器利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息。

在一实施例中，增强后教师模型的模型结构可以如图5所示。通过图5可以看出，增强后教师模型的模型结构可以包括4个部分，分别是题目归一化部分，L层Transformer部分、池化操作部分和分类层部分。

在一实施例中，在将增强后教师模型学习到的“知识”传递到模型结构学生模型时，增强后教师模型可以将根据第二题目样本子集中题目样本的题面信息，将题目样本的题面信息进行归一化。其中，将题目样本的题面信息进行归一化可以指将题面信息中的专业术语、公式和格式等进行归一化。

在一实施例中，将样本题目进行归一化之后，可以通过Transformer对归一化题目信息进行特征提取，得到归一化题目信息的特征信息。其中，增强后教师模型中可以包括L层Transformer，每层Transformer主要由一些自注意力(self-attention)机制、层级归一化和前向的全连接层构成。而自注意力机制的主要实现采用的是多头注意力(multi-headattention)机制进行实现。

在一实施例中，在L层Transformer输出特征信息之后，可以对特征信息进行池化操作，得到池化后特征信息。

在一实施例中，可以利用分类层将池化后特征信息进行分布拟合，得到样本题目的分布信息。其中，该分类层可以是由三层神经网络构成，其作用是对样本题目进行分类，从而可以根据分类结果为用户推荐题目。

205、服务器获取学生模型，利用学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。

在一实施例中，可以利用学生模型对增强后教师模型识别得到的分布信息进行学习，得到目标学生模型。

其中，该学生模型可以是一个经过预训练的模型，从而可以进一步地提高目标学生模型的模型质量。

在一实施例中，如图5所示，学生模型的结构和增强后教师模型相似，区别点在于学生模型中Transformer的层数比增强后教师模型中Transformer的层数要少。例如，学生模型中Transformer的层数为K层，增强后教师模型中Transformer的层数为L层，其中，L小于K。

在一实施例中，利用学生模型对增强后教师模型识别得到的分布信息进行学习可以指利用教师模型识别得到的分布信息计算学生模型的损失函数，从而使得学生模型可以根据该损失函数不断地调整模型当中的参数(相当于向增强后教师模型进行“学习”)，从而得到目标学习模型。

具体的，例如，增强后教师模型对题目样本A进行识别，得到题目样本A的第一分布信息。然后，也利用学生模型对题目样本A进行识别，得到题目样本A的第二分布信息。然后，可以计算题目样本A的第一分布信息和第二分布信息之间的损失信息。其中，题目样本A的第一分布信息和第二分布信息之间的损失信息可以按照下列公式计算：

此外，还可以计算题目样本A的分布信息和其标签之间的损失信息。其中，题目样本A的分布信息和其标签之间损失信息可以按照交叉熵函数进行计算。

例如，计算得到题目样本A的第一分布信息和第二分布信息之间的损失信息为l_KD，题目样本A的分布信息和其标签之间的损失信息为l_CE。然后，可以将两部分损失信息进行整合，得到整合后损失信息。然后，利用整合后损失信息对学生模型的参数进行调整。

例如，整合后损失信息可以表示如下：

Total Loss＝λ*l_KD+(1-λ)l_CE

本申请实施例中，服务器获取题目样本集和用于题目推荐的教师模型，其中，题目样本集包括第一题目样本子集和第二题目样本子集；服务器对第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；服务器利用增强后题目样本对教师模型进行模型增强，得到增强后教师模型；服务器利用增强后教师模型对第二题目样本子集中的题目样本进行识别，得到第二题目样本子集中题目样本的参考分布信息；服务器获取学生模型，利用所述学生模型对增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。通过本申请实施例得到的目标学生模型，其既可以实现提高题目推荐的实时性，还可以实现提高题目推荐的质量。

为了更好地实施本申请实施例提供的模型蒸馏方法，在一实施例中还提供了一种模型蒸馏装置，该模型蒸馏装置可以集成于计算机设备中。其中名词的含义与上述模型蒸馏方法中相同，具体实现细节可以参考方法实施例中的说明。

在一实施例中，提供了一种模型蒸馏装置，该模型蒸馏装置具体可以集成在计算机设备中，如图7所示，该模型蒸馏装置包括：获取单元301、数据增强单元302、模型增强单元303、识别单元304和蒸馏单元305，具体如下：

获取单元301，用于获取题目样本集和用于题目推荐的教师模型，其中，所述题目样本集包括第一题目样本子集和第二题目样本子集；

数据增强单元302，用于对所述第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本；

模型增强单元303，用于利用所述增强后题目样本对所述教师模型进行模型增强，得到增强后教师模型；

识别单元304，用于利用所述增强后教师模型对所述第二题目样本子集中的题目样本进行识别，得到所述第二题目样本子集中题目样本的参考分布信息；

蒸馏单元305，用于获取学生模型，利用所述学生模型对所述增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型。

在一实施例中，所述数据增强单元302，可以包括：

在一实施例中，所述关系建立子单元，可以包括：

在一实施例中，所述模型增强单元303，可以包括：

在一实施例中，所述训练子单元，可以包括：

在一实施例中，所述组成子单元，可以包括：

在一实施例中，所述识别单元304，可以包括：

在一实施例中，所述归一化子单元，可以包括：

在一实施例中，所述识别子单元，可以包括：

在一实施中，所述蒸馏单元305，可以包括：

在一实施例中，所述损失计算子单元，可以包括：

在一实施例中，所述调整子单元，可以包括：

获取模块，用于获取所述题目样本的标签信息；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

通过上述的模型蒸馏装置可以实现在利用人工智能模型进行题目推荐时，即兼顾题目推荐的实时性，又兼顾题目推荐的质量。

本申请实施例还提供一种计算机设备，该计算机设备可以包括终端或服务器，比如，计算机设备可以作为模型蒸馏终端，该终端可以为手机、平板电脑等等；又比如计算机设备可以为服务器，如模型蒸馏服务器等。如图8所示，其示出了本申请实施例所涉及的终端的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种模型蒸馏方法中的步骤。例如，该计算机程序可以执行如下步骤：

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种模型蒸馏方法中的步骤，因此，可以实现本申请实施例所提供的任一种模型蒸馏方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种模型蒸馏方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型蒸馏方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一题目样本子集中的题目样本进行数据增强，得到增强后题目样本，包括：

对第一题目样本子集中的当前题目样本进行识别，得到所述第一题目样本子集中和所述当前题目样本具有预设关联关系的关联题目样本；

在所述第一题目样本子集中识别和所述关联题目样本具有预设关联关系的目标题目样本，其中，所述目标题目样本包括所述第一题目样本子集中除了所述当前题目样本以外的其他题目样本；

基于所述当前题目样本和所述关联题目样本之间的预设关联关系，以及所述关联题目样本和目标题目样本之间的预设关联关系，建立所述当前题目样本和所述目标题目样本之间的关联关系，得到所述增强后题目样本。

3.根据权利要求2所述的方法，其特征在于，所述基于所述当前题目样本和所述关联题目样本之间的预设关联关系，以及所述关联题目样本和目标题目样本之间的预设关联关系，建立所述当前题目样本和所述目标题目样本之间的关联关系，得到所述增强后题目样本，包括：

识别所述当前题目样本的知识点信息，以及所述目标题目样本的知识点信息；

将所述当前题目样本的知识点信息和所述目标题目样本的知识点信息进行对比，得到对比结果；

基于所述对比结果建立所述当前题目样本和所述目标题目样本之间的关联关系，得到所述增强后题目样本。

4.根据权利要求1所述的方法，其特征在于，所述教师模型为多个教师模型；所述利用所述增强后题目样本对所述教师模型进行模型增强，得到增强后教师模型，包括：

利用所述增强后题目样本对每个教师模型进行训练，得到每个教师模型对应的训练后教师模型；

根据训练后教师模型的训练结果，生成所述训练后教师模型的性能衡量指标，其中，所述性能衡量指标表征所述训练后教师模型进行题目推荐的质量；

根据每个训练后教师模型的性能衡量指标，将训练后教师模型组合成所述增强后教师模型。

5.根据权利要求4所述的方法，其特征在于，所述利用增强后题目样本对每个教师模型进行训练，得到每个教师模型对应的训练后教师模型，包括：

初始化每个增强后题目样本的权重系数，其中，所述权重系数表征增强后题目样本用于训练的价值；

利用所述增强后题目样本对教师模型进行训练，得到初始训练后教师模型和初始训练结果；

基于所述初始训练结果，对所述增强后题目样本的权重系数进行更新，得到所述增强后题目样本的更新后权重系数；

根据所述增强后题目样本的更新后权重系数，在所述增强后题目样本中筛选出目标使用题目样本；

利用所述目标使用题目样本对所述初始训练后教师模型进行训练，得到所述训练后教师模型。

6.根据权利要求4所述的方法，其特征在于，所述根据每个训练后教师模型的性能衡量指标，将训练后教师模型组合成所述增强后教师模型，包括：

基于所述性能衡量指标生成每个训练后教师模型生成的组合权重系数；

根据所述组合权重系数将每个训练后教师模型进行融合，得到融合后教师模型；

根据预设构造函数将所述融合后教师模型构造成所述增强后教师模型。

7.根据权利要求1所述的方法，其特征在于，所述利用所述增强后教师模型对所述第二题目样本子集中的题目样本进行识别，得到所述第二题目样本子集中题目样本的参考分布信息，包括：

对所述题目样本进行信息提取，得到所述题目样本的题面信息；

对所述题面信息进行归一化处理，得到归一化后题面信息；

利用所述增强后教师模型对所述归一化后题面信息进行识别，得到所述第二题目样本子集中题目样本的参考分布信息。

8.根据权利要求7所述的方法，其特征在于，所述对所述题面信息进行归一化处理，得到归一化后题面信息，包括：

在所述题目信息中识别出至少一种类型的待归一化内容；

确定当前类型的待归一化内容的归一化方式；

利用所述归一化方式对所述待归一化内容进行内容转换，得到所述归一化后题面信息。

9.根据权利要求7所述的方法，其特征在于，所述利用所述增强后教师模型对所述归一化后题面信息进行识别，得到所述第二题目样本子集中题目样本的参考分布信息，包括：

对所述归一化题面信息进行特征提取，得到所述归一化题面信息的特征信息；

对所述特征信息进行池化操作，得到池化后特征信息；

将所述池化后特征信息进行分布拟合，得到所述第二题目样本子集中题目样本的分布信息。

10.根据权利要求1所述的方法，其特征在于，所述获取学生模型，利用所述学生模型对所述增强后教师模型识别得到的参考分布信息进行学习，得到目标学生模型，包括：

利用所述学生模型对所述第二题目样本子集中的题目样本进行识别，得到所述第二题目样本子集中题目样本的分布信息；

计算增强后教师模型基于题目样本识别得到的参考分布信息和所述学生模型基于题目样本识别得到的分布信息之间的模型损失信息；

利用所述模型损失信息对所述学生模型进行调整，得到所述目标学生模型。

11.根据权利要求10所述的方法，其特征在于，所述计算增强后教师模型基于题目样本识别得到的参考分布信息和所述学生模型基于题目样本识别得到的分布信息之间的模型损失信息，包括：

调节所述参考分布信息和所述分布信息的平滑程度，得到调节后参考分布信息和调节后分布信息；

对所述调节后分布信息进行对数运算，得到对数运算后分布信息，以及对所述调节后参考分布信息进行对数运算，得到对数运算后参考分布信息；

将所述调节后分布信息和所述对数运算后分布信息进行相乘，得到相乘后分布信息，以及将所述调节后参考分布信息和所述对数运算后参考分布信息进行相乘，得到相乘后参考分布信息；

将所述相乘后参考分布信息和所述相乘后分布信息进行相加，得到所述模型损失信息。

12.根据权利要求10所述的方法，其特征在于，所述利用所述模型损失信息对所述学生模型进行调整，得到所述目标学生模型，包括：

获取所述题目样本的标签信息；

计算所述题目样本的分布信息和所述标签信息之间的标签损失信息；

将所述标签损失信息和所述模型损失信息进行融合，得到融合后损失信息；

基于所述融合后损失信息对所述学生模型的模型参数进行调整，得到所述目标学生模型。

13.一种模型蒸馏装置，其特征在于，包括：

14.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至12任一项所述的模型蒸馏方法中的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12任一项所述的模型蒸馏方法中的步骤。

16.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至12任一项所述的模型蒸馏方法中的步骤。