CN112199472B

CN112199472B - 一种基于迁移学习的主观题智能评卷方法、系统及设备

Info

Publication number: CN112199472B
Application number: CN202011086881.5A
Authority: CN
Inventors: 马磊; 郭成锋; 袁峰; 薛勇; 韩百龙
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-07-20
Anticipated expiration: 2040-10-12
Also published as: CN112199472A

Abstract

本发明提出的一种基于迁移学习的主观题智能评卷方法、系统及设备，包括：基于遮挡语言模型，构建语义特征提取网络，采用自监督学习方式，对语义特征提取网络进行预训练；在预训练语义特征提取网络的基础上构建多得分点评分模型，并选取经由专家评阅的考生数据，对多得分点评分模型进行有监督精调训练；利用精调训练后的多得分点评分模型对待评分考生数据进行评分。本发明能够解决小样本学习的问题，依据本发明所述方法构建的智能评卷系统具有高准确率和高评阅效率，同时具有一定的可解释性。

Description

一种基于迁移学习的主观题智能评卷方法、系统及设备

技术领域

本发明涉及教育考试评测技术领域，更具体的说是涉及一种基于迁移学习的主观题智能评卷方法、系统及设备。

背景技术

近年来，随着自然语言处理的发展，基于深度学习的计算机辅助智能评卷技术已成为教育考试评测领域的研究热点。计算机辅助智能评卷技术是利用计算机技术对考生答案进行评价和打分。相对于人工评卷，计算机辅助智能评卷技术有明显的优势。首先，评卷过程的可复现性，一致性、客观性，计算机系统不存在生理影响因素，一方面避免了因疲劳产生的疏忽，另一方面避免了因个人认知水平的不同导致的偏差，保证了评卷的公平性。其次，评卷过程的高效性，计算机在保证一致性、客观性、公平性的基础上，具有非常高的评卷效率，能适应各种考试规模的效率要求。

但是基于深度学习的处理技术同样有不足之处，首先，基于深度学习的模型通常需要大量的训练数据进行训练模型，但是在真实的评卷场景中，机器评卷可供学习的样本来源于少量专业评卷人的人工标注，因此可供机器学习的样本数量相对较少，基于小样本的智能评卷技术有待进一步研究。其次是评卷系统的解释性，众所周知，神经网络的可解释性通常比较差，特征提取和预测都由神经网络完成，模型的内部工作难以理解，很难估计每个特征对模型预测的重要性，也不容易理解不同特征之间如何相互作用，如何改善评卷系统对答案的解释性也有待进一步研究。

发明内容

针对以上问题，本发明的目的在于提供一种基于迁移学习的主观题智能评卷方法、系统及设备，能够解决小样本学习的问题，依据本发明所述方法构建的智能评卷系统具有高准确率和高评阅效率，同时具有一定的可解释性。

本发明为实现上述目的，通过以下技术方案实现：一种基于迁移学习的主观题智能评卷方法，包括如下步骤：

S1：基于遮挡语言模型，构建语义特征提取网络，采用自监督学习方式，对语义特征提取网络进行预训练；

S2：在预训练语义特征提取网络的基础上构建多得分点评分模型，并选取经由专家评阅的考生数据，对多得分点评分模型进行有监督精调训练；

S3：利用精调训练后的多得分点评分模型对待评分考生数据进行评分。

进一步，所述步骤S1包括：

S11：采用遮挡文本数据中部分词汇并预测被遮挡词汇的方式构建自监督学习任务；

S12：采用多头自注意力机制网络模型为语义特征提取网络主干层的方式进行神经网络模型设计；

S13：通过对题干、参考答案文本和考生答案全量文本进行词汇遮挡的方式构建自监督训练数据；

S14：采用神经网络模型训练方式对待训练数据进行遍历，直至完成模型训练。

进一步，所述神经网络模型训练方式包括：

对数据随机混洗，每次随机选取一小批样本数据，输入进模型，通过反向传播算法计算误差梯度，并采用Adam规则更新模型参数。

进一步，所述神经网络模型包括：输入层、词嵌入层、位置嵌入层、语义特征提取层和分类预测层。

进一步，所述多头自注意力机制网络模型的计算公式如下：

multiheads＝contact(head₁，head₂，head₃，...，head_h)W^c (1)

公式(1)中contact函数表示矩阵拼接操作，W^c是待优化的模型权重矩阵，head_i表示第i个自注意力计算，自注意力计算方法如下公式：

公式(2)中d_k表示输入词向量X的维度长度，Q，K和V分别表示Query，key和Value矩阵，T表示矩阵转置，所述三个矩阵分别是由输入词向量X与待优化的模型权重W^Q、W^k、W^V进行矩阵乘法得到：

Q＝XW^Q (3)

K＝XW^k (4)

V＝XW^V (5)

公式(2)中的softmax函数计算方式如下：

其中，e是自然常数，X_ij表示输入词向量X矩阵第i行，第j列的元素，N表示矩阵的列数记号。

进一步，所述步骤S13包括：

S131：对题干、参考答案文本和考生答案全量文本进行分词，形成词汇数据；S132：统计所有词汇并添加符号[MASK]形成词汇表，由词汇表生成词序表；

S133：对每一条词汇数据，任意选取其中15％的数据；

记录下选取的位置信息和被选取的词汇，将记录下来的数据作为训练数据的标签数据；

从被选取的数据中再选取80％的词汇替换为符号[MASK]，10％的词汇被替换为词汇表中的其他任意词汇，剩余10％的数据不做处理，将含有遮挡和替换的词汇数据作为训练数据的特征数据；

S134：利用词序表将训练数据中的词汇数据转化为模型可读入的词序数据。

进一步，所述步骤S2包括：

S21：选取由专家评阅过的考生答案数据，通过预测考生答案的多个得分点分数构建有监督学习任务；

S22；共享神经网络模型中的词嵌入层、位置嵌入层和语义特征抽取层，然后添加得分点分数预测网络构成多得分点评分网络模型；

S23：对考生答案文本数据进行分词，利用词序表将分词数据转化为词序数据，将其作为训练数据的特征数据；对相应的考生答案得分点分数进行分段处理，统计得到分值-标签映射表，利用分值-标签映射表将得分点分数转化为离散标签数据，作为训练数据的标签数据；

S24：采用神经网络模型训练方式对训练数据进行遍历，直至完成模型训练。

进一步，所述步骤S3包括：

S31：对待评分考生答案文本数据进行分词，利用词序表将分词数据转化为词序数据；

S32：将待评分考生答案词序数据输入到精调训练后的多得分点评分模型得到各个得分点的预测标签；

S33：利用分值-标签映射表将各个得分点的预测标签转化为相应的分值，并累加各个得分点的分值，得到待评分考生答案的总预测分数。

相应的，本发明还公开了一种基于迁移学习的主观题智能评卷系统，包括：第一训练模块，基于遮挡语言模型，构建语义特征提取网络，采用自监督学习方式，对语义特征提取网络进行预训练；

第二训练模块，用于在预训练语义特征提取网络的基础上构建多得分点评分模型，并选取经由专家评阅的考生数据，对多得分点评分模型进行有监督精调训练；

评分模块，用于利用精调训练后的多得分点评分模型对待评分考生数据进行评分。

相应的，本发明还公开了一种基于迁移学习的主观题智能评卷设备，包括：存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任一项所述基于迁移学习的主观题智能评卷方法步骤。

对比现有技术，本发明有益效果在于：

1、本发明能有效解决少量训练样本下的主观题评阅问题。基于深度学习的模型通常需要大量的训练数据来训练模型，但是在真实的评卷场景中，机器评卷可供学习的样本来源于少量专业评卷人的人工标注，可供机器学习的样本数量相对较少。本发明提出的采用自监督预训练的迁移学习方式，能够有效利用未经标注的考生数据，除此之外，本发明同时将题干数据和参考答案数据加入到自监督学习中，进一步增加样本数据的多样性。评分模型在精调阶段之前基础模型已经对相关上下文中有用的语义进行了有效学习，从而使得模型在较少训练样本的情况下依然取得较好的评卷效果。

2、本发明提出的多得分点评分模型具有预测考生答案在得分点分值的能力，通过对得分点分值的分析，可直观观察到总分分值的构成情况，相比于直接预测考生答案的总分值，本发明提供了更好的解释性。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图1是本发明的方法流程图；

附图2是本发明的网络模型结构图；

附图3是本发明的评分网络模型结构图；

附图4是本发明的系统结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做出说明。

如图1所示的一种基于迁移学习的主观题智能评卷方法，包括如下步骤：

S1：基于遮挡语言模型，构建语义特征提取网络，采用自监督学习方式，对语义特征提取网络进行预训练。

具体来说，S1包括如下步骤：

S11：无监督任务建模。采用遮挡文本数据中部分词汇并预测被遮挡词汇的方式构建自监督学习任务。

S12：神经网络模型设计。优选采用多头自注意力机制网络模型为语义特征提取网络主干层，模型包括输入层、词嵌入层、位置嵌入层、语义特征提取层和分类预测层，模型示意图如图2所示，语义特征提取层可以堆叠多层，本实施例中堆叠2层。

S13：训练数据构建。通过对题干、参考答案文本和考生答案全量文本进行词汇遮挡的方式构建自监督训练数据。

S14：神经网络模型训练。对数据随机混洗，每次随机选取一小批样本数据，输入进模型，通过反向传播算法计算误差梯度，并采用Adam规则更新模型参数，基于这种训练方式对全部训练数据进行多次遍历，直至完成模型训练。

其中，S12中的多头自注意力机制网络模型的计算公式如下：

multiheads＝contact(head₁，head₂，head₃，...，head_h)W^c (1)

公式(1)中的contact函数表示矩阵拼接操作，W^c是待优化的模型权重矩阵，head_i表示第i个自注意力计算，自注意力计算方法优选如下公式：

公式(2)中的d_k表示输入词向量X的维度长度，Q，K和V分别表示Query，key和Value矩阵，T表示矩阵转置，这三个矩阵分别是由输入词向量X与待优化的模型权重W^Q、W^k、W^V进行矩阵乘法得到：

Q＝XW^Q (3)

K＝XW^k (4)

V＝XW^V (5)

公式(2)中的softmax函数计算方式如下：

在上述基础上，步骤S13包括：

首先，对题干、参考答案文本和考生答案全量文本进行分词，形成词汇数据。

然后，统计所有词汇并添加符号’[MASK]’形成词汇表，由词汇表生成词序表。

下一步，对每一条数据，任意选取其中15％的数据：

1)记录下选取的位置信息和被选取的词汇，将记录下来的数据作为训练数据的标签数据。

2)从被选取这15％的数据中再选取80％的词汇替换为符号’[MASK]’，10％的词汇被替换为词汇表中的其他任意词汇，剩余10％的数据不做处理，将含有遮挡和替换的词汇数据作为训练数据的特征数据。

最后，利用词序表将训练数据中的词汇数据转化为模型可读入的词序数据。

S2：在预训练语义特征提取网络的基础上构建多得分点评分模型，并选取经由专家评阅的考生数据，对多得分点评分模型进行有监督精调训练。

本步骤具体包括：

S21：有监督任务建模。选取由专家评阅过的考生答案数据，通过预测考生答案的多个得分点分数构建有监督学习任务；

S22：网络模型设计。共享神经网络模型中的词嵌入层、位置嵌入层和语义特征抽取层，并添加得分点分数预测网络构成评分网络模型,模型示意图如图3所示。

S23：训练数据构建：对考生答案文本数据进行分词，利用词序表将分词数据转化为词序数据，将其作为训练数据的特征数据；对相应的考生答案得分点分数进行分段处理，统计得到分值-标签映射表，利用分值-标签映射表将得分点分数转化为离散标签数据，作为训练数据的标签数据；本实施例中分别选取了1000、2000和3000的训练样本数量进行测试。

S14：网络模型训练。对数据随机混洗，每次随机选取一小批样本数据，输入进模型，通过反向传播算法计算误差梯度，并采用Adam规则更新模型参数，基于这种训练方式对全部训练数据进行多次遍历，直至完成模型训练。

本步骤具体包括：

S31：对待评分考生答案文本数据进行分词，利用词序表将分词数据转化为词序数据

S32：将待评分考生答案词序数据输入到精调训练后的多得分点评分模型得到各个得分点的预测标签

S32：利用分值-标签映射表将各个得分点的预测标签转化为相应的分值，并累加各个得分点的分值，得到该小题的总预测分值。

以下是利用上述方法得到的实验计算结果：

表1-1 1000样本多得分点模型预测结果与人工评分的一致率

表1-2 2000样本多得分点模型预测结果与人工评分的一致率

表1-3 3000样本多得分点模型预测结果与人工评分的一致率

上述三个表格中独立学习一栏的一致率是直接利用标定数据从头训练模型得到的结果，迁移学习一栏的一致率是利用本发明提供的训练得到的结果，可以明显看出，迁移学习的一致率普遍高于独立学习的结果，并且随着样本量的减少，迁移学习的一致率下降的程度也相应较低，证明本发明提供的基于迁移学习的主观题智能评卷方法的有效性。

相应的，如图2所示，本发明还公开了一种基于迁移学习的主观题智能评卷系统，包括：

第一训练模块，基于遮挡语言模型，构建语义特征提取网络，采用自监督学习方式，对语义特征提取网络进行预训练。

第二训练模块，用于在预训练语义特征提取网络的基础上构建多得分点评分模型，并选取经由专家评阅的考生数据，对多得分点评分模型进行有监督精调训练。

相应的，本发明还公开了一种基于迁移学习的主观题智能评卷设备，包括：

存储器，用于存储计算机程序；

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

同理，在本发明各个实施例中的各处理单元可以集成在一个功能模块中，也可以是各个处理单元物理存在，也可以两个或两个以上处理单元集成在一个功能模块中。

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

Claims

1.一种基于迁移学习的主观题智能评卷方法，其特征在于，包括如下步骤：

S3：利用精调训练后的多得分点评分模型对待评分考生数据进行评分；

所述步骤S1包括：

2.根据权利要求1所述的基于迁移学习的主观题智能评卷方法，其特征在于，所述神经网络模型训练方式包括：

3.根据权利要求1所述的基于迁移学习的主观题智能评卷方法，其特征在于，所述神经网络模型包括：输入层、词嵌入层、位置嵌入层、语义特征提取层和分类预测层。

4.根据权利要求1所述的基于迁移学习的主观题智能评卷方法，其特征在于，所述多头自注意力机制网络模型的计算公式如下：

multiheads＝contact(head₁,head₂,head₃,…,head_h)W^c (1)

公式(2)中d_k表示输入词向量X的维度长度，Q,K和V分别表示Query，key和Value矩阵，T表示矩阵转置，所述三个矩阵分别是由输入词向量X与待优化的模型权重W^Q、W^k、W^V进行矩阵乘法得到：

Q＝XW^Q (3)

K＝XW^k (4)

V＝XW^V (5)

公式(2)中的softmax函数计算方式如下：

5.根据权利要求3所述的基于迁移学习的主观题智能评卷方法，其特征在于，所述步骤S13包括：

S131：对题干、参考答案文本和考生答案全量文本进行分词，形成词汇数据；

S132：统计所有词汇并添加符号[MASK]形成词汇表，由词汇表生成词序表；

S133：对每一条词汇数据，任意选取其中15％的数据；

6.根据权利要求5所述的基于迁移学习的主观题智能评卷方法，其特征在于，所述步骤S2包括：

7.根据权利要求6所述的基于迁移学习的主观题智能评卷方法，其特征在于，所述步骤S3包括：

8.一种基于迁移学习的主观题智能评卷设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述基于迁移学习的主观题智能评卷方法步骤。