CN114579706A

CN114579706A - 一种基于bert神经网络和多任务学习的主观题自动评阅方法

Info

Publication number: CN114579706A
Application number: CN202210222404.XA
Authority: CN
Inventors: 陈意山; 吴晗; 罗建华
Original assignee: Guilin Tourism University
Current assignee: Guilin Tourism University
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-03
Anticipated expiration: 2042-03-07
Also published as: CN114579706B

Abstract

本发明公开了一种基于BERT神经网络和多任务学习的主观题自动评阅方法，涉及人工智能与智慧教育的交叉领域。首先，使用经过大规模语料预训练的BERT神经网络进行编码，有效解决主观题自动评阅任务中语料过小的问题，并联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型。其次，使用所训练的多任务神经网络模型，从题干中提取代词成分来替换学生答案中的代词，确保学生答案语义的完整性。然后，将消代后的学生答案与标准答案形成句子对，送入BERT神经网络进行分类，得到学生答案的评分等级。通过消除学生答案中的代词，以更有效的方法解决主观题自动评阅问题。

Description

一种基于BERT神经网络和多任务学习的主观题自动评阅方法

技术领域

本发明涉及人工智能与智慧教育的交叉领域，尤其是一种基于BERT神经网络和多任务学习的主观题自动评阅方法，可广泛应用于各个学科的主观题计算机自动阅卷系统中。

背景技术

考试试卷中的试题从答案组成的形式上，被普遍分为客观题与主观题两大类。答案以选项编号表示的单选题、多选题、判断题等试题被称为客观题，而答案采用自然语言表示的简答题、名词解释和论述题等试题被称为主观题。由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示，目前计算机对于此类题型进行自动阅卷时，只需将标准答案的选项编号与学生答案的选项编号进行简单的匹配运算，匹配成功则答案正确，该处理技术已经取得较好的成果。但对于答案采用自然语言表示的主观题自动阅卷技术,如：对简答题、名词解释和论述题等自动评卷，由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不是很理想。

在传统的主观题计算机自动阅卷系统中，普遍采用关键字匹配技术进行主观题自动阅卷，即在答案中标注出若干关键字或关键词，将其与学生答案进行匹配，并根据匹配成功的多少对学生答案进行评卷，由于自然语言的时序性、多样性与随意性，这种方法的评卷准确率非常低。为提高评卷的准确率，出现了一些基于句法分析与语义分析的主观题自动阅卷方法，这类评卷方法虽然可以在评卷过程中融入语义分析，提高了评卷的准确率，但由于句法分析自身的准确率不高，以及语义分析无法处理句子的时序性，这极大地限制了这类系统的应用范围与实用性。

随着人工神经网络技术的不断发展，许多深度学习模型如基于LSTM的模型、基于CNN&LSTM的模型和基于Transformer的模型被应用于主观题评卷。这些深度学习模型利用不同的神经网络从答案文本中自动提取语义特征，从而提供一种无需任何人工特征工程的端到端方法。然而，主观题自动评卷的深度学习方法仍然具有挑战性，主要有两个原因：首先，学生通常使用不同的自由文本来回答同一个问题，学生的答案在句子结构、语言风格和文本长度上可能存在显著差异，并且在答案文本中往往使用了一些代词。因此，有必要利用先进的学习技术在主观题自动评卷任务中结合题干文本，消除答案文本中的代词，从而确保学生答案语义的完整性；其次，主观题自动评卷的深度学习方法是一种全监督机器学习，需要为训练语料中的每个学生答案分配一个标签分数。但是，为自由表达的学生答案人工标注分数是一项费时的工作，因而主观题自动评卷的训练语料库通常很小。因此，如何在小语料库上训练出稳定有效的深度神经网络模型是主观题自动评卷深度学习方法面临的另一大挑战。

发明内容

本发明公开了一种基于BERT神经网络和多任务学习的主观题自动评阅方法，使用经过大规模语料预训练的BERT神经网络进行编码，有效解决主观题自动评阅任务中语料过小的问题，并联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型，以更有效的方法解决主观题自动评阅问题。

为实现上述目的，本发明的技术方案为：

一种基于BERT神经网络和多任务学习的主观题自动评阅方法，其特征在于包括以下步骤：

S1.以题干作为知识源，使用共享的BERT神经网络和多头注意力进行编码，对学生答案的代词进行消代；

S2.将标准答案和消代后的学生答案形成的句对，作为自动评阅学习任务的输入序列，使用共享的BERT神经网络进行编码和分类，得到学生答案的评分等级；

S3.通过联合计算步骤S1和步骤S2的损失函数，联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型；

S4.使用步骤S3训练成型的多任务神经网络模型，对任意的学生答案进行消代与评阅；

所述共享的BERT神经网络是指步骤S1和步骤S2中共享参数的BERT神经网络；

所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。

进一步的，所述步骤S1具体包括：

S1.1以由等待消代的代词p、包含代词的学生答案S＝{s₁,s₂,…,s_m1}与BERT编码符号所组成的句对1序列SP1作为代词语义提取的输入序列，将题干T＝{t₁,t₂,…,t_n1}与BERT 编码符号所组成的题干序列ST作为题干语义生成的输入序列，如下所示：

SP1＝{[CLS],s₁,s₂,…,s_m1,[SEP],p,[SEP]} (1)

ST＝{[CLS],t₁,t₂,…,t_n1,[SEP]} (2)

其中，[CLS]是BERT分类符的编码，[SEP]是BERT结束符的编码，p∈S是学生答案S中等待消代的代词，n1是题干T的长度，m1是学生答案S的长度；

S1.2将题干序列ST和句对1序列SP1分别送入共享的BERT神经网络进行编码，得到题干语义表示C_ST、句对1语义表示C_SP1和代词语义向量v_p，计算过程如下所示：

其中，BERT(·)表示共享的BERT神经网络,h^cls、h^sep分别是编码[CLS]和[SEP]在BERT 中对应的隐藏状态,

分别是题干序列ST和学生答案S中的词在BERT中对应的隐藏状态，h^p是代词p在BERT中对应的隐藏状态，d是共享的BERT神经网络的隐藏单元数，k1是题干序列ST的长度且有k1＝n1+2，k2是句对1序列SP1的长度且有k2＝m1+4；

S1.3将代词语义向量v_p连接到题干语义表示C_ST中的每一个隐藏状态，然后通过线性变换和多头注意力得到题干语义融合表示

计算过程如下所示：

其中，F_TP是连接代词语义向量

后的题干语义连接表示，f_i是F_TP中的第i个元素，

是C_ST中的第i个元素，符号“；”表示连接运算，

是一个权重矩阵，

是一个偏置向量；

是将F_TP线性变换后的题干语义浓缩表示；

表示输入

的多头注意力MHA(Q,K,V)；

S1.4使用题干语义融合表示

进行代词成分位置抽取，得到代词成分在

中的开始位置u^s和结束位置u^e，进而使用题干序列ST得到代词成分E，计算过程如下所示：

首先，计算

中所有隐藏状态的开始位置和结束位置的概率：

其中，

为用于计算开始位置概率的权重向量，

为用于计算结束位置概率的权重向量，b₁、

为两个偏置参数，

为

中所有隐藏状态的开始位置的概率向量，

为

中所有隐藏状态的结束位置的概率向量，softmax(·)为用于计算概率的归一化函数；

其次，计算代词成分在

中的开始位置u^s和结束位置u^e：

其中，函数

表示

中第i个元素，函数

表示

中第j个元素，

表示返回使得

为

中最大值的i，

表示返回使得

为

中最大值的 j；

最后，按照u^s和u^e在题干序列ST中的对应位置，从题干序列ST中提取代词成分E，如下所示：

S1.5使用代词成分E替换学生答案S中的代词p，得到消代后的学生答案S^p，如下所示：

其中，m2为消代后的学生答案S^p的长度。

进一步的，所述步骤S2具体包括：

S2.1以标准答案A＝{a₁,a₂,…,a_n2}、消代后的学生答案S^p与BERT编码符号所组成的句对2序列SP2，作为主观题自动评阅学习任务的输入序列，如下所示：

其中，n2是标准答案A的长度；

S2.2将句对2序列SP2送入共享的BERT神经网络进行处理，得到句对2语义表示C_SP2，如下所示：

其中，

是SP2中的词在共享的BERT神经网络中对应的隐藏状态集合, k3是句对2序列SP2的长度且有k2＝n2+m2+3；

S2.3对句对2语义表示C_SP2执行最大值池化操作，得到句对2分类向量Z，计算过程如下所示：

其中，z_j是Z的第j个元素，maxPooling(C_SP2)表示对

执行按列求最大值的池化操作，计算过程如下：

其中，Max(·)表示求最大值的函数，

为C_SP2的第i行第j列的元素；

S2.4对句对2分类向量Z执行softmax的线性变换，进行评分等级的概率计算，并得出最终的评分等级，计算过程如下:

o＝MZ^T+b^o (20)

其中，

是评分等级表示矩阵，Z^T表示对Z进行转置，

是一个偏置向量，d_y是评分等级的个数，

是表示所有评分等级置信分数的向量，y为一个评分等级， o_y表示标注为评分等级y的样本的置信分数，o_i表示样本在第i个评分等级上的置信分数， P(y|Z)表示给定句对2分类向量Z在评分等级y上的预测概率，Y是所有评分等级的集合， y^*为最终评定的评分等级，

表示返回使得P(y|Z)为最大值的评分等级，exp(·)表示以自然常数e为底的指数函数。

更进一步的，所述步骤S3具体包括：

S3.1分别使用交叉熵损失误差计算学生答案代词消代的损失函数和主观题自动评阅的损失函数，计算过程如下:

其中，Ω是学生答案代词消代与主观题自动评阅多任务的训练集，|Ω|表示训练集Ω的大小，

分别表示Ω中第i个训练样本开始位置和结束位置的概率向量，

是Ω中第i个训练样本的代词成分在题干中的真实开始位置，

是Ω中第i个训练样本的代词成分在题干中的真实结束位置，

分别是关于真实开始位置与真实结束位置的one-hot独热向量，

是Ω中第i个训练样本的真实评分等级，Z_i是Ω中第i个训练样本的句对2分类向量，Υ₁是进行学生答案代词消代训练时使用的损失函数，Υ₂是进行主观题自动评阅训练时使用的损失函数；

S3.2使用如下的公式(25)计算联合训练学生答案代词消代与主观题自动评阅的联合损失函数

其中，λ和β是两个权重参数；

S3.3联合训练目标是最小化公式(25)计算的联合损失误差。

为消除答案文本中的代词，确保学生答案语义的完整性，本发明提出一种基于BERT神经网络和多任务学习的主观题自动评阅方法，通过消除学生答案中的代词，以更有效的方法解决主观题自动评阅问题。首先，使用所训练的多任务神经网络模型，从题干中提取代词成分来替换学生答案中的代词，确保学生答案语义的完整性。然后，将消代后的学生答案与标准答案形成句子对，送入BERT神经网络进行分类，得到学生答案的评分等级。

本发明具有以下优点：

(1)使用经过大规模语料预训练的BERT神经网络进行编码，有效地解决主观题自动评阅任务中语料过小的问题；

(2)通过从题干中提取代词成分来替换学生答案中的代词，确保了学生答案语义的完整性；

(3)通过与学生答案代词消代的联合训练，可进一步地提高主观题自动评阅的精度。

附图说明

图1是本发明的方法流程示意图。

具体实施方式

以下结合具体实施例对本发明作进一步说明，但本发明的保护范围不限于以下实施例。

设题干T＝{t₁,t₂,…,t_n1}、学生答案S＝{s₁,s₂,…,s_m1}、等待消代的代词为p且有p∈S，则按照图1所示的本发明方法流程图，通过以下步骤对学生答案进行消代和自动评阅：

进一步的，所述步骤S1具体包括：

SP1＝{[CLS],s₁,s₂,…,s_m1,[SEP],p,[SEP]} (1)

ST＝{[CLS],t₁,t₂,…,t_n1,[SEP]} (2)

计算过程如下所示：

其中，F_TP是连接代词语义向量

后的题干语义连接表示，f_i是F_TP中的第i个元素，

是C_ST中的第i个元素，符号“；”表示连接运算，

是一个权重矩阵，

是一个偏置向量；

是将F_TP线性变换后的题干语义浓缩表示；

表示输入

的多头注意力MHA(Q,K,V)；

S1.4使用题干语义融合表示

进行代词成分位置抽取，得到代词成分在

首先，计算

中所有隐藏状态的开始位置和结束位置的概率：

其中，

为用于计算开始位置概率的权重向量，

为用于计算结束位置概率的权重向量，b₁、

为两个偏置参数，

为

中所有隐藏状态的开始位置的概率向量，

为

其次，计算代词成分在

中的开始位置u^s和结束位置u^e：

其中，函数

表示

中第i个元素，函数

表示

中第j个元素，

表示返回使得

为

中最大值的i，

表示返回使得

为

中最大值的 j；

其中，m2为消代后的学生答案S^p的长度。

进一步的，所述步骤S2具体包括：

其中，n2是标准答案A的长度；

其中，

其中，z_j是Z的第j个元素，maxPooling(C_SP2)表示对

执行按列求最大值的池化操作，计算过程如下：

其中，Max(·)表示求最大值的函数，

为C_SP2的第i行第j列的元素；

o＝MZ^T+b^o (20)

其中，

是评分等级表示矩阵，Z^T表示对Z进行转置，

是一个偏置向量，d_y是评分等级的个数，

更进一步的，所述步骤S3具体包括：

是Ω中第i个训练样本的代词成分在题干中的真实开始位置，

是Ω中第i个训练样本的代词成分在题干中的真实结束位置，

分别是关于真实开始位置与真实结束位置的one-hot独热向量，

其中，λ和β是两个权重参数；

S3.3联合训练目标是最小化公式(25)计算的联合损失误差。

应用实例

1.实例环境

本实例的BERT神经网络使用Google AI Language在文献“Devlin J,Chang MW,Lee K, Toutanova K(2019)BERT:Pre-training of Deep Bidirectional Transformersfor Language Understanding.In:Proceedings of the 2019Conference of NAACL,pp4171–4186”中提出并开发的BERT-BASE版本，该BERT-BASE版本包括12层Transformers，768个隐藏单元，12个多头，以及总参数＝110M)；本实例采用的多头注意力来源于文献“Vaswani A, Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez AN,Kaiser L,Polosukhin I(2017) Attention Is All You Need.In:31st Conference on NeuralInformation Processing Systems(NIPS 2017),pp 5998–6008”，设置注意力的头数为8；为了最小化损失值，本实例使用了Adam Optimizer优化器，并将学习率设置为2e-5，batchsize大小设置为16；在训练期间，本实例将epochs设置为5。

2.数据集

文献17.Dzikovska MO,Nielsen RD,Brew C,Leacock C,Giampiccolo D,Bentivogli L,Clark P,Dagan I,Dang HT(2013)SemEval-2013task 7:The JointStudent Response Analysis and 8th Recognizing Textual EntailmentChallenge.In:ACL Second Joint Conference on Lexical and ComputationalSemantics,Vol.2,pp 263–274中提出的 SemEval-2013数据集和文献2.Mohler M,BunescuR,Mihalcea R(2011)Learning to Grade Short Answer Questions Using SemanticSimilarity Measures and Dependency Graph Alignments.In:ACL,pp 752–762中提出的Mohler数据集是在国际上广泛使用的短答案主观题评测基准。本实例从这两个数据集中抽取了3386要包含代词的学生答案和试题作为评测语料，并采用12折交叉验证进行评测。

3.实例对比结果

本实例通过在数据集上报告关于消代的准确度Accuracy(Acc)和关于评卷的Pearson相关系数(Pearson's r)、平均绝对误差(MAE)和均方根误差(RMSE)来评估各种模型。

表1实验结果

表1的实验结果表明，本发明提出的一种基于BERT神经网络和多任务学习的主观题自动评阅方法，在独立评卷和多任务两种情况下性能都显著超过了目前广泛使用的LSTM(Long Short-Term Memory)模型，这充分说明了本发明方法是可行和优秀的。

4.示例

题干：When a seed germinates,why does the root grow first？

标准答案：The root grows first so the root can take up water for theplant.

学生答案：So it can suck up water to grow.

(1)消代标志：When a seed germinates,why does[the root]grow first？

(2)消代结果：it＝the root

(3)评卷输入：[CLS]The root grows first so the root can take up waterfor the plant[SEP]So the root can suck up water to grow[SEP]。