CN117252739B

CN117252739B - 一种评卷方法、系统、电子设备及存储介质

Info

Publication number: CN117252739B
Application number: CN202311533593.3A
Authority: CN
Inventors: 马磊; 郭成锋; 袁峰; 邢金宝; 肖国亮
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-03-12
Anticipated expiration: 2043-11-17
Also published as: CN117252739A

Abstract

本发明实施例提供一种评卷方法、系统、电子设备及存储介质，属于教育考试测评领域。该方法包括：获取考生的待评分试卷，并提取所述待评分试卷包含的数据信息；将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分。这样，相比于传统的单一任务模型，本申请采用了多任务评分模型，可以同时处理分类任务和标注任务，而且，可以自动根据参考答案抽取考生答案中的关键信息，从而更好地理解考生的答题思路和知识水平，抽取的关键信息可以为评分结果提供一定的评分依据，从而更全面和准确地评估考生的答题情况。

Description

一种评卷方法、系统、电子设备及存储介质

技术领域

本发明涉及教育考试测评技术领域，具体地涉及一种评卷方法、系统、电子设备及存储介质。

背景技术

随着人工智能技术的迅猛发展，智能评分作为一种全新的自动化评分方法，已经在多种考试阅卷场景中得到了探索应用。通过借助先进的计算机技术和深度学习算法，智能评分能够自动、高效、准确地处理大量阅卷任务，从而极大地提高了阅卷效率，并且对于提高评分的准确性也有着明显的效果。

在各种智能评分的应用中，无论是主观题评分、口语考试评分，还是作文评分等，智能评分都表现出了一定的优势。尤其是在一些大规模考试中，如高考、研究生入学考试等，智能评分能够快速、准确地处理大量试卷，减轻了人工阅卷的压力，同时也减少了因人工阅卷主观因素引发的误差。

然而，尽管智能评分具有许多优点，但也存在一些问题和挑战。其中较为突出的问题就是模型的可解释性问题。由于大多数智能评分方法都采用了深度学习模型进行训练和预测，而深度学习模型具有很强的黑盒性质，使得人们很难理解模型的评分依据和逻辑。这在一定程度上导致人们对智能评分的准确性和公平性产生质疑。另外，如果进一步提高智能评分的准确也是目前研究的重点问题。

发明内容

本发明实施例的目的是提供一种评卷方法、系统、电子设备及存储介质，用于全部或至少部分的解决上述现有技术中存在的技术问题。

为了实现上述目的，本发明实施例提供一种评卷方法，该方法包括：

获取考生的待评分试卷，并提取所述待评分试卷包含的数据信息；

将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分。

可选的，所述预先构建的多任务评分模型包括输入层、第一语义特征计算层、信息抽取层、第二语义特征计算层以及评分预测层。

可选的，将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分，包括：

将所述待评分试卷包含的数据信息输入至所述输入层，并进行词嵌入和位置嵌入操作形成嵌入向量；

将所述嵌入向量传输至所述第一语义特征计算层进行深层语义计算，获得深层语义向量；

利用所述信息抽取层对所述深层语义向量进行Token级二分类，获得关键文本Token和非关键文本Token，并将所述非关键文本Token的序列号映射到向量；

利用所述第二语义特征计算层计算注意力权重，其中，所述第二语义特征计算层在计算注意力权重时，依据所述向量忽略所述非关键文本Token；

利用所述评分预测层将所述注意力权重与所述深层语义向量相乘，得到用于评分的语义向量，并基于所述语义向量给出评分。

可选的，根据以下公式计算注意力权重：

式中，表示注意力权重，/>表示线性变换层，/>为激活函数，/>表示层归一化，/>表示深层语义向量。

可选的，根据以下公式计算用于评分的语义向量：

式中，表示池化后的用于评分的语义向量，/>表示注意力权重，/>表示深层语义向量。

可选的，所述评卷方法还包括：

获取定标样本训练数据集；

在所述定标样本训练数据集上利用分类任务和标注任务对所述多任务评分模型进行训练。

可选的，所述获取定标样本训练数据集，包括：

获取评阅人员依据参考答案给出考生作答各题目的答案在各得分点上分值；

根据各题目得分点数量，设置得分点序列提示符，并与考生作答文本进行拼接，形成包含得分点序列提示符考生作答文本、得分点人工分值类别以及关键文本标注序列的三元组数据条目，其中，将所述得分点序列提示符考生答案文本作为所述多任务评分模型的输入，将所述得分点人工分值类别作为分类任务的标签，将关键文本标注序列作为标注任务的标签。

另一方面，本发明还提供一种评卷系统，包括：

获取单元，用于获取考生的待评分试卷，并提取所述待评分试卷包含的数据信息；

评分单元，用于将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分。

另一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序，所述处理器执行所述程序时实现上述所述的评卷方法的步骤。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的评卷方法的步骤。

通过上述技术方案，相比于传统的单一任务模型，本申请采用了多任务评分模型，可以同时处理分类任务和标注任务，而且，可以自动根据参考答案抽取考生答案中的关键信息，从而更好地理解考生的答题思路和知识水平，抽取的关键信息可以为评分结果提供一定的评分依据，从而更全面和准确地评估考生的答题情况。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的一种评卷方法实施流程图；

图2是本发明实施例提供的一种多任务评分模型的结构示意图；

图3是本发明本发明实施例提供的另一种评卷方法实施流程图；

图4是本发明实施例提供的一种评卷系统的结构示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

参阅图1所示，为本发明实施例提供的一种评卷方法实施流程图，包括以下执行步骤：

步骤100：获取考生的待评分试卷，并提取所述待评分试卷包含的数据信息；

应理解，数据信息包括待评分试卷中的题目信息、每道题目对应的分值信息以及每道题目对应的考生作答答案。

步骤101：将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分。

应理解，关键信息包括但不限于得分点信息。

在一些实施方式中，所述预先构建的多任务评分模型包括输入层、第一语义特征计算层、信息抽取层、第二语义特征计算层以及评分预测层。

在一些实施方式中，执行步骤101时，可以具体执行以下步骤：

S1010：将所述待评分试卷包含的数据信息输入至所述输入层，并进行词嵌入和位置嵌入操作形成嵌入向量。

S1011：将所述嵌入向量传输至所述第一语义特征计算层进行深层语义计算，获得深层语义向量。

S1012：利用所述信息抽取层对所述深层语义向量进行Token级二分类，获得关键文本Token和非关键文本Token，并将所述非关键文本Token的序列号映射到向量。

S1013：利用所述第二语义特征计算层计算注意力权重，其中，所述第二语义特征计算层在计算注意力权重时，依据所述向量忽略所述非关键文本Token。

在一些实施方式中，可以根据以下公式计算注意力权重：

S1014：利用所述评分预测层将所述注意力权重与所述深层语义向量相乘，得到用于评分的语义向量，并基于所述语义向量给出评分。

在一些实施方式中，可以根据以下公式计算用于评分的语义向量：

在一些实施方式中，第一语义特征计算层优选经过预训练的BERT（一种预训练模型）基座语言模型作为第一语义特征计算层；信息抽取层利用softmax函数对深层语义向量进行Token级二分类，其类别1定义为关键文本Token，类别0定义为非关键文本Token，非关键文本Token的序列号将被映射到向量中，在第二语义特征计算层计算注意力权重的时候将依据/>向量忽略非关键文本Token；优选经过预训练的BERT作为基座语言模型，选取后4层作为第二语义特征计算层；评分预测层首先对深层语义向量进行注意力池化形成池化向量，再利用softmax函数对池化向量进行分类。

在一些实施方式中，所述评卷方法的执行步骤还包括：

S1：获取定标样本训练数据集。

具体的，执行步骤S1时，可以具体执行以下步骤：

S10：获取评阅人员依据参考答案给出考生作答各题目的答案在各得分点上分值。

S11：根据各题目得分点数量，设置得分点序列提示符，并与考生作答文本进行拼接，形成包含得分点序列提示符考生作答文本、得分点人工分值类别以及关键文本标注序列的三元组数据条目。

其中，将所述得分点序列提示符考生答案文本作为所述多任务评分模型的输入，将所述得分点人工分值类别作为分类任务的标签，将关键文本标注序列作为标注任务的标签。

在一些实施方式中，三元组数据条目表示为（[CLS]得分点序列提示符[SEP]考生答案文本[SEP],得分点人工分值类别，关键文本标注序列）。

其中，[CLS]是“classification”的缩写，在文本分类任务中，它通常表示句子或文档的开头,在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是“separator”的缩写，它通常表示句子或文档的结尾，在BERT中，[SEP]对应输入文本的最后一个词的词向量，它的作用是用来分割不同的句子，例如，在BERT中处理句子对的，两个句子之间通常会插入一个[SEP]来表示它们的分界点。BERT最终输出的就是句子中每个token的多维向量，例如768维的向量，第一个位置是[CLS]，它的向量表示蕴含了这个句子整体的信息，用于做文本分类等句子级任务；对于序列标注等token级任务，就需要使用到每一个token的向量表示。只要将768维向量通过一个线性层映射到最终的分类空间中即可。

在一些实施方式中，参阅图2所示，为本发明实施例提供的一种多任务评分模型的结构示意图，输入层输入[CLS]得分点序列提示符[SEP]考生答案文本[SEP]三元组条目，并传输至第一语义特征计算层进行深层语义计算，获得深层语义向量，将其传输至信息抽取层，进行进行Token级二分类，再依次传输至第二语义特征计算层和评分预测层。

在一些实施方式中，执行步骤S1时，还可以执行以下步骤：

（1）由评阅专家对定标样本进行评阅，评阅专家依据参考答案给出考生答案在各得分点上分值。

（2）由评阅专家对定标样本进行评阅，评阅专家依据参考答案标注出考生答案各得分点对应的关键文本。

以下是本实施例中由专家标定的样本示例：

考生作答文本为 “每股无差别点(EBIT-180)*(1-25%)/1500=(EBIT-500)* (1-25%)/1000，解得EBIT=1140万元，该公司应选择B方案。”，该题包含两个2得分点，经由专家评语后得到表1：

表1 人工评阅结果样例

上述关键信息标注栏内用“”标注的文本则为对应得分点的关键文本。

S2：在所述定标样本训练数据集上利用分类任务和标注任务对所述多任务评分模型进行训练。

在一些实施方式中，利用三元组数据条目对多任务评分模型进行训练，多任务评分模型的Loss分为两部分:

式中，表示信息抽取损失，/>为评分分类损失。利用反向传播算法将/>传递到整个多任务评分模型网络，并利用AdamW优化器更新整个多任务评分模型参数。因Adam优化器具有更快的收敛速度和更好的性能。尤其是在大规模深度学习模型中，Adam优化器表现更为优异。此外，Adam优化器还能够应对一些不同的目标函数和网络结构，实现对多任务评分模型的优化。

通过联合训练分类任务和标注任务，可以更好地优化多任务评分模型的参数，提高多任务评分模型的准确性。传统的评卷方法通常只考虑单一的分类任务，而本申请则通过联合训练的方式提高了多任务评分模型的准确性。

在一些实施方式中，用于多任务评分模型训练的三元组条目详见表2：

表2 用于模型训练的三元组条目样例

在一些是实施方式中，利用上述任一实施例得到的实验计算结果参见表3所示：

表3训练200样本-智能评分一致率对比表

上述实验结果中，采用分类任务和标注任务联合训练的结果要优于仅使用分类任务训练的模型。

在一些实施方式中，参阅图3所示，为本发明实施例提供的另一种评卷方法实施流程图，包括一下执行步骤：

S1：构建多任务评分模型，模型由输入层、第一语义特征计算层、信息抽取层、第二语义特征计算层、评分预测层组成。

S2：评阅专家对定标样本进行评阅，依据参考答案给出考生答案在各得分点上分值，并标注各得分点对应的关键文本，由此形成定标样本。

S3：在定标数据集上利用分类任务和标注任务对模型训练联合训练。

S4：利用训练完成的模型对未评考生数据进行关键信息抽取和评分。

相比于传统的单一任务模型，本申请采用了多任务评分模型，可以同时处理分类任务和标注任务，而且，可以自动根据参考答案抽取考生答案中的关键信息，从而更好地理解考生的答题思路和知识水平，抽取的关键信息可以为评分结果提供一定的评分依据，从而更全面和准确地评估考生的答题情况。

参阅图4所示，为本发明实施例提供的一种评卷系统的结构示意图，该系统包括：

获取单元400，用于获取考生的待评分试卷，并提取所述待评分试卷包含的数据信息；

评分单元401，用于将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分。

通过评分系统中获取单元和评分单元之间的协同作用，可以同时处理分类任务和标注任务，而且，评分单元可以自动根据参考答案抽取考生答案中的关键信息，从而更好地理解考生的答题思路和知识水平，抽取的关键信息可以为评分结果提供一定的评分依据，从而更全面和准确地评估考生的答题情况。

另一方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述的评卷方法的步骤。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的评卷方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种评卷方法，其特征在于，包括：

将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分;

所述评卷方法还包括：

获取定标样本训练数据集；

在所述定标样本训练数据集上利用分类任务和标注任务对所述多任务评分模型进行训练；

其中，所述预先构建的多任务评分模型包括输入层、第一语义特征计算层、信息抽取层、第二语义特征计算层以及评分预测层；

将所述数据信息输入至预先构建的多任务评分模型中，使得所述多任务评分模型根据所述待评分试卷的参考答案提取所述数据信息中包含的考生作答文本的关键信息，并基于所述关键信息给出评分，包括：

2.根据权利要求1所述的评卷方法，其特征在于，根据以下公式计算注意力权重：

3.根据权利要求1所述的评卷方法，其特征在于，根据以下公式计算用于评分的语义向量：

4.根据权利要求1所述的评卷方法，其特征在于，所述获取定标样本训练数据集，包括：

5.一种应用于权利要求1-4任一项所述的评卷方法的评卷系统，其特征在于，包括：

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上进行运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4任意一项所述的评卷方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的评卷方法的步骤。