CN116665213A

CN116665213A - 一种文科解答题自动批改方法

Info

Publication number: CN116665213A
Application number: CN202310235474.3A
Authority: CN
Inventors: 郭子铭; 钱锟
Original assignee: Zhongjiao Yunzhi Digital Technology Co ltd
Current assignee: Zhongjiao Yunzhi Digital Technology Co ltd
Priority date: 2022-05-10
Filing date: 2023-03-13
Publication date: 2023-08-29
Also published as: CN114936265A

Abstract

本发明公开了一种文科解答题自动批改方法，包括批卷教师将示例答案修改为标准化答案；对标准化答案进行提取处理，获得关键词信息和标准答案的句向量组信息，并对关键词信息和标准答案的句向量信息分别标注分值；获取学生的作答文本，并对作答文本进行语句和词语的分别切分和Embedding工作；将作答的词语与关键词信息对比，获得关键词命中情况，获得关键词赋分；根据关键词命中情况，为语句的语义相似度得分进行范围的划分，并对于语句的语义与标准答案的句向量组相似度进行对比，获得语义相似度赋分；关键词赋分值和语义相似度赋分值之和，即为此回答所获得的总得分。本方案，简便的进行文科试卷的批改过程，减少教师的劳动量。

Description

一种文科解答题自动批改方法

本发明涉及文科试卷批改技术领域，具体而言，涉及一种文科解答题自动批改方法。

背景技术

作为对学生所掌握知识的熟悉程度进行评估的最常见的方式，考试在传统的教育过程中发挥着举足轻重的作用。在出题、作答、阅卷这一完整的考试流程中，人工阅卷一直是最为繁琐的环节，大量学生的作答不仅为老师带来了巨大的阅卷工作量，且会将人工阅卷可能出现的打分不公平、打分错误的情况也会被进一步放大。而上述困难，在文字量大、作答自由度高的文科解答题的阅卷上尤为突出。

当下常见的应用于解答题的自动批改的方案，大多仅采用了关键词赋分或相似度赋分中的一种方式。但前者，一方面在面对句式灵活多变、自由度高的真实的学生作答时，老师很难提前提出所有可能出现的关键词；另一方面，哪怕只是简单地大量猜测可能的关键词的答案，这样的方案也有可能给出较高的分数。而对于后者，仅依靠相似度的赋分方式，并不符合教师阅卷时对部分需要严格正确的词句的赋分，例如在语文、政治中分别可以见到的“比拟”与“拟人”、“最基本”与“最根本”等词语的替换，在语义相似度上可以获得很高的评价，但却是错误的作答。

因此，寻找一个可以合理将上述两种方式进行结合的，自动批改的技术方案，以减轻教师的劳动量，是亟待解决的问题。

发明内容

本发明的主要目的在于提供一种文科解答题自动批改方法，以改善相关技术中,现有的批改方法，批改性能差，教师劳动量大的问题。为了实现上述目的，本发明提供了一种文科解答题自动批改方法，具体包括以下步骤：

S1、批卷教师将示例答案修改为标准化答案；

S2、对标准化答案进行提取处理，获得关键词信息和标准答案的句向量组信息，并对关键词信息和标准答案的句向量信息分别标注分值；

S3、获取学生的作答文本，并对作答文本进行语句和词语的分别切分和Embedding工作；

S4、将作答的词语与关键词信息对比，获得关键词命中情况，获得关键词赋分；

S5、根据关键词命中情况，为语句的语义相似度得分进行范围的划分，并对于语句的语义与标准答案的句向量组相似度进行对比，获得语义相似度赋分；

S6、关键词赋分值和语义相似度赋分值之和，即为此回答所获得的总得分。

在本发明的一种实施例中，所述S3中，获取学生的作答文本，具体包括以下步骤：

S31、获取学生的答题试卷；

S32、利用扫描设备扫描答题试卷，获得作答的图片；

S33、利用OCR文字识别设备，对作答图片中的文字识别，并生成作答文本。

在本发明的一种实施例中，所述S4中，关键词赋分的赋分单位为字词或由数个词组成的短语，关键词赋分包括精确匹配与模糊匹配两种关键词匹配方式。

在本发明的一种实施例中，所述精确匹配为教师所指定的关键词，完全正确地出现在学生作答中，才可对此学生作答进行赋分。

在本发明的一种实施例中，所述模糊匹配包括词语切分、词嵌入与关键词相似度计算三个部分，其中：

词语切分部分，调用中文分词库jieba库进行词语切分；

词嵌入部分，使用向量数据集 Tencent_AILab_ChineseEmbedding；

关键词相似度计算部分，使用动态滑动窗口原理，将窗口尺寸设定为教师指定的模糊匹配关键词中词语个数的0.5 - 1.5倍，并向上取整，用以在学生作答中选定用于模糊匹配的短语内容，随后计算窗口中的所有词语的词向量的平均值与教师指定的模糊匹配关键词中的所有词语的词向量的平均值，获得两个180-220维的向量，并进行余弦相似度的计算，然后以相似度最高的短语作为匹配对象，若相似度高于设计的阈值，则匹配成功，获得对应分数，反之则匹配失败，不得分。

在本发明的一种实施例中，所述S6中，语义相似度赋分的赋分单位为完整的语句，语义相似度赋分包括示例答案预处理、学生作答预处理和语义相似度计算三个部分，其中：

示例答案预处理部分，将示例答案中的各个得分点语句进行切分，并借助 BERT-whitening 模型为各个语句进行句向量的计算；

学生作答预处理部分，以句号、分号、叹号、问号为分隔，将学生作答进行整句的切分；同时在每个整句内，以逗号为分隔，进行分句的切分；所有的整句与分句均通过 BERT-whitening 进行句向量的计算；

语义相似度计算部分，为每个示例答案的得分点语句，在对应的范围内匹配合适的学生作答语句进行余弦相似度的计算。

在本发明的一种实施例中，对应的范围具体分为：

若该示例答案语句中包括关键词，则系统只会在命中了关键词的学生作答的整句及其所有的分句内尝试匹配；

否则，将该示例答案语句与学生作答的所有整句及其分句进行尝试匹配。

在本发明的一种实施例中，在语义相似度计算后，根据预先设计的两个阈值，来为每个得分点语句进行完全命中和部分命中的评价，并进行对应的赋分。

与现有技术相比，本发明的有益效果是：

结合了语义与关键词两种批改方式，并支持精确匹配关键词与模糊匹配关键词两种机制，更加符合教师人工阅卷时的赋分逻辑，提升自动批改的性能；

简化了自动批改前的准备工作，使用方式简单，覆盖题目内容范围广，只需在标准答案的基础上进行简单的标准化修改，即可用以自动地大批量自动修改。

附图说明

图1为根据本发明实施例提供的文科解答题自动批改方法的流程结构示意图；

图2为根据本发明实施例提供的文科解答题自动批改方法的作答文本的流程示意图；

图3为根据本发明实施例提供的文科解答题自动批改方法的关键词得分的示意框图；

图4为根据本发明实施例提供的文科解答题自动批改方法的语义相似得分的示意框图。

实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例

请参阅图1-图4，本发明提供了一种文科解答题自动批改方法，具体包括以下步骤：

S1、批卷教师将示例答案修改为标准化答案；

请参阅图2，在本实施例中，S3中，获取学生的作答文本，具体包括以下步骤：

S31、获取学生的答题试卷；

S32、利用扫描设备扫描答题试卷，获得作答的图片；

S33、利用OCR文字识别设备，对作答图片中的文字识别，并生成作答文本，利用OCR文字识别的方式，可以便捷的输出作答文本，缩短获取学生答案的时间。

在本实施例中，S4中，关键词赋分的赋分单位为字词或由数个词组成的短语，关键词赋分包括精确匹配与模糊匹配两种关键词匹配方式，由于精确匹配只需进行字符串的匹配，在此不进行技术细节说明。

在本实施例中，精确匹配为教师所指定的关键词，完全正确地出现在学生作答中，才可对此学生作答进行赋分；模糊匹配包括词语切分、词嵌入与关键词相似度计算三个部分，其中：

词语切分部分，调用中文分词库jieba库进行词语切分；

词嵌入部分，使用向量数据集 Tencent_AILab_ChineseEmbedding；

在本实施例中，S6中，语义相似度赋分的赋分单位为完整的语句，语义相似度赋分包括示例答案预处理、学生作答预处理和语义相似度计算三个部分，其中：

需要说明的是，BERT-whitening 为Google开源的预训练模型BERT-Base,Chinese，取最后一层的768维向量作为输出，并以近8万道中学政治、历史、语文学科解答题的示例答案作为标准，进行whiten操作的参数计算后获得。

对应的范围具体分为：

在语义相似度计算后，根据预先设计的两个阈值，来为每个得分点语句进行完全命中和部分命中的评价，并进行对应的赋分。

实施例

以一道初中政治解答题为例，说明整体批改流程。示例题目与标准答案如下：

示例题目：

《节能与新能源汽车产业发展规划（2012—2020年)》查显示:越来越多的人开始关注新能源汽车。

材料一:拥有节能、环保等百般好处及庞大的产销目标的新能源汽车，为什么仍飞不到寻常百姓家呢?半数人认为新能源车价格偏高:一方面，关键技术尚未突破，企业研发投入大，产品成本高，特别是动力电池价格高昂，成本要占整车造价的二分之一;另一方面，企业对发展新能源汽车的热情高涨，而更多的还是在造势，现实产量和保有量并不高，可选车型不多。

材料二:新能源汽车的发展，决不能绕过普通消费者这个庞大的消费群体，加大从消费方面推动新能源汽车发展，倡导“绿车”消费，激励购买新能源汽车，积极培育新的消费热点带动并形成新能源汽车产业的发展，发挥消费对产业发展和经济增长的重要带动作用，相信新能源汽车的春天将不会太远。

(1) 结合材料一，运用影响价格的因素知识，分析说明新能源汽车价格偏高的依据。(8分)

(2) 结合材料二，运用生产与消费的关系原理，说明倡导“绿车”消费对汽车产业的影响。(9分)

示例答案：

①价值决定价格，价值是价格的基础。新能源汽车投入大、成本高，是其价格偏高的根本原因。(4分)

②供求影响价格。新能源汽车产量和保有量不高，影响新能源汽车供给，推涨车价。(4分)

①消费对生产有重要的反作用。(3分)

②消费所形成的新的需要，对生产的调整和升级起着导向作用。“绿车”消费，必将形成新的消费需要，对生产的调整和升级起着导向作用。(3分)

③一个新的消费热点的出现，往往带动一个产业的出现和成长。一个新的“绿车”消费热点的出现，往往能带动新能源汽车及相关产业链的出现和成长。(3分)

在标准答案预处理时，首先需要教师将示例答案改写为如下所示格式的标准化答案。其中每个完整语句后的小括号内标注该得分语句的分值，而关键词则分别以[]、{}代表精确匹配或模糊匹配方式，并同样以小括号将得分标注在关键词后：

标准化后的答案：

1:

[价值决定价格(1)]，{价值是价格的基础(1)}，新能源汽车投入大、成本高，是其价格偏高的根本原因(4)。

{供求影响价格(2)}，新能源汽车产量和保有量不高，影响新能源汽车供给，推涨车价(4)。

2:

消费对生产有重要的[反作用(1)](3)。

消费所形成的新的需要，对生产的调整和升级起着[导向(1)]作用，“绿车”消费，必将形成新的消费需要，对生产的调整和升级起着导向作用(3)。

一个新的消费热点的出现，往往带动一个产业的出现和成长，一个新的“绿车”消费热点的出现，往往能带动新能源汽车及相关产业链的出现和成长(3)。

在完成答案标准化工作后，将标准化后的答案输入系统，由系统进行后续预处理后，即可对学生的作答进行自动批改。两个示例作答与对应的自动批改输出如下：

示例作答一：

(1)1.价值决定价格，价格能够体现价值，新能源汽车由于技术难度高、成本高，导致其价格偏高；2.价格受供求关系影响，新能源汽车目前供小于求，导致其价格偏高。

得分点1

固定关键词命中：价值决定价格

模糊关键词'价值是价格的基础'命中：['价格', '能够', '体现', '价值']

第1句作答第0分句意义匹配

得分：4.0

得分点2

模糊关键词'供求影响价格'命中：['价格', '受', '供求关系', '影响']

得分：2.0

该作答总分：6.0

(2)1.消费是生产的目的，倡导“绿车”消费可以刺激消费者对新能源汽车的消费需求，进而提高相关企业的生产动力。2.消费是生产的动力，倡导“绿车”消费可以在市场形成新的需要，对生产调整与升级起导向作用。3.倡导“绿车消费”，形成新的消费热点，也可以带动相关产业的出现和成长。4.“绿车消费”的提高也有助于为企业提供更多的劳动力与资金。

得分点1

得分：0

得分点2

固定关键词命中：导向

第2句作答第0分句意义匹配

得分：3.0

得分点3

无关键词，第1句作答第2分句意义匹配；

无关键词，第2句作答第2分句意义匹配；

无关键词，第3句作答第0分句意义匹配；

无关键词，第4句作答第0分句意义接近；

得分：3.0

该作答总分：6.0

示例作答二：

（1）①价值决定价格，价值是价格的基础，目前，关键技术尚未突破，企业研发投入大，新能源汽车的动力电池价格高昂，成本要占整车造价的二分之一。②求大于供，产量和保有量不能满足需求。

得分点1

固定关键词命中：价值决定价格

模糊关键词'价值是价格的基础'命中：['价值', '是', '价格', '的', '基础']

第1句作答第0分句意义匹配

得分：4.0

得分点2

得分：0

该作答总分：4.0

（2）①消费对生产有重要的反作用。②消费所形成的新的需要，对生产的调整和升级起着导向作用。“绿车”消费将引导企业更加重视新能源汽车的发展。③一个新的消费热点的出现，往往带动一个产业的出现和成长。新能源汽车产业及相关产业也会发展进步。

固定关键词命中：反作用

第1句作答第1分句意义匹配

得分：3.0

得分点2

固定关键词命中：导向

第2句作答第0分句意义匹配

得分：3.0

得分点3

无关键词，第3句作答第0分句意义匹配

无关键词，第4句作答第0分句意义匹配

得分：3.0

该作答总分：9.0

综上，该文科解答题自动批改方法，结合了语义与关键词两种批改方式，并支持精确匹配关键词与模糊匹配关键词两种机制，更加符合教师人工阅卷时的赋分逻辑，提升自动批改的性能；简化了自动批改前的准备工作，使用方式简单，覆盖题目内容范围广，只需在标准答案的基础上进行简单的标准化修改，即可用以自动地大批量自动修改。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文科解答题自动批改方法，其特征在于，具体包括以下步骤：

S1、批卷教师将示例答案修改为标准化答案；

2.如权利要求1所述的一种文科解答题自动批改方法，其特征在于，所述S3中，获取学生的作答文本，具体包括以下步骤：

S31、获取学生的答题试卷；

S32、利用扫描设备扫描答题试卷，获得作答的图片；

3.如权利要求1所述的一种文科解答题自动批改方法，其特征在于，所述S4中，关键词赋分的赋分单位为字词或由数个词组成的短语，关键词赋分包括精确匹配与模糊匹配两种关键词匹配方式。

4.如权利要求3所述的一种文科解答题自动批改方法，其特征在于，所述精确匹配为教师所指定的关键词，完全正确地出现在学生作答中，才可对此学生作答进行赋分。

5.如权利要求3所述的一种文科解答题自动批改方法，其特征在于，所述模糊匹配包括词语切分、词嵌入与关键词相似度计算三个部分，其中：

词语切分部分，调用中文分词库jieba库进行词语切分；

词嵌入部分，使用向量数据集 Tencent_AILab_ChineseEmbedding；

6.如权利要求1所述的一种文科解答题自动批改方法，其特征在于，所述S6中，语义相似度赋分的赋分单位为完整的语句，语义相似度赋分包括示例答案预处理、学生作答预处理和语义相似度计算三个部分，其中：

7.如权利要求6所述的一种文科解答题自动批改方法，其特征在于，对应的范围具体分为：

8.如权利要求6所述的一种文科解答题自动批改方法，其特征在于，在语义相似度计算后，根据预先设计的两个阈值，来为每个得分点语句进行完全命中和部分命中的评价，并进行对应的赋分。