CN116665213A - 一种文科解答题自动批改方法 - Google Patents

一种文科解答题自动批改方法 Download PDF

Info

Publication number
CN116665213A
CN116665213A CN202310235474.3A CN202310235474A CN116665213A CN 116665213 A CN116665213 A CN 116665213A CN 202310235474 A CN202310235474 A CN 202310235474A CN 116665213 A CN116665213 A CN 116665213A
Authority
CN
China
Prior art keywords
answer
sentence
keyword
score
student
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310235474.3A
Other languages
English (en)
Inventor
郭子铭
钱锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongjiao Yunzhi Digital Technology Co ltd
Original Assignee
Zhongjiao Yunzhi Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongjiao Yunzhi Digital Technology Co ltd filed Critical Zhongjiao Yunzhi Digital Technology Co ltd
Publication of CN116665213A publication Critical patent/CN116665213A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种文科解答题自动批改方法,包括批卷教师将示例答案修改为标准化答案;对标准化答案进行提取处理,获得关键词信息和标准答案的句向量组信息,并对关键词信息和标准答案的句向量信息分别标注分值;获取学生的作答文本,并对作答文本进行语句和词语的分别切分和Embedding工作;将作答的词语与关键词信息对比,获得关键词命中情况,获得关键词赋分;根据关键词命中情况,为语句的语义相似度得分进行范围的划分,并对于语句的语义与标准答案的句向量组相似度进行对比,获得语义相似度赋分;关键词赋分值和语义相似度赋分值之和,即为此回答所获得的总得分。本方案,简便的进行文科试卷的批改过程,减少教师的劳动量。

Description

一种文科解答题自动批改方法
本发明涉及文科试卷批改技术领域,具体而言,涉及一种文科解答题自动批改方法。
背景技术
作为对学生所掌握知识的熟悉程度进行评估的最常见的方式,考试在传统的教育过程中发挥着举足轻重的作用。在出题、作答、阅卷这一完整的考试流程中,人工阅卷一直是最为繁琐的环节,大量学生的作答不仅为老师带来了巨大的阅卷工作量,且会将人工阅卷可能出现的打分不公平、打分错误的情况也会被进一步放大。而上述困难,在文字量大、作答自由度高的文科解答题的阅卷上尤为突出。
当下常见的应用于解答题的自动批改的方案,大多仅采用了关键词赋分或相似度赋分中的一种方式。但前者,一方面在面对句式灵活多变、自由度高的真实的学生作答时,老师很难提前提出所有可能出现的关键词;另一方面,哪怕只是简单地大量猜测可能的关键词的答案,这样的方案也有可能给出较高的分数。而对于后者,仅依靠相似度的赋分方式,并不符合教师阅卷时对部分需要严格正确的词句的赋分,例如在语文、政治中分别可以见到的“比拟”与“拟人”、“最基本”与“最根本”等词语的替换,在语义相似度上可以获得很高的评价,但却是错误的作答。
因此,寻找一个可以合理将上述两种方式进行结合的,自动批改的技术方案,以减轻教师的劳动量,是亟待解决的问题。
发明内容
本发明的主要目的在于提供一种文科解答题自动批改方法,以改善相关技术中,现有的批改方法,批改性能差,教师劳动量大的问题。为了实现上述目的,本发明提供了一种文科解答题自动批改方法,具体包括以下步骤:
S1、批卷教师将示例答案修改为标准化答案;
S2、对标准化答案进行提取处理,获得关键词信息和标准答案的句向量组信息,并对关键词信息和标准答案的句向量信息分别标注分值;
S3、获取学生的作答文本,并对作答文本进行语句和词语的分别切分和Embedding工作;
S4、将作答的词语与关键词信息对比,获得关键词命中情况,获得关键词赋分;
S5、根据关键词命中情况,为语句的语义相似度得分进行范围的划分,并对于语句的语义与标准答案的句向量组相似度进行对比,获得语义相似度赋分;
S6、关键词赋分值和语义相似度赋分值之和,即为此回答所获得的总得分。
在本发明的一种实施例中,所述S3中,获取学生的作答文本,具体包括以下步骤:
S31、获取学生的答题试卷;
S32、利用扫描设备扫描答题试卷,获得作答的图片;
S33、利用OCR文字识别设备,对作答图片中的文字识别,并生成作答文本。
在本发明的一种实施例中,所述S4中,关键词赋分的赋分单位为字词或由数个词组成的短语,关键词赋分包括精确匹配与模糊匹配两种关键词匹配方式。
在本发明的一种实施例中,所述精确匹配为教师所指定的关键词,完全正确地出现在学生作答中,才可对此学生作答进行赋分。
在本发明的一种实施例中,所述模糊匹配包括词语切分、词嵌入与关键词相似度计算三个部分,其中:
词语切分部分,调用中文分词库jieba库进行词语切分;
词嵌入部分,使用向量数据集 Tencent_AILab_ChineseEmbedding;
关键词相似度计算部分,使用动态滑动窗口原理,将窗口尺寸设定为教师指定的模糊匹配关键词中词语个数的0.5 - 1.5倍,并向上取整,用以在学生作答中选定用于模糊匹配的短语内容,随后计算窗口中的所有词语的词向量的平均值与教师指定的模糊匹配关键词中的所有词语的词向量的平均值,获得两个180-220维的向量,并进行余弦相似度的计算,然后以相似度最高的短语作为匹配对象,若相似度高于设计的阈值,则匹配成功,获得对应分数,反之则匹配失败,不得分。
在本发明的一种实施例中,所述S6中,语义相似度赋分的赋分单位为完整的语句,语义相似度赋分包括示例答案预处理、学生作答预处理和语义相似度计算三个部分,其中:
示例答案预处理部分,将示例答案中的各个得分点语句进行切分,并借助 BERT-whitening 模型为各个语句进行句向量的计算;
学生作答预处理部分,以句号、分号、叹号、问号为分隔,将学生作答进行整句的切分;同时在每个整句内,以逗号为分隔,进行分句的切分;所有的整句与分句均通过 BERT-whitening 进行句向量的计算;
语义相似度计算部分,为每个示例答案的得分点语句,在对应的范围内匹配合适的学生作答语句进行余弦相似度的计算。
在本发明的一种实施例中,对应的范围具体分为:
若该示例答案语句中包括关键词,则系统只会在命中了关键词的学生作答的整句及其所有的分句内尝试匹配;
否则,将该示例答案语句与学生作答的所有整句及其分句进行尝试匹配。
在本发明的一种实施例中,在语义相似度计算后,根据预先设计的两个阈值,来为每个得分点语句进行完全命中和部分命中的评价,并进行对应的赋分。
与现有技术相比,本发明的有益效果是:
结合了语义与关键词两种批改方式,并支持精确匹配关键词与模糊匹配关键词两种机制,更加符合教师人工阅卷时的赋分逻辑,提升自动批改的性能;
简化了自动批改前的准备工作,使用方式简单,覆盖题目内容范围广,只需在标准答案的基础上进行简单的标准化修改,即可用以自动地大批量自动修改。
附图说明
图1为根据本发明实施例提供的文科解答题自动批改方法的流程结构示意图;
图2为根据本发明实施例提供的文科解答题自动批改方法的作答文本的流程示意图;
图3为根据本发明实施例提供的文科解答题自动批改方法的关键词得分的示意框图;
图4为根据本发明实施例提供的文科解答题自动批改方法的语义相似得分的示意框图。
实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例
请参阅图1-图4,本发明提供了一种文科解答题自动批改方法,具体包括以下步骤:
S1、批卷教师将示例答案修改为标准化答案;
S2、对标准化答案进行提取处理,获得关键词信息和标准答案的句向量组信息,并对关键词信息和标准答案的句向量信息分别标注分值;
S3、获取学生的作答文本,并对作答文本进行语句和词语的分别切分和Embedding工作;
S4、将作答的词语与关键词信息对比,获得关键词命中情况,获得关键词赋分;
S5、根据关键词命中情况,为语句的语义相似度得分进行范围的划分,并对于语句的语义与标准答案的句向量组相似度进行对比,获得语义相似度赋分;
S6、关键词赋分值和语义相似度赋分值之和,即为此回答所获得的总得分。
请参阅图2,在本实施例中,S3中,获取学生的作答文本,具体包括以下步骤:
S31、获取学生的答题试卷;
S32、利用扫描设备扫描答题试卷,获得作答的图片;
S33、利用OCR文字识别设备,对作答图片中的文字识别,并生成作答文本,利用OCR文字识别的方式,可以便捷的输出作答文本,缩短获取学生答案的时间。
在本实施例中,S4中,关键词赋分的赋分单位为字词或由数个词组成的短语,关键词赋分包括精确匹配与模糊匹配两种关键词匹配方式,由于精确匹配只需进行字符串的匹配,在此不进行技术细节说明。
在本实施例中,精确匹配为教师所指定的关键词,完全正确地出现在学生作答中,才可对此学生作答进行赋分;模糊匹配包括词语切分、词嵌入与关键词相似度计算三个部分,其中:
词语切分部分,调用中文分词库jieba库进行词语切分;
词嵌入部分,使用向量数据集 Tencent_AILab_ChineseEmbedding;
关键词相似度计算部分,使用动态滑动窗口原理,将窗口尺寸设定为教师指定的模糊匹配关键词中词语个数的0.5 - 1.5倍,并向上取整,用以在学生作答中选定用于模糊匹配的短语内容,随后计算窗口中的所有词语的词向量的平均值与教师指定的模糊匹配关键词中的所有词语的词向量的平均值,获得两个180-220维的向量,并进行余弦相似度的计算,然后以相似度最高的短语作为匹配对象,若相似度高于设计的阈值,则匹配成功,获得对应分数,反之则匹配失败,不得分。
在本实施例中,S6中,语义相似度赋分的赋分单位为完整的语句,语义相似度赋分包括示例答案预处理、学生作答预处理和语义相似度计算三个部分,其中:
示例答案预处理部分,将示例答案中的各个得分点语句进行切分,并借助 BERT-whitening 模型为各个语句进行句向量的计算;
学生作答预处理部分,以句号、分号、叹号、问号为分隔,将学生作答进行整句的切分;同时在每个整句内,以逗号为分隔,进行分句的切分;所有的整句与分句均通过 BERT-whitening 进行句向量的计算;
需要说明的是,BERT-whitening 为Google开源的预训练模型BERT-Base,Chinese,取最后一层的768维向量作为输出,并以近8万道中学政治、历史、语文学科解答题的示例答案作为标准,进行whiten操作的参数计算后获得。
语义相似度计算部分,为每个示例答案的得分点语句,在对应的范围内匹配合适的学生作答语句进行余弦相似度的计算。
对应的范围具体分为:
若该示例答案语句中包括关键词,则系统只会在命中了关键词的学生作答的整句及其所有的分句内尝试匹配;
否则,将该示例答案语句与学生作答的所有整句及其分句进行尝试匹配。
在语义相似度计算后,根据预先设计的两个阈值,来为每个得分点语句进行完全命中和部分命中的评价,并进行对应的赋分。
实施例
以一道初中政治解答题为例,说明整体批改流程。示例题目与标准答案如下:
示例题目:
《节能与新能源汽车产业发展规划(2012—2020年)》查显示:越来越多的人开始关注新能源汽车。
材料一:拥有节能、环保等百般好处及庞大的产销目标的新能源汽车,为什么仍飞不到寻常百姓家呢?半数人认为新能源车价格偏高:一方面,关键技术尚未突破,企业研发投入大,产品成本高,特别是动力电池价格高昂,成本要占整车造价的二分之一;另一方面,企业对发展新能源汽车的热情高涨,而更多的还是在造势,现实产量和保有量并不高,可选车型不多。
材料二:新能源汽车的发展,决不能绕过普通消费者这个庞大的消费群体,加大从消费方面推动新能源汽车发展,倡导“绿车”消费,激励购买新能源汽车,积极培育新的消费热点带动并形成新能源汽车产业的发展,发挥消费对产业发展和经济增长的重要带动作用,相信新能源汽车的春天将不会太远。
(1) 结合材料一,运用影响价格的因素知识,分析说明新能源汽车价格偏高的依据。(8分)
(2) 结合材料二,运用生产与消费的关系原理,说明倡导“绿车”消费对汽车产业的影响。(9分)
示例答案:
①价值决定价格,价值是价格的基础。新能源汽车投入大、成本高,是其价格偏高的根本原因。(4分)
②供求影响价格。新能源汽车产量和保有量不高,影响新能源汽车供给,推涨车价。(4分)
①消费对生产有重要的反作用。(3分)
②消费所形成的新的需要,对生产的调整和升级起着导向作用。“绿车”消费,必将形成新的消费需要,对生产的调整和升级起着导向作用。(3分)
③一个新的消费热点的出现,往往带动一个产业的出现和成长。一个新的“绿车”消费热点的出现,往往能带动新能源汽车及相关产业链的出现和成长。(3分)
在标准答案预处理时,首先需要教师将示例答案改写为如下所示格式的标准化答案。其中每个完整语句后的小括号内标注该得分语句的分值,而关键词则分别以[]、{}代表精确匹配或模糊匹配方式,并同样以小括号将得分标注在关键词后:
标准化后的答案:
1:
[价值决定价格(1)],{价值是价格的基础(1)},新能源汽车投入大、成本高,是其价格偏高的根本原因(4)。
{供求影响价格(2)},新能源汽车产量和保有量不高,影响新能源汽车供给,推涨车价(4)。
2:
消费对生产有重要的[反作用(1)](3)。
消费所形成的新的需要,对生产的调整和升级起着[导向(1)]作用,“绿车”消费,必将形成新的消费需要,对生产的调整和升级起着导向作用(3)。
一个新的消费热点的出现,往往带动一个产业的出现和成长,一个新的“绿车”消费热点的出现,往往能带动新能源汽车及相关产业链的出现和成长(3)。
在完成答案标准化工作后,将标准化后的答案输入系统,由系统进行后续预处理后,即可对学生的作答进行自动批改。两个示例作答与对应的自动批改输出如下:
示例作答一:
(1)1.价值决定价格,价格能够体现价值,新能源汽车由于技术难度高、成本高,导致其价格偏高;2.价格受供求关系影响,新能源汽车目前供小于求,导致其价格偏高。
得分点1
固定关键词命中:价值决定价格
模糊关键词'价值是价格的基础'命中:['价格', '能够', '体现', '价值']
第1句作答第0分句意义匹配
得分:4.0
得分点2
模糊关键词'供求影响价格'命中:['价格', '受', '供求关系', '影响']
得分:2.0
该作答总分:6.0
(2)1.消费是生产的目的,倡导“绿车”消费可以刺激消费者对新能源汽车的消费需求,进而提高相关企业的生产动力。2.消费是生产的动力,倡导“绿车”消费可以在市场形成新的需要,对生产调整与升级起导向作用。3.倡导“绿车消费”,形成新的消费热点,也可以带动相关产业的出现和成长。4.“绿车消费”的提高也有助于为企业提供更多的劳动力与资金。
得分点1
得分:0
得分点2
固定关键词命中:导向
第2句作答第0分句意义匹配
得分:3.0
得分点3
无关键词,第1句作答第2分句意义匹配;
无关键词,第2句作答第2分句意义匹配;
无关键词,第3句作答第0分句意义匹配;
无关键词,第4句作答第0分句意义接近;
得分:3.0
该作答总分:6.0
示例作答二:
(1)①价值决定价格,价值是价格的基础,目前,关键技术尚未突破,企业研发投入大,新能源汽车的动力电池价格高昂,成本要占整车造价的二分之一。②求大于供,产量和保有量不能满足需求。
得分点1
固定关键词命中:价值决定价格
模糊关键词'价值是价格的基础'命中:['价值', '是', '价格', '的', '基础']
第1句作答第0分句意义匹配
得分:4.0
得分点2
得分:0
该作答总分:4.0
(2)①消费对生产有重要的反作用。②消费所形成的新的需要,对生产的调整和升级起着导向作用。“绿车”消费将引导企业更加重视新能源汽车的发展。③一个新的消费热点的出现,往往带动一个产业的出现和成长。新能源汽车产业及相关产业也会发展进步。
固定关键词命中:反作用
第1句作答第1分句意义匹配
得分:3.0
得分点2
固定关键词命中:导向
第2句作答第0分句意义匹配
得分:3.0
得分点3
无关键词,第3句作答第0分句意义匹配
无关键词,第4句作答第0分句意义匹配
得分:3.0
该作答总分:9.0
综上,该文科解答题自动批改方法,结合了语义与关键词两种批改方式,并支持精确匹配关键词与模糊匹配关键词两种机制,更加符合教师人工阅卷时的赋分逻辑,提升自动批改的性能;简化了自动批改前的准备工作,使用方式简单,覆盖题目内容范围广,只需在标准答案的基础上进行简单的标准化修改,即可用以自动地大批量自动修改。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文科解答题自动批改方法,其特征在于,具体包括以下步骤:
S1、批卷教师将示例答案修改为标准化答案;
S2、对标准化答案进行提取处理,获得关键词信息和标准答案的句向量组信息,并对关键词信息和标准答案的句向量信息分别标注分值;
S3、获取学生的作答文本,并对作答文本进行语句和词语的分别切分和Embedding工作;
S4、将作答的词语与关键词信息对比,获得关键词命中情况,获得关键词赋分;
S5、根据关键词命中情况,为语句的语义相似度得分进行范围的划分,并对于语句的语义与标准答案的句向量组相似度进行对比,获得语义相似度赋分;
S6、关键词赋分值和语义相似度赋分值之和,即为此回答所获得的总得分。
2.如权利要求1所述的一种文科解答题自动批改方法,其特征在于,所述S3中,获取学生的作答文本,具体包括以下步骤:
S31、获取学生的答题试卷;
S32、利用扫描设备扫描答题试卷,获得作答的图片;
S33、利用OCR文字识别设备,对作答图片中的文字识别,并生成作答文本。
3.如权利要求1所述的一种文科解答题自动批改方法,其特征在于,所述S4中,关键词赋分的赋分单位为字词或由数个词组成的短语,关键词赋分包括精确匹配与模糊匹配两种关键词匹配方式。
4.如权利要求3所述的一种文科解答题自动批改方法,其特征在于,所述精确匹配为教师所指定的关键词,完全正确地出现在学生作答中,才可对此学生作答进行赋分。
5.如权利要求3所述的一种文科解答题自动批改方法,其特征在于,所述模糊匹配包括词语切分、词嵌入与关键词相似度计算三个部分,其中:
词语切分部分,调用中文分词库jieba库进行词语切分;
词嵌入部分,使用向量数据集 Tencent_AILab_ChineseEmbedding;
关键词相似度计算部分,使用动态滑动窗口原理,将窗口尺寸设定为教师指定的模糊匹配关键词中词语个数的0.5 - 1.5倍,并向上取整,用以在学生作答中选定用于模糊匹配的短语内容,随后计算窗口中的所有词语的词向量的平均值与教师指定的模糊匹配关键词中的所有词语的词向量的平均值,获得两个180-220维的向量,并进行余弦相似度的计算,然后以相似度最高的短语作为匹配对象,若相似度高于设计的阈值,则匹配成功,获得对应分数,反之则匹配失败,不得分。
6.如权利要求1所述的一种文科解答题自动批改方法,其特征在于,所述S6中,语义相似度赋分的赋分单位为完整的语句,语义相似度赋分包括示例答案预处理、学生作答预处理和语义相似度计算三个部分,其中:
示例答案预处理部分,将示例答案中的各个得分点语句进行切分,并借助 BERT-whitening 模型为各个语句进行句向量的计算;
学生作答预处理部分,以句号、分号、叹号、问号为分隔,将学生作答进行整句的切分;同时在每个整句内,以逗号为分隔,进行分句的切分;所有的整句与分句均通过 BERT-whitening 进行句向量的计算;
语义相似度计算部分,为每个示例答案的得分点语句,在对应的范围内匹配合适的学生作答语句进行余弦相似度的计算。
7.如权利要求6所述的一种文科解答题自动批改方法,其特征在于,对应的范围具体分为:
若该示例答案语句中包括关键词,则系统只会在命中了关键词的学生作答的整句及其所有的分句内尝试匹配;
否则,将该示例答案语句与学生作答的所有整句及其分句进行尝试匹配。
8.如权利要求6所述的一种文科解答题自动批改方法,其特征在于,在语义相似度计算后,根据预先设计的两个阈值,来为每个得分点语句进行完全命中和部分命中的评价,并进行对应的赋分。
CN202310235474.3A 2022-05-10 2023-03-13 一种文科解答题自动批改方法 Pending CN116665213A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022105021225 2022-05-10
CN202210502122.5A CN114936265A (zh) 2022-05-10 2022-05-10 一种文科解答题自动批改方法

Publications (1)

Publication Number Publication Date
CN116665213A true CN116665213A (zh) 2023-08-29

Family

ID=82863598

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210502122.5A Withdrawn CN114936265A (zh) 2022-05-10 2022-05-10 一种文科解答题自动批改方法
CN202310235474.3A Pending CN116665213A (zh) 2022-05-10 2023-03-13 一种文科解答题自动批改方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210502122.5A Withdrawn CN114936265A (zh) 2022-05-10 2022-05-10 一种文科解答题自动批改方法

Country Status (1)

Country Link
CN (2) CN114936265A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708283A (zh) * 2023-11-29 2024-03-15 北京中关村科金技术有限公司 召回内容的确定方法、召回内容的确定装置和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881405A (zh) * 2023-09-07 2023-10-13 深圳市金政软件技术有限公司 汉字模糊匹配方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708283A (zh) * 2023-11-29 2024-03-15 北京中关村科金技术有限公司 召回内容的确定方法、召回内容的确定装置和电子设备

Also Published As

Publication number Publication date
CN114936265A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN110110585B (zh) 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN116665213A (zh) 一种文科解答题自动批改方法
CN109947836B (zh) 英语试卷结构化方法和装置
CN111597908A (zh) 试卷批改方法和试卷批改装置
RU2002127826A (ru) Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
KR102654480B1 (ko) 언어학습을 위한 지식 기반 대화 시스템 및 방법
EP1483686A1 (en) System and method for accurate grammar analysis using a part-of-speech tagged (post) parser and learners model
CN104050160A (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN111311459B (zh) 一种面向国际汉语教学的交互式出题方法及系统
CN109460558B (zh) 一种语音翻译系统的效果评判方法
CN111209728A (zh) 一种试题自动标注录入方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN110837793A (zh) 一种智能识别手写数学公式批阅系统
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN107844531A (zh) 答案输出方法、装置和计算机设备
CN106548787A (zh) 优化生词的评测方法及评测系统
CN108763411B (zh) 一种结合短文本聚类和推荐机制的主观题批阅系统及方法
CN109409498A (zh) 一种智能自适应填空题自动判题方法
CN109741643A (zh) 面向文本大数据的词语处理方法
CN115688703A (zh) 一种特定领域文本纠错方法、存储介质和装置
CN110751867B (zh) 英文教学系统
CN113553416A (zh) 基于语义相似度的问答方法、系统和可读存储介质
CN109582971B (zh) 一种基于句法分析的批改方法及批改系统
CN108959275A (zh) 基于在线语言翻译的人机对练系统
CN115759097B (zh) 一种车型名称识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination