CN109947836B - 英语试卷结构化方法和装置 - Google Patents

英语试卷结构化方法和装置 Download PDF

Info

Publication number
CN109947836B
CN109947836B CN201910215485.9A CN201910215485A CN109947836B CN 109947836 B CN109947836 B CN 109947836B CN 201910215485 A CN201910215485 A CN 201910215485A CN 109947836 B CN109947836 B CN 109947836B
Authority
CN
China
Prior art keywords
question
answers
answer
content
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910215485.9A
Other languages
English (en)
Other versions
CN109947836A (zh
Inventor
李巧艳
解辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Wind Vane Intelligent Technology Co ltd
Original Assignee
Jiangxi Vaneducation Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Vaneducation Technology Inc filed Critical Jiangxi Vaneducation Technology Inc
Priority to CN201910215485.9A priority Critical patent/CN109947836B/zh
Publication of CN109947836A publication Critical patent/CN109947836A/zh
Application granted granted Critical
Publication of CN109947836B publication Critical patent/CN109947836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

一种英语试卷结构化方法,包括步骤:S1.将word格式英语试卷转化为html格式,再从html格式转成txt格式;S2,英语试卷的题目说明与题目内容分割,题目说明指的是试卷结构、题目类型、分值的说明语句,不涉及题目本身内容;S3,英语题目类型识别,利用每个题目说明和题目内容进行题目类型识别;S4,各题型二次分割,提取题目内容中的题号、题干、选项、选项内容信息,还包括对题干与选项分类、短文与非短文分类、选项中ABCD与选项内容识别与提取;S5,对答案进行结构化,包括将答案分为:听力材料、短文类答案、短文改错类答案、单词类答案、ABCD选项类答案;S6,将题目内容结构化信息与答案匹配、融合。

Description

英语试卷结构化方法和装置
技术领域
本发明属于智能教育技术领域,特别涉及一种英语试卷结构化方法和装置。
背景技术
自然语言处理技术是人工智能的一个子领域。随着深度学习技术的发展,结合深度学习的自然语言处理在各个经典项目上的表现均有突破性提高。文本分割和信息提取技术是长期以来学者研究的热门领域,同时也是各行各业中都会遇到的业务场景。基于自然语言处理技术,结合深度学习,在大量标注样本条件下,实现对文本分割和信息提取,是现有试卷自动处理的技术趋势,然而对于英语试卷,由于英语试题的特殊性,目前还没有特别准确的处理方案。
发明内容
本发明提供了一种英语试卷结构化方法。
本发明实施例之一,一种英语试卷结构化方法,英语试卷格式类型包括word、txt、pdf格式,包括以下步骤:
S1.将word格式英语试卷转化为html格式,再从html格式转成txt格式;
S2,英语试卷的题目说明与题目内容分割,题目说明指的是试卷结构、题目类型、分值的说明语句,不涉及题目本身内容;
S3,英语题目类型识别,利用每个题目说明和题目内容进行题目类型识别;
S4,各题型二次分割,提取题目内容中的题号、题干、选项、选项内容信息,还包括对题干与选项分类、短文与非短文分类、选项中ABCD与选项内容识别与提取;
S5,对答案进行结构化,包括将答案分为:听力材料、短文类答案、短文改错类答案、单词类答案、ABCD选项类答案;
S6,将题目内容结构化信息与答案匹配、融合;
S7,添加错误提示信息,错误信息包括有:答案为空、解析为空、题目缺少题号。
本发明的有益效果在于用于为互联网教育构建一个质量优良的题库。其中在线组卷、在线推题都是基于题库来完成的。题库建设的第一步是题目的录入与积累。然而,一套英语试卷,一般70-80个小题,录入一套试卷进入题库,需要花费大量人力。本发明用于自动解析英语试卷并提取出结构化信息,一方面可以提高老师工作效率,减轻老师繁复工作的,另一方面也能迅速建立题库,重大意义。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是本发明实施例中试卷内容分割流程图;
图2是本发明实施例中答案层次提取流程图;
图3是本发明实施例中答案结构化流程图。
具体实施方式
为便于理解本发明,对可能涉及到的相关术语做如下解释:
多阶段文本分类:一个大任务可以分解为多个小任务,前后任务之间具有连续性。每个任务均为文本分类任务,称之为多阶段文本分类。
文本结构化:文本为非结构化数据。将文本中包含的信息,以键值对的形式提取出来,便于其他任务读取和引用。
序列标注:对于一条文本,对每个文本单元都标注一个类别标签。利用条件随机场、隐马尔科夫、RNN等序列模型对未来新文本,每个文本单元预测类别标签的过程。
条件随机场:是条件概率分布模型P(Y|X),表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场,也就是说CRF的特点是假设输出随机变量构成马尔可夫随机场。该算法常用于序列标注任务中。
编辑距离:针对两个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。可用于衡量两个字符串的相似度。
根据一个或者多个实施例,如图1所示,一种基于多阶段文本分类任务的试卷分割方法,包括以下步骤:
s1:数据类型转换,包括:
Word试卷上传:由word——html——txt;
图片扫描试卷上传:img——txt;
pdf试卷上传:pdf——img——txt。
用于word试卷上传和txt文本试卷上传的自动解析任务。其他文件类型需要结合图像OCR技术转为txt后,再使用本装置完成试卷解析。
s2:试卷题目内容以题型为单位分成几大块。该任务使用文本二分类模型,采用神经网络模型进行分类。
对成块的题目块进行题型识别。利用关键字识别显而易见的题型,未能初步识别的题型,再利用模型分类。该任务使用文本多分类模型进行题型识别。
基于每个内容块和题目类型,在各内容块内进行第二次分割。
对于单项选择、完形填空、阅读理解等题目利用CRF模型提取出每个小题ABCD选项内容。
试卷内容分割解析完成。
根据一个或者多个实施例,如图3所示,基于层次提取、前后答案连续性二次提取等思想的英语试卷答案结构化方法,包括如下步骤:
s1:层次提取不同类型答案,初步完成答案提取。
s2:利用题号连续性,补充提取第一步未提取出的答案。如短文改错答案,共10个小题的答案,分布在连续的4行中。前三行分别每行有三个小答案,第10小题答案独自在第四行。答案提取过程中,对于第四行,不能完全确定是答案或者答案说明或上一行答案的未完待续。因此第一步中不予提取。利用前三行序号的连续性,该行答案序号10紧接着上一行答案的题号,则将该行答案再次提取。
s3:对重复题号进行再次处理。每行答案结构化数据以键值对形式存在字典中。保存每行答案题号的最大值。当该行答案的最小题号小于前面答案最大题号,则认为该行答案题号为重复题号。
s4:判断重复题号是否为解析,通过判断是否包含解析关键字来判断该行是否为解析。
s5:若不是解析,识别答案的题型说明。利用题型识别模型进行题型分类。
s6:更新答案的键。具体为,判断为解析的key更新为parse_id,判断题型的答案结构更新为{type:{1:xxx,2:xxx}}
根据一个或者多个实施例,一种基于多阶段文本分类任务思想的英语试卷结构化方法,包括以下步骤:
将英语试卷从word转化为html格式;
从html格式文件中拿到表格和下划线,再将数据转换为txt;
利用神经网络二分类模型,对英语试卷说明与题目内容分类。以试卷每行为一条样本,得到0-1标签,1代表为试题内容,0代表为试题说明;
根据试题内容与试题说明的0-1标签,将试卷分块,准确率>98%。分块的结果基本是一个题型为一大块,每块都有两个元素:题目说明与题目具体内容;
对分块内容进行题型识别,采用关键字匹配+模型分类结合的方式进行。
高中英语题型多达二十余种。常见题型为:听力、单项填空、完形填空、阅读理解、短文改错、书面表达等。其他题型可以根据题目样式是否接近进行合并处理,提高题型粗分的准确率。将句子翻译和单句翻译合并为翻译;将七选五、九选七、选词填空合并为多选等。
利用关键字进行题型识别。关键字设计要求严格,能够百分之百确定题型的,才作为候选关键字。
对没有识别出题型的内容块,其中该块题目内容为文本样本融合人工提取的序列特征,利用神经网络多分类模型进行分类。题型粗分准确率>98%。
完成题型粗分后,对需要进一步识别的题型进行二次分类。利用试题内容结构特征结合先验知识,完成题型细分。以上步骤基本满足题型识别要求。仍然无法识别的题型,则返回None标签。
根据内容块以及题型,对各内容块进行二分分割。例如:单项选择题一般10个小题。需要将整个单项选择题中的每个小题分割出来。
在一个题型内,利用题型结构特点先验知识,对正常的试卷来说,二次分割利用正则分割就可完成。对于不同的题型,采用模型分类和正则结合的方式+分割前纠正的方式完成。例如,对于阅读理解,正则和模型都不能做到百分之百的分类准确率。因此在分割前对标签进行检查和修正。1:阅读短文,2:小题题干;3:选项;4:其他。对于333313333这样的标签序列,修正为333323333。
试卷答案结构化包括以下任务:采用层次提取、多次扫描、答案连续性判断二次提取、重复题号答案题型识别、答案与解析识别等。
答案按照答案形式分为:ABCD类答案、单词词组类答案、短文类答案。
层次提取答案:本方法按提取听力原文、短文、短文改错,再提取其他类型答案的顺序对答案进行提取。
答案提取之后,对未提取成功的答案,根据前后答案的连续性,进行补充提取,并进行答案分块。利用短文改错,第一行:{1:xxx,2:xxx,3:xxx},第二行:{4:xxx,5:xxx,6:xxx},第三行:{7:xxx,8:xxx,9:xxx},第四行:10:xxx。第四行的答案没有提取出来。根据前三行标签的连续性,对第四行进行提取。然后再对答案进行合并,最终结果为:{1:xxx,2:xxx,3:xxx,4:xxx,5:xxx,6:xxx,7:xxx,8:xxx,9:xxx,10:xxx}。
对重复题号的答案,进行处理。答案题号重复原因有二:1.分别为同一个题的答案与解析;2.不同题型的小题。首先判断出重复题号的答案,然后利用正则关键字与句子模版等判断该答案是否为解析。解析的key更新为:parse_id(id为原始题号);
如果不是解析,则为另一个题型的小题,则对题型进行识别。答案中题型说明可能在第一小题的前一行,也可能在第一小题答案头部。题型说明的文本获取采用levenshtein相似度,找到原始答案文本中相应的文字。
根据题型分类模型进行题型识别,将答案结构更新为:{题型:{1:xx,2:xx……10:xxx}}
答案与试题信息融合。先融合听力、短文改错、短文和其他有题型标识的答案,按照题型类别进行答案匹配。
按照题号进行答案匹配。
对小题结构化信息进行错误判断。如答案缺失、解析缺失、题号范围有误等信息信息添加。用于实际运用中,对结构化信息提取的错误信息提示,有助于录题老师对解析结果的纠正与补充,确保入库题目的正确性。
根据一个或者多个实施例,基于多阶段文本分类任务思想的英语试卷结构化方法,包括以下步骤:
本方法解析的英语试卷类型不包括教师用卷(教师用卷:答案与解析包含在试卷内容中,即答案与解析在每个题目下面),支持试卷格式类型有:word、txt、pdf格式。
S1:将word试卷转化为txt格式。数据格式转换过程中需要注意下划线、表格的处理。英语试卷中有下划线、表格等数据类型插入,为保证解析后数据完整性,需要在转化过程中将表格和下划线保留。否则,会导致数据失真,一方面一定程度上会影响后面题目类型识别;另一方面会增加老师后处理的编辑工作。因此,本方法从word转html,拿到表格和下划线,再从html-txt。这一转换过程保证了数据完整性。
S2:英语试卷说明与题目内容分类。题目说明指的是说明试卷结构、题目类型、分值等信息的语句,不涉及题目本身内容。例如:第二部分完形填空(共20小题;每小题1.5分,满分30分)为题目说明。题目内容则包含题号,题干,选项。例如阅读理解,题目内容则包括:短文,小题题干,选项内容。该任务为文本二分类任务,利用神经网络模型进行分类。
S3:英语题目类型识别。本方法支持的英语题型多达19种题型,如单项填空、完形填空、阅读理解、短文改错、书面表达、语法填空、句子翻译等。基于步骤1中的结构,分别利用每部分的题目说明和题目内容进行题目类型识别。该任务为多分类任务,利用规则提取+神经网络模型结合的方法进行题型分类。
S4:各题型二次分割,提取题目内容中的题号、题干、选项、选项内容等信息。根据题目类型,对题目内容进行分割和信息提取。其中包括:题干与选项分类;短文与非短文分类;选项中ABCD与选项内容识别与提取。该任务针对不同题型题目的特点,先利用神经网络模型和序列修正的方式,对文本进行二次分割,再利用CRF模型,提取选项中题号、题干、选项、选项内容等信息。
S5:答案结构化。本方法支持答案与试题分离的结构化。本方法将答案分为:听力材料,短文类答案,短文改错类答案,单词类答案,ABCD选项类答案。答案提取算法是逻辑+正则+修正结合的复杂提取模型。其中,提取短文改错类答案,用到了Levenshtein字符编辑距离。答案提取是按行提取,并会对答案进行二次扫描。第二次答案文本扫描,将对第一次提取中,未能确定的答案,借助于上下文答案,进行二次提取。
第三次扫描,是针对重复题号的答案,进行类型识别。
S6:题目内容结构化信息与答案匹配、融合。本方法将试卷题目和答案分开进行提取,然后再根据题目类型、题号进行信息匹配。
S7:添加错误提示信息。本方法的运用场景在于,题库老师上传word或txt类型的试卷,然后利用本方法进行试卷自动结构化然后录题入库。对于解析有问题或信息不全的题目,需要老师手动修改和添加。因此,错误信息提示也很直观告诉老师哪些题目需要手动修改,确保入库题目信息完整性与准确性。错误信息主要有:答案为空、解析为空、题目缺少题号等。
本方法任务复杂,且前面任务的正确性直接影响后面任务的准确性。因此,本方法在设计时,各任务采用算法+规则的方式结合完成,且每个任务都有可靠性评价。本方法本着提高老师工作效率的原则,对于非百分之百的结果都舍弃。
所述步骤S3具体包括以下步骤:
S31、对题目类型标签进行合并处理。将形式上相似的题目类型合并为一个粗略的标签,如:完成句子和句子翻译合并;课文语法填空和短文填空合并;短文改错和单句改错合并等。合并以后的标签个数为10个(合并前为19个)。合并以后的标签个数减少近一半,且区分度更大,对题型分类的准确性有很大帮助。
S32、利用关键词提取的方式,分别对题目说明和题目内容进行关键字提取。这里的关键词要能完全确题型,保证题型识别正确。否则,转入模型进行题型分类。
S33、对于S32中不能确定的题型,利用神经网络模型进行分类。训练数据为阶段1中第一次分割的内容。初步样本的生成利用关键字或者正则生成样本标签,然后进行人工校对。利用lstm网络并连接softmax进行多分类模型训练。题型识别准确率>98%,满足题型粗分要求。
S34、经过S32和S33两步,基本完成题型粗分。然后对需要进一步细分的题型,结合题目描述与题目内容的特点,利用正则+统计的思想,进一步确认。如改错需要细分为单句改错或短文改错。利用正则判断题目内容的单词量、以题号开头的行数等,可以进一步细分该题型为单句改错或短文改错。
所述步骤S4具体包括以下步骤:
S41、根据题目类型,对题目进行二次分割。不同题型有不同特点,需要提取的信息也不尽相同。有很多题型如短文改错、书面表达等不需要再次分割。需要再次分割的题型,分别为:
(1)单项填空:以一个小题为单位,提取出题号,题干,选项等信息;
(2)完形填空:以一个完形填空为单位,提取出短文,题号范围,选项附属信息,选项附属信息包括每个小题的题号、选项;
(3)阅读理解:以一篇阅读理解为单位,提取出短文,题号范围,小题附属信息,小题附属信息包括每个小题题号、题干、选项;
S42、单项填空的二次分割,采用神经网络二分类模型,识别题干和选项;完形填空用规则的方式,分割短文和小题;阅读理解采用神经网络多分类模型,识别短文、题干、选项和其他。
S43、对S42中分割结果,再根据各类题目先验性特点,对各行数据标签进行修正。如阅读理解的分割中,如果出现类似“选项-选项-短文-选项-选项”结构大概率有误,短文应该纠正为题干标签。再根据标签类别,实现文本的二次分割。
S44、以上三种题型均需要进行选项提取。本方法和装置采用CRF序列模型+正则分割结合的方法,共同实现对选项和选项内容的识别与提取。CRF模型利用CRF++来实现。设计标签为opt,opt-c-B,opt-c,p,o,id。同时设计人工特征,如是否为数字、是否为ABCD,是序列中第几个A等,CRF模型错误率<0.01%。另一方面,利用正则分割,最后将两种方法得到的结果进行比较,最终选择更合理的结果。结果的合理性可设计为选项更全,选项内容没有缺失等。
所述步骤S5具体包括以下步骤:
S51、将答案分为ABCD类客观题答案、单词或词组类答案、短文类答案、听力材料等。对答案文本进行多次扫描,分别提取没类型的答案。
S52、先将听力材料、短文改错、短文答案进行提取。根据这类答案的先验特点,通过判断是否为连续的英语行,英语单词的数量等特征,进行提取。将提取成功的文本行,替换为字典类型。将答案说明行(即该行全部为文字说,不含有具体答案信息)识别为汉字行,并将汉字行作为答案文本分割的重要表示。
S53、分别提取ABCD类客观题答案、单词词组类别答案。提取成功的答案替换为字典类型。一方面答案文本格式较多答案,另一方面答案本身可能存在漏掉的情况,为确保答案提取的准确性,都要进行严格判断。不能完全确定的答案,不给予提取。
S54、对答案进行再提取。经过上面三个步骤的答案扫描与提取,答案文本变成了字符、字典混合的结构。根据上下答案的类型与题号的连续性,对其他为提取的答案进行再一次补充提取。同时,通过判断题号的连续性,将答案进行合并。如短文改错的十个答案分在三行,分别有三个字典结构,通过判断题号连续性,将三行结果合并,使得一类题目的答案是一个整体,有利于题目内容与答案的合并。
S55、经过上面4个步骤的多次答案扫描与提取,会出现重复题号的答案。如单项选择是1-20小题,在后面的单词拼写题号又从1开始编写,导致答案中有多个键为1的答案。因此需要对重复题号进行重识别。题号重复的原因:(1)第二个为解析(2)另一种题型重新编号。对提取的答案进行逐行判断,并记录下前一行的最大题号。当出现某行答案的最小题号小于前一行的最大题号,则说明该行是重复题号。则需要进一步判断该行为解析还是其他题型。若不是解析,则需要判断答案所属题型。判断答案所属题型步骤如下:
(1)判断上一行是否为汉字行,获取对应汉字,利用题型判断模型进行题型分类;
(2)获取该行行首的汉字,利用题型判断模型进行题型分类。
提取对应行汉字的思路,采用了Levenshtein相似度,根据字典中所有值与原文计算相似度,最终确定行数获取汉字原文。题型识别以后,将重复题号的答案替换为以题型为key的新字典。
所述步骤S6具体包括以下步骤:
S61:按照题型匹配:将短文、听力材料、短文改错等其他有题型标识的答案进行整合。
S62:按照题号匹配:每个题目结构化信息中有题目id字段,答案也有id字段,根据题号是否一样进行题目内容和答案整合。对于完形填空或阅读理解,一个题目有多个小题,每个小题均对应一个答案。将题目id按照范围id和单个id进行分类,分别匹配答案。
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (6)

1.一种英语试卷结构化方法,英语试卷格式类型包括word、txt、pdf格式,其特征在于,包括以下步骤:
S1,将word格式英语试卷转化为html格式,再从html格式转成txt格式;
S2,英语试卷的题目说明与题目内容分割,题目说明指的是试卷结构、题目类型、分值的说明语句,不涉及题目本身内容;
S3,英语题目类型识别,利用每个题目说明和题目内容进行题目类型识别;
S4,各题型二次分割,提取题目内容中的题号、题干、选项、选项内容信息,还包括对题干与选项分类、短文与非短文分类、选项中ABCD与选项内容识别与提取;
S5,对答案进行结构化,包括将答案分为:听力材料、短文类答案、短文改错类答案、单词或词组类答案、ABCD选项类答案;
S51,分别提取每类型的答案;
S52,将听力材料、短文改错、短文答案进行提取;
S53,分别提取ABCD类客观题答案、单词词组类别答案,提取成功的答案替换为字典类型;
S54,经过S51、S52和S53三个步骤的答案扫描与提取,答案文本变成了字符、字典混合的结构,根据上、下答案的类型与题号的连续性,对其他未提取的答案进行再一次补充提取,同时通过判断题号的连续性,将答案进行合并;
S55,对于出现重复题号的答案再次识别:对提取的答案进行逐行判断,并记录下前一行的最大题号,当出现某行答案的最小题号小于前一行的最大题号,则说明该行是重复题号,则需要进一步判断该行为解析还是其他题型,若不是解析,则需要判断答案所属题型,判断答案所属题型步骤如下:
(1)判断上一行是否为汉字行,获取对应汉字,利用题型判断模型进行题型分类;
(2)获取该行行首的汉字,利用题型判断模型进行题型分类;
S6,将题目内容结构化信息与答案匹配、融合;
S7,添加错误提示信息,错误信息包括有:答案为空、解析为空、题目缺少题号。
2.根据权利要求1所述的英语试卷结构化方法,其特征在于,所述步骤S3具体包括步骤:
S31、对题目类型标签进行合并处理,将形式上相似的题目类型合并为一个粗略的标签;
S32、利用关键词提取的方式,分别对题目说明和题目内容进行关键字提取;
S33、对于S32中不能确定的题型,利用神经网络模型进行分类;
S34、经过S32和S33两步,完成题型粗分,然后对需要进一步细分的题型,结合题目描述与题目内容的特点进一步确认。
3.根据权利要求2所述的英语试卷结构化方法,其特征在于,所述步骤S4具体包括步骤:
S41,根据题目类型,对题目进行二次分割,分别为:
(1)单项填空:以一个小题为单位,提取出题号,题干,选项等信息;
(2)完形填空:以一个完形填空为单位,提取出短文,题号范围,选项附属信息,选项附属信息包括每个小题的题号、选项;
(3)阅读理解:以一篇阅读理解为单位,提取出短文,题号范围,小题附属信息,小题附属信息包括每个小题题号、题干、选项;
S42,单项填空的二次分割,采用神经网络二分类模型,识别题干和选项;完形填空用规则的方式,分割短文和小题;阅读理解采用神经网络多分类模型,识别短文、题干、选项和其他;
S43,对S42中分割结果,再根据各类题目先验性特点,对各行数据标签进行修正;
S44、对S41中三种题型进行选项提取。
4.根据权利要求1所述的英语试卷结构化方法,其特征在于,所述步骤S6具体包括以下步骤:
S61,按照题型匹配,将短文、听力材料、短文改错等其他有题型标识的答案进行整合;
S62,按照题号匹配,每个题目结构化信息中有题目id字段,答案也有id字段,根据题号是否一样进行题目内容和答案整合,将题目id按照范围id和单个id进行分类,分别匹配答案。
5.一种英语试卷结构化装置,其特征在于,所述装置包括存储器;以及耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下操作:
S1,将word格式英语试卷转化为html格式,再从html格式转成txt格式;
S2,英语试卷的题目说明与题目内容分割,题目说明指的是试卷结构、题目类型、分值的说明语句,不涉及题目本身内容;
S3,英语题目类型识别,利用每个题目说明和题目内容进行题目类型识别;
S4,各题型二次分割,提取题目内容中的题号、题干、选项、选项内容信息,还包括对题干与选项分类、短文与非短文分类、选项中ABCD与选项内容识别与提取;
S5,对答案进行结构化,包括将答案分为:听力材料、短文类答案、短文改错类答案、单词或词组类答案、ABCD选项类答案;
S51,分别提取每类型的答案;
S52,将听力材料、短文改错、短文答案进行提取;
S53,分别提取ABCD类客观题答案、单词词组类别答案,提取成功的答案替换为字典类型;
S54,经过S51、S52和S53三个步骤的答案扫描与提取,答案文本变成了字符、字典混合的结构,根据上、下答案的类型与题号的连续性,对其他未提取的答案进行再一次补充提取,同时通过判断题号的连续性,将答案进行合并;
S55,对于出现重复题号的答案再次识别:对提取的答案进行逐行判断,并记录下前一行的最大题号,当出现某行答案的最小题号小于前一行的最大题号,则说明该行是重复题号,则需要进一步判断该行为解析还是其他题型,若不是解析,则需要判断答案所属题型,判断答案所属题型步骤如下:
(1)判断上一行是否为汉字行,获取对应汉字,利用题型判断模型进行题型分类;
(2)获取该行行首的汉字,利用题型判断模型进行题型分类;
S6,将题目内容结构化信息与答案匹配、融合;
S7,添加错误提示信息,错误信息包括有:答案为空、解析为空、题目缺少题号。
6.一种英语试卷结构化平台,其特征在于,所述平台包括服务器,服务器具有存储器;以及耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下操作:
S1,将word格式英语试卷转化为html格式,再从html格式转成txt格式;
S2,英语试卷的题目说明与题目内容分割,题目说明指的是试卷结构、题目类型、分值的说明语句,不涉及题目本身内容;
S3,英语题目类型识别,利用每个题目说明和题目内容进行题目类型识别;
S4,各题型二次分割,提取题目内容中的题号、题干、选项、选项内容信息,还包括对题干与选项分类、短文与非短文分类、选项中ABCD与选项内容识别与提取;
S5,对答案进行结构化,包括将答案分为:听力材料、短文类答案、短文改错类答案、单词或词组类答案、ABCD选项类答案;
S51,分别提取每类型的答案;
S52,将听力材料、短文改错、短文答案进行提取;
S53,分别提取ABCD类客观题答案、单词词组类别答案,提取成功的答案替换为字典类型;
S54,经过S51、S52和S53三个步骤的答案扫描与提取,答案文本变成了字符、字典混合的结构,根据上、下答案的类型与题号的连续性,对其他未提取的答案进行再一次补充提取,同时通过判断题号的连续性,将答案进行合并;
S55,对于出现重复题号的答案再次识别:对提取的答案进行逐行判断,并记录下前一行的最大题号,当出现某行答案的最小题号小于前一行的最大题号,则说明该行是重复题号,则需要进一步判断该行为解析还是其他题型,若不是解析,则需要判断答案所属题型,判断答案所属题型步骤如下:
(1)判断上一行是否为汉字行,获取对应汉字,利用题型判断模型进行题型分类;
(2)获取该行行首的汉字,利用题型判断模型进行题型分类;
S6,将题目内容结构化信息与答案匹配、融合;
S7,添加错误提示信息,错误信息包括有:答案为空、解析为空、题目缺少题号。
CN201910215485.9A 2019-03-21 2019-03-21 英语试卷结构化方法和装置 Active CN109947836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910215485.9A CN109947836B (zh) 2019-03-21 2019-03-21 英语试卷结构化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910215485.9A CN109947836B (zh) 2019-03-21 2019-03-21 英语试卷结构化方法和装置

Publications (2)

Publication Number Publication Date
CN109947836A CN109947836A (zh) 2019-06-28
CN109947836B true CN109947836B (zh) 2022-05-24

Family

ID=67010431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910215485.9A Active CN109947836B (zh) 2019-03-21 2019-03-21 英语试卷结构化方法和装置

Country Status (1)

Country Link
CN (1) CN109947836B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442630A (zh) * 2019-08-05 2019-11-12 国家电网有限公司技术学院分公司 一种题库试题格式快速转化系统、方法、介质及电子设备
CN110728233A (zh) * 2019-10-10 2020-01-24 北京课程帮科技有限公司 一种基于分量检测的客观题模板检测方法
CN112783957A (zh) * 2019-11-11 2021-05-11 上海遴睿教育科技有限公司 一种英语阅读word文档格式化导入方法及系统
CN111062375B (zh) * 2019-12-11 2023-04-28 南京红松信息技术有限公司 一种基于上下文关系的题号缺失补全方法
CN111274239B (zh) * 2019-12-30 2023-07-14 安徽知学科技有限公司 试卷结构化处理方法、装置和设备
CN111651963A (zh) * 2020-05-14 2020-09-11 上海卓越睿新数码科技有限公司 一种用word导入题库生成试卷的技术
CN111680515B (zh) * 2020-05-21 2022-05-03 平安国际智慧城市科技股份有限公司 基于ai识别的答案确定方法、装置、电子设备及介质
CN111737949B (zh) * 2020-07-22 2021-07-06 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN111898343B (zh) * 2020-08-03 2023-07-14 北京师范大学 一种基于短语结构树的相似题目识别方法和系统
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、系统及可读存储介质
CN111916165A (zh) * 2020-08-18 2020-11-10 泰康保险集团股份有限公司 用于评估量表的相似性评估方法及装置
CN112001152A (zh) * 2020-08-25 2020-11-27 杭州大拿科技股份有限公司 对象识别处理方法、处理装置、电子设备和存储介质
CN111931018B (zh) * 2020-10-14 2021-02-02 北京世纪好未来教育科技有限公司 试题匹配及试题拆分方法、装置和计算机存储介质
CN113157554A (zh) * 2021-02-19 2021-07-23 武汉木仓科技股份有限公司 一种软件自动化做题测试方法以及相关设备
CN113177435A (zh) * 2021-03-31 2021-07-27 新东方教育科技集团有限公司 试卷分析方法、装置、存储介质及电子设备
CN113723323A (zh) * 2021-09-02 2021-11-30 北京云蝶智学科技有限公司 试卷信息获取方法及装置
CN113779218B (zh) * 2021-09-08 2023-10-27 科大讯飞股份有限公司 问答对构建方法、装置、计算机设备和存储介质
CN116069850A (zh) * 2021-11-02 2023-05-05 广州视源电子科技股份有限公司 课堂活动课件制作方法、装置、存储介质以及电子设备
CN114245194A (zh) * 2021-12-23 2022-03-25 深圳市优必选科技股份有限公司 视频教学交互方法、装置及电子设备
CN116189216A (zh) * 2023-02-14 2023-05-30 北京网梯科技发展有限公司 基于结构化数据的题目快速录入方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778172B (zh) * 2012-10-18 2019-08-09 赖卫川 一种试卷信息保存方法及一种试卷编辑方法和系统
US9483731B2 (en) * 2012-12-11 2016-11-01 International Business Machines Corporation Method of answering questions and scoring answers using structured knowledge mined from a corpus of data
CN104298652A (zh) * 2013-07-19 2015-01-21 深圳习习网络科技有限公司 一种电子试卷格式转换方法及装置
CN103853852B (zh) * 2014-03-31 2018-05-22 广州视源电子科技股份有限公司 电子试卷的导入方法
CN104376315B (zh) * 2014-07-30 2018-01-02 天津科技大学 一种基于计算机图像处理和模式识别的检测方法及应用
CN104199871B (zh) * 2014-08-19 2018-02-23 南京富士通南大软件技术有限公司 一种用于智慧教学的高速化试题导入方法
CN105488015A (zh) * 2016-01-22 2016-04-13 吴以凡 一种试题的结构化方法
CN106354740A (zh) * 2016-05-04 2017-01-25 上海秦镜网络科技有限公司 一种电子试卷的导入方法
KR102013616B1 (ko) * 2017-05-30 2019-08-23 (주)우리랑코리아 빅데이터 기반 언어 학습 장치 및 이를 이용한 언어 학습 방법
CN108536663A (zh) * 2018-04-18 2018-09-14 深圳市鹰硕技术有限公司 自动生成完形填空试题的方法以及装置
CN108734153A (zh) * 2018-07-18 2018-11-02 深圳迪普乐宁科技有限公司 一种高效电脑阅卷的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Rhetorical Work in Crowd-Based Entrepreneurship: Lessons Learned From Teaching Crowdfunding as an Emerging Site of Professional and Technical Communication;Kyle P. Vealey;《IEEE Transactions on Professional Communication》;20161102;第407-427页 *

Also Published As

Publication number Publication date
CN109947836A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109947836B (zh) 英语试卷结构化方法和装置
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN111209728B (zh) 一种试题自动标注录入方法
CN111597356B (zh) 智能化教育知识图谱构建系统与方法
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN112434496B (zh) 一种公告文档表格数据识别方法及终端
Lwin et al. Feedback analysis in outcome base education using machine learning
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN111191429A (zh) 数据表格自动填充的系统和方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN113626573A (zh) 一种销售会话异议及应对提取方法及系统
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、系统及存储介质
CN112395858B (zh) 融合试题数据和解答数据的多知识点标注方法和系统
CN113408253A (zh) 一种作业评阅系统及方法
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
Drobac OCR and post-correction of historical newspapers and journals
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
CN115965017B (zh) 一种基于开发平台的多语言录入和解析系统及方法
Stutzmann et al. From Text and Image to Historical Resource: Text-Image Alignment for Digital Humanists
CN112328737B (zh) 一种拼写数据的生成方法
Sharif et al. Machine Translation and Automatic Post-Editing in Translation of Business Letters and Contracts
CN113869047A (zh) 一种用于金融长文本复核系统的错别字审核模块
CN115687334A (zh) 数据质检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee after: Jiangxi wind vane Intelligent Technology Co.,Ltd.

Address before: 334600 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee before: JIANGXI VANEDUCATION TECHNOLOGY Inc.