CN111274239A - 试卷结构化处理方法、装置和设备 - Google Patents
试卷结构化处理方法、装置和设备 Download PDFInfo
- Publication number
- CN111274239A CN111274239A CN201911397114.3A CN201911397114A CN111274239A CN 111274239 A CN111274239 A CN 111274239A CN 201911397114 A CN201911397114 A CN 201911397114A CN 111274239 A CN111274239 A CN 111274239A
- Authority
- CN
- China
- Prior art keywords
- test paper
- paragraph
- question
- title
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种试卷结构化处理方法、装置和设备,其中方法包括:检测获取到的待处理试卷中的分段标志;根据分段标志,将待处理试卷分成若干段落;在各段落中提取试卷特征;根据试卷特征以及预先学习的试卷特征与段落类别的关系,确定段落的段落类别;利用段落类别以及预设规则,对各段落进行合并;基于合并结果,对试卷内容进行解析。本发明无需在构建电子试题库的解析试卷环节中引入人工干预,并且基于在先学习可以快速、准确地进行特征提取和分析,从而在运行阶段能够自动适应多种特殊情况的辨识以及纠错,相比现有的批量导入构建题库的方案,本发明在构建效率、准确度、自适应性以及人力成本等方面均有显著的改善效果。
Description
技术领域
本发明涉及智能教育领域,尤其涉及一种试卷结构化处理方法、装置和设备。
背景技术
随着计算机、互联网技术的进步,计算机辅助教学得到了飞速发展,在智能教育领域,计算机辅助教学的一个重要方面就是构建电子试题库,在诸如学校、企业内部有大量的基于文本或图片等形式的试卷存在,如何将大量的试卷信息进行识别处理,是电子试题库建设的关键环节,也是计算机辅助教学中一个重要的研究课题。
传统做法是利用较为复杂的文本录入系统采取人工手工录入,但显然此方式弊端较多,而随着计算机技术的发展,目前已经出现了替代手工录入的计算机批量导入试题的方案,如基于人工标注内容的构建题库的方法、基于正则表达式的内容解析方法,虽然这些机器化的试卷处理方案相比传统手工录入有了较大进步,但是在实际操作中发现,目前的计算机处理方案在运行时仍显力不从心,不能脱离在解析过程中的人工干预,即便可以有限地降低一定人工操作,但对于特殊的题型、试卷内容等却不能灵活适应,仍需要在正进行的试卷电子化解析过程中,引入人工筛选、匹配等操作。因而,从构建效率、准确度、自适应性以及人力成本等方面,现有方案仍存有亟待解决和填补的技术需求。
发明内容
本发明针对上述情况,提供了一种试卷结构化处理方法、装置和设备,通过以上形式,能够高效准确地对试卷进行结构化处理,为后续解析试题、构建题库提供了可靠的技术基础。
关于上述本发明采用的技术方案具体如下:
第一方面,本发明提供了一种试卷结构化处理方法,包括:检测获取到的待处理试卷中的分段标志;
根据所述分段标志,将所述待处理试卷分成若干段落;
在各所述段落中提取试卷特征;
根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别;
利用所述段落类别以及预设规则,对各所述段落进行合并;
基于合并结果,对试卷内容进行解析。
在其中一种可能的实现方式中,所述试卷特征包括:标题特征、题型描述特征、试题特征以及排版格式特征。
在其中一种可能的实现方式中,在各所述段落中提取标题特征包括:
将所述段落转化为纯文本格式,并做分词处理;
将各分词与预先构建的标题关键字库进行关键字匹配;其中所述标题关键字库包括标题类别名称以及标题内容;
将匹配的分词确定为所述标题特征。
在其中一种可能的实现方式中,在各所述段落中提取题型描述特征包括:
将所述段落转化为纯文本格式,并做分词处理;
根据各分词的词义,在预先构建的题型索引词库中检索出若干个与所述分词相似的候选题型描述信息;
基于预设的过滤策略,从候选题型描述信息中确定出所述题型描述特征。
在其中一种可能的实现方式中,所述题型索引词库的构建方式包括:
从大量试卷数据中提取纯文本化的题型描述样本;
对所述题型描述样本进行分词;
将全部分词在领域词典中进行甄别,获取其中属于题型描述信息的目标分词;其中所述题型描述信息包括题型学科、题型名称以及题型备注;
由所述目标分词构建出所述题型索引词库。
在其中一种可能的实现方式中,所述根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别包括:
利用所述试卷特征与预设的权重矩阵,计算当前所述段落的综合特征得分;其中所述权重矩阵预先由试卷特征以及专家标注的段落类别标签求取;
根据综合特征得分,获取相应的段落类别标签;
基于段落类别标签,确定当前所述段落的段落类别。
第二方面,本发明提供了一种试卷结构化处理装置,包括:
分段标志检测模块,用于检测获取到的待处理试卷中的分段标志;
分段模块,用于根据所述分段标志,将所述待处理试卷分成若干段落;
特征提取模块,用于在各所述段落中提取试卷特征;
段落类别确定模块,用于根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别;
段落合并模块,用于利用所述段落类别以及预设规则,对各所述段落进行合并;
试卷解析模块,用于基于合并结果,对试卷内容进行解析。
在其中一种可能的实现方式中,所述试卷特征包括:标题特征、题型描述特征、试题特征以及排版格式特征。
在其中一种可能的实现方式中,所述特征提取模块包括标题特征提取子模块;
所述标题特征提取子模块包括:
试卷文本分词单元,用于将所述段落转化为纯文本格式,并做分词处理;
关键字匹配单元,用于将各分词与预先构建的标题关键字库进行关键字匹配;其中所述标题关键字库包括标题类别名称以及标题内容;
标题特征确定单元,用于将匹配的分词确定为所述标题特征。
在其中一种可能的实现方式中,所述特征提取模块包括题型描述特征提取子模块;
所述题型描述特征提取子模块包括:
试卷文本分词单元,用于将所述段落转化为纯文本格式,并做分词处理;
候选检索单元,用于根据各分词的词义,在预先构建的题型索引词库中检索出若干个与所述分词相似的候选题型描述信息;
题型描述特征确定单元,用于基于预设的过滤策略,从候选题型描述信息中确定出所述题型描述特征。
在其中一种可能的实现方式中,所述候选检索单元包括题型索引词库构建子单元;
所述题型索引词库构建子单元包括:
题型描述样本提取组件,用于从大量试卷数据中提取纯文本化的题型描述样本;
分词组件,用于对所述题型描述样本进行分词;
目标甄别组件,用于将全部分词在领域词典中进行甄别,获取其中属于题型描述信息的目标分词;其中所述题型描述信息包括题型学科、题型名称以及题型备注;
题型索引词库构建组件,用于由所述目标分词构建出所述题型索引词库。
在其中一种可能的实现方式中,所述段落类别确定模块包括:
特征得分计算单元,用于利用所述试卷特征与预设的权重矩阵,计算当前所述段落的综合特征得分;其中所述权重矩阵预先由试卷特征以及专家标注的段落类别标签求取;
段落类别标签获取单元,用于根据综合特征得分,获取相应的段落类别标签;
段落类别确定单元,用于基于段落类别标签,确定当前所述段落的段落类别。
第三方面,本发明提供了一种试卷结构化处理设备,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如上所述的试卷结构化处理方法。
本发明的构思在于,在构建电子化的试卷时对待处理试卷的内容布局进行“结构打散”,先生成若干未定义的内容段落,并依据每个段落中的特定试卷特征以及在先经由训练标注等学习方式掌握的特征与段落类别的关系,明确出当前被打散的每一个段落的类别,进而再对准确定义后的段落进行结构重组形成聚类集合,并在此基础上实现后续试题解析等操作。本发明无需在构建电子试题库的解析试卷环节中引入人工干预,并且基于在先学习可以快速、准确地进行特征提取和分析,从而在运行阶段能够自动适应多种特殊情况的辨识以及纠错,相比现有的批量导入构建题库的方案,本发明在构建效率、准确度、自适应性以及人力成本等方面均有显著的改善效果。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的试卷结构化处理方法的实施例的流程图;
图2为本发明提供的试卷的具体实施例的局部示意图;
图3为本发明提供的标题特征提取方法的实施例的流程图;
图4为本发明提供的题型描述特征提取方法的实施例的流程图;
图5为本发明提供的题型索引词库预建方法的实施例的流程图;
图6为本发明提供的段落类别确定方法的实施例的流程图;
图7为本发明提供的试卷结构化处理装置的实施例的流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如前文介绍,目前由计算机处理的批量导入试卷并进行试题解析、构建题库的自动方案,实质上在运行阶段属于“半自动”方案,其中一种方式是采用人工标注内容的方法,主要利用人工识别试卷中试题的分割位置、试题题号位置、试题选项位置、试题答案解析位置并通过人工方式埋入标识,在通过识别切割方式切割出结构化试题。这种基于人工标注内容的方法,在应用时人工参与度较高,而且对于标识的格式要求也较高,例如标识本身就是试卷内容的一部分,则往往容易切出错误的结果,而且对于复杂题型例如完形填空题、阅读理解等大题附带小题的试卷处理并未提供有效解决思路。
另一种常用方式是采用正则表达式匹配模式,对卷面内容进行结构化处理,但需要通过人工选择出不同的匹配模式来适应特殊或复杂的试卷信息的匹配。换言之,相比上一种人工标注方式,基于正则表达式匹配模式虽然可以对大部分题型进行切题操作,并可以有限地降低人工干预程度,但实际操作中仍不能脱离人工,例如对于个别复杂的例如完形填空等题型还需要引入人工处理,尤其对于试卷中的干扰既定规则的信息无法给出灵活的处理调整,例如试卷中包含“注意事项1、xxxx”,或者答案和试题同卷等情况,也未提供相适的解决思路;尤其地,使用正则表达式就会对试卷的标准度提出更高的要求,而在真实的考试场景中,试卷形式和内容会随着不同的考试阶段、考试种类、应用环境以及出题人的思路等产生较大差异,因而这种单纯依赖正则表达式的处理方案难以适应试卷的随机性,导致处理准确度随之降低。
基于上述对现有技术的分析,本发明提供了一种在运行过程中无需引入人工干预的试卷结构化处理方法的实施例,如图1所示,可包括如下步骤:
步骤S1、检测获取到的待处理试卷中的分段标志;
其中,待处理试卷可以来源于教育机构的各期各类考试试卷、中考高考升学试卷、企事业对内对外考试、各类技能考试、职业认证考试等等。而待处理试卷的格式则可以采用试卷图像、电子文本等,为了便于说明,本发明以word格式转存的网页版本为例,介绍后续的方案内容。
这样,所述分段标志可以是指网页版本中HTML代码所使用的标准段落标志,如<br/>、<p></p>、<div></div>、<table></table>等,通过检测HTML中的上述标志,则可以确定并获得所述分段标志。当然,本领域技术人员可以理解的是,在采用其他形式的待处理试卷的实施例中,也可以通过卷面上的特定标记、标签、注释、符号,或者基于图像处理参数(例如梯度、色差等),确定出分段标志,该技术本身属于现有手段,本发明对此不作限定。
步骤S2、根据所述分段标志,将所述待处理试卷分成若干段落;
在确定了试卷中的各分段标志后,便可以据此将试卷内容进行切分,这里需指出的是,上述步骤获取的分段标志以及本步骤的分割过程,仅是浅显的分段处理,并不考虑每段中的内容关联,仅仅是为了按分段标志将试卷信息打散成若干段落,而每个段落之间是否有内容上的关联,此时暂不考虑。因此,上述分段标志的选择,也是不限定规则的,从而据此分出的段落之间也可能没有规律、规则的束缚。例如以图2局部试卷为例,分段后的结果可能是(以【】区分各段落):
【福师大泉州附中2019-2020学年度高二化学期中考试(学考)】
【(满分:100分,考试时间:90分钟)】
【一、选择题(本大题有22小题,每小题2分,共44分。每小题只有一个正确答案)】
【1.联合国把2011年定为“国际化学年”,纪念化学所取得的成就以及对人类文明的贡献。下列说法不正确的是】
【A.化学是一门具有创造性的科学,是自然科学中创造新物质最多的学科】
【B.……】
【C.……】
【D.……】
在其他实施例中,分段后的结果还可能是:
【福师大泉州附中2019-2020学年度高二化学期中考试(学考)
(满分:100分,考试时间:90分钟)】
【一、选择题(本大题有22小题,每小题2分,共44分。每小题只有一个正确答案)】
【1.联合国把2011年定为“国际化学年”,纪念化学所取得的成就以及对人类文明的贡献。下列说法不正确的是】
【A.化学是一门具有创造性的科学,是自然科学中创造新物质最多的学科
B.……
C.……
D.……】
如上等等,当然,按既定规则策略(分段标志)将试卷切分的更为精细则对后续处理而言更为精准;而按既定规则策略(分段标志)将试卷切分的较为模块化,则可以节省后续处理的运算资源;因此,切分段落的操作可以依据实际需求在二者中寻求侧重或平衡。
步骤S3、在各所述段落中提取试卷特征;
需指出的是,本实施例是在分段之后,以所分割出的段落为单位进行试卷特征的提取,其中关于试卷特征则顾名思义,即是针对试卷场景用以反映、辨识试卷信息的特点特性。因而,在某些实施方式中,可以将试卷特征设定但不限于:标题特征、题型描述特征、试题特征及排版格式特征。
1、标题特征(为便于后续说明,对此特征记为F1,下同)是指主要用于辨识出试卷中属于各部分标题的特征
2、题型描述特征(F2)是指主要用于辨识出试卷中与题目类型信息相关的特征。
3、试题特征是指主要用于辨识出试卷中与试题内容相关的特征,例如但不限于:
序号特征(F3):通常以数字+标点开头,多出现于题干或题目注释;
选项特征(F4):通常以ABCD等字母+标点开头,多出现于选择题首;
文字特征(F5):例如字体字号,在试卷中通常会以不同的字体或字号区分试题信息,以HTML代码为例,因而可在HTML中通过HtmlCss进行属性提取,由此可以获得段落中字体字号的占比(在其他实施例中可以统计所有段落中的字体字号相应的占比),根据占比明确试题成分;
图片特征(F6):试卷中包含图片的部分多是试题本身,以HTML代码为例,可以通过查找其中的“img”标签予以确定。另外,在此基础上还可以提取到图片参数特征(F7),例如通过img的属性获取到图片宽高值,并可进一步判断行首或者行未是否包含较大尺寸图片(例如大于2倍行高),以此可辨识出题干;
表格特征(F8):试卷中包含表格的部分多是试题本身,以HTML代码为例,可以通过查找其中的“table”标签予以确定。
4、排版格式特征是指主要用于辨识出试卷中的文字版面布局的特征,例如但不限于:
文本位置特征(F9):这里需指明的是,虽然该特征考察的是排版格式,但目的是通过排版格式辅助判定出试卷内容所属。例如文本居中特征,以HTML代码为例,可根据代码中有关版面长宽的参数,确定出文本出现的位置是否居中,因为居中的文本位置多体现于各类标题。
文本分割特征(F10):这里需指明的是,虽然该特征考察的是文本分割与否,但与前述分段标志不同,本特征强调并侧重从版面格式考察,并且同样可用于辅助判定出试卷内容所属。例如空行特征,以HTML代码为例,在代码中排除图片、字符等标签即为空行,而空行,通常作为排版层面的区分方式,存在于题与题之间。
当然,在实际操作中特征的选取并不限定上述F1~F10,并且关于前述特征F1和特征F2的提取方式,本发明在其他实施例中给出了参考。
以图3为例,提取到标题特征的方式可以为:
步骤S31、将所述段落转化为纯文本格式,并做分词处理;
步骤S32、将各分词与预先构建的标题关键字库进行关键字匹配;
步骤S33、将匹配的分词确定为标题特征。
其中,所述标题关键字库包括标题类别名称以及标题内容,标题类别名称,例如可以包含但不限于:试题模块、答案模块、注意事项模块等;而标题内容,例如可以包含但不限于:期中考试、周测试题、单元测试、参考答案、答案解析等。
关于将段落转化为纯文本格式,如果是电子文档格式则可以去除杂项、干扰项等非法内容后获得的纯净文本;如果是图像格式则可以利用文字识别技术对图像做纯文字化处理,对此本发明不作限定。
再以图4为例,提取到题型描述特征的方式可以为:
步骤S310、将所述段落转化为纯文本格式,并做分词处理;
步骤S320、根据各分词的词义,在预先构建的题型索引词库中检索出若干个与所述分词相似的候选题型描述信息;
步骤S330、基于预设的过滤策略,从候选题型描述信息中确定出题型描述特征。
在按如上所述方式获得各分词后,本实施方式是基于分词的词义,再依据相关度策略在题型索引词库中进行拓展,之后再从扩展出的候选中筛出贴切的题型描述信息,其中涉及的词义确定、词义相似度比对方式、过滤策略等皆可参见本领域的常规方式,仅以过滤策略为例,可以依据多个候选题型描述信息的相似度得分排序结果从中选择得分最高的结果,或者依据各候选题型描述信息与本试卷已确定的其他信息进行二次比对,从中明确目标题型描述特征,以上仅为参考,本发明对此不作赘述。但需要进一步说明的是,其中所述题型索引词库的预建方式,可参考图5示例,包括:
步骤S301、从大量试卷数据中提取纯文本化的题型描述样本;
步骤S302、对所述题型描述样本进行分词;
步骤S303、将全部分词在领域词典中进行甄别,获取其中属于题型描述信息的目标分词;
步骤S304、由所述目标分词构建出题型索引词库。
这里所述的大量试卷数据以及相应的题型描述样本,则可以在本发明方案的预处理阶段,从实际考试题库或在线考试题库中获得。
关于其中所述题型描述信息则可以包括题型学科、题型名称以及题型备注。题型学科可包含但不限于:语文、数学、英语、物理以及化学等;题型名称可包含但不限于:单选题、多选题、解答题、完型填空以及阅读理解等;题型备注可包含但不限于:“本大题共12小题,每小题5分,满分60分”、“在每小题给出的四个选项中,只有一项符合题目要求”以及“请将答案填在题后横线上”等。
在实际操作中,首先可将题型描述样本处理为N个分词,再利用领域词典,当然也可以充分利用已有的主流词典词库,例如输入法词库等,从中分词过滤出符合题型描述信息的目标分词,并排除其他分词,这样便可以将目标分词汇集为题型索引词库词库(例如,题型索引词库可包含有如下内容:选择题、数学、选项、满分等等)。
接续前文,步骤S4、根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别;
在对当前试卷的已分段落中提取到上述试卷特征后,并可以综合上述特征,并结合在前期训练得到的特征与段落的关系,为各所分段落进行属性定义。
本发明给出至少一种求取得分的实施示例,如图6所示,包括:
步骤S41、利用所述试卷特征与预设的权重矩阵,计算当前所述段落的综合特征得分;
步骤S42、根据综合特征得分,获取相应的段落类别标签;
步骤S43、基于段落类别标签,确定当前所述段落的段落类别。
其中,所述权重矩阵则是预先由试卷特征以及专家标注的段落类别标签求取。对此,基于前文提取到的试卷特征,做如下说明:
并在对试卷样本数据进行分段后,由专家标注出段落类别标签P,例如但不限于P1表征标题、P2表征题型描述、P3表征试题题干、P4表征试题选项、P5表征答案部分、P6表征其他待定类别。
再由P和X进行反推,构建出P和X的映射关系,并求取相应的权重矩阵K:
即,K反映出某一特征存在于某一段落类别标签下的可能性(或概率)。
这样,当本发明所提供的方案在之后的运行阶段,便可通过K与X相乘的方式得到一个得分矩阵,通过乘积得分最大的行(列)序号n,对应地得出段落类别标签Pn,进而可以明确出当前段落的类别。
步骤S5、利用所述段落类别以及预设规则,对各所述段落进行合并;
此过程即可理解为将打散的试卷结构进行重组,而重组的基于即是上一步确定出的段落类别,至于本步骤提及的预设规则可以有多种选择,例如:(1)相同段落类别直接合并;(2)属于待定类别段落则可以联系上文合,并到相关其他段落中;(3)在段落类别基础上再做聚类,将试题相关的段落归为一个集合,将答案相关的段落归为另一个集合,再对标题、注释等归位第三集合。类似等等,本发明对所称预设规则不作限定。
最后执行步骤S6、基于合并结果,对试卷内容进行解析。
在获得上述结构化处理之后,便可以采用一些本领域常规手段(例如前文提及的正则表达)进行试卷解析,也即是说,本发明是在对试题内容进行解析前,对试卷内容先进行如上结构化处理,以为后续解析操作提供可靠的准备条件。而关于具体的试题结构解析则非本发明重点,这里以试题解析仅作示例性介绍:
1、根据前述合并后的结果,进行题型分类
单选题(例如数学单选题)——包含题干、选项等;
填空题(例如数学填空题)、解答题——包含题干等;
判断题(例如政治判断题)——包含题干、选项等;
大题附带小题(例如英语的阅读理解、完型填空)——包含资料文章、多个小题题文、小题选项等。
2、解析填空题
填空题形式较为简单,内容只有题干,只需合并所有行为文本块即完成解析。
3、解析选题题、判断题
选择题包含题干和选项,通过前述合并后的结果可以确定选项段落的开始和结束,例如正则表达式从中切分出具体的各选项。
4、解析普通大题带小题
例如英语试卷中的阅读理解题,可以通过行标识区分资料文章和小题,其中多个小题则可通过前述提取到的特征信息进行解析。
5、解析特殊大题带小题
例如任务型阅读题,因为此类试题不包含实际小题结构,且内容不可切割,根据任务型阅读特性进行解析,题号存在于资料中,可基于前述提取到的特征信息进行解析。
以上仅为解析示意,本发明对此过程不作限定。
综上所述,本发明的核心构思还是在于,在构建电子化的试卷时对待处理试卷的内容布局进行“结构打散”,先生成若干未定义的内容段落,并依据每个段落中的特定试卷特征以及在先经由训练标注等学习方式掌握的特征与段落类别的关系,明确出当前被打散的每一个段落的类别,进而再对准确定义后的段落进行结构重组形成聚类集合,并在此基础上实现后续试题解析等操作。本发明无需在构建电子试题库的解析试卷环节中引入人工干预,并且基于在先学习可以快速、准确地进行特征提取和分析,从而在运行阶段能够自动适应多种特殊情况的辨识以及纠错,相比现有的批量导入构建题库的方案,本发明在构建效率、准确度、自适应性以及人力成本等方面均有显著的改善效果。
相应于上述解析方法实施例及优选方案,本发明还提供了一种试卷结构化处理装置的实施例,如图7所示,具体可以包括如下部件:
分段标志检测模块1,用于检测获取到的待处理试卷中的分段标志;
分段模块2,用于根据所述分段标志,将所述待处理试卷分成若干段落;
特征提取模块3,用于在各所述段落中提取试卷特征;
段落类别确定模块4,用于根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别;
段落合并模块5,用于利用所述段落类别以及预设规则,对各所述段落进行合并;
试卷解析模块6,用于基于合并结果,对试卷内容进行解析。
在其中一种可能的实现方式中,所述试卷特征包括:标题特征、题型描述特征、试题特征以及排版格式特征。
在其中一种可能的实现方式中,所述特征提取模块包括标题特征提取子模块;
所述标题特征提取子模块包括:
试卷文本分词单元,用于将所述段落转化为纯文本格式,并做分词处理;
关键字匹配单元,用于将各分词与预先构建的标题关键字库进行关键字匹配;其中所述标题关键字库包括标题类别名称以及标题内容;
标题特征确定单元,用于将匹配的分词确定为所述标题特征。
在其中一种可能的实现方式中,所述特征提取模块包括题型描述特征提取子模块;
所述题型描述特征提取子模块包括:
试卷文本分词单元,用于将所述段落转化为纯文本格式,并做分词处理;
候选检索单元,用于根据各分词的词义,在预先构建的题型索引词库中检索出若干个与所述分词相似的候选题型描述信息;
题型描述特征确定单元,用于基于预设的过滤策略,从候选题型描述信息中确定出所述题型描述特征。
在其中一种可能的实现方式中,所述候选检索单元包括题型索引词库构建子单元;
所述题型索引词库构建子单元包括:
题型描述样本提取组件,用于从大量试卷数据中提取纯文本化的题型描述样本;
分词组件,用于对所述题型描述样本进行分词;
目标甄别组件,用于将全部分词在领域词典中进行甄别,获取其中属于题型描述信息的目标分词;其中所述题型描述信息包括题型学科、题型名称以及题型备注;
题型索引词库构建组件,用于由所述目标分词构建出所述题型索引词库。
在其中一种可能的实现方式中,所述段落类别确定模块包括:
特征得分计算单元,用于利用所述试卷特征与预设的权重矩阵,计算当前所述段落的综合特征得分;其中所述权重矩阵预先由试卷特征以及专家标注的段落类别标签求取;
段落类别标签获取单元,用于根据综合特征得分,获取相应的段落类别标签;
段落类别确定单元,用于基于段落类别标签,确定当前所述段落的段落类别。
应理解以上图7所示的试卷结构化处理装置的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种试卷结构化处理设备,其可以包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如上所述的试卷结构化处理方法。
其中,该设备可以是电子设备也可以是内置于电子设备的电路设备。上述电子设备可以为云服务器、移动终端、智慧屏等计算机设备。本实施例对试卷结构化处理设备的具体形式不作限定。
应理解,所述试卷结构化处理设备能够实现前述实施例提供的方法的相关过程或包含上述装置中的相关部件。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,所述试卷结构化处理设备中的处理器可以是片上系统SOC,该处理器中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类别的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。总之,处理器内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器中。
(2)一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如上所述的试卷结构化处理方法。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效的试卷结构化处理方法。
具体地,通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文,上述设备/终端可以是一台计算机设备(例如前述手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network ProcessUnits;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatilememory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (13)
1.一种试卷结构化处理方法,其特征在于,包括:
检测获取到的待处理试卷中的分段标志;
根据所述分段标志,将所述待处理试卷分成若干段落;
在各所述段落中提取试卷特征;
根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别;
利用所述段落类别以及预设规则,对各所述段落进行合并;
基于合并结果,对试卷内容进行解析。
2.根据权利要求1所述的试卷结构化处理方法,其特征在于,所述试卷特征包括:标题特征、题型描述特征、试题特征以及排版格式特征。
3.根据权利要求2所述的试卷结构化处理方法,其特征在于,在各所述段落中提取标题特征包括:
将所述段落转化为纯文本格式,并做分词处理;
将各分词与预先构建的标题关键字库进行关键字匹配;其中所述标题关键字库包括标题类别名称以及标题内容;
将匹配的分词确定为所述标题特征。
4.根据权利要求2所述的试卷结构化处理方法,其特征在于,在各所述段落中提取题型描述特征包括:
将所述段落转化为纯文本格式,并做分词处理;
根据各分词的词义,在预先构建的题型索引词库中检索出若干个与所述分词相似的候选题型描述信息;
基于预设的过滤策略,从候选题型描述信息中确定出所述题型描述特征。
5.根据权利要求4所述的试卷结构化处理方法,其特征在于,所述题型索引词库的构建方式包括:
从大量试卷数据中提取纯文本化的题型描述样本;
对所述题型描述样本进行分词;
将全部分词在领域词典中进行甄别,获取其中属于题型描述信息的目标分词;其中所述题型描述信息包括题型学科、题型名称以及题型备注;
由所述目标分词构建出所述题型索引词库。
6.根据权利要求1~5任一项所述的试卷结构化处理方法,其特征在于,所述根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别包括:
利用所述试卷特征与预设的权重矩阵,计算当前所述段落的综合特征得分;其中所述权重矩阵预先由试卷特征以及专家标注的段落类别标签求取;
根据综合特征得分,获取相应的段落类别标签;
基于段落类别标签,确定当前所述段落的段落类别。
7.一种试卷结构化处理装置,其特征在于,包括:
分段标志检测模块,用于检测获取到的待处理试卷中的分段标志;
分段模块,用于根据所述分段标志,将所述待处理试卷分成若干段落;
特征提取模块,用于在各所述段落中提取试卷特征;
段落类别确定模块,用于根据所述试卷特征以及预先学习的试卷特征与段落类别的关系,确定所述段落的段落类别;
段落合并模块,用于利用所述段落类别以及预设规则,对各所述段落进行合并;
试卷解析模块,用于基于合并结果,对试卷内容进行解析。
8.根据权利要求7所述的试卷结构化处理装置,其特征在于,所述试卷特征包括:标题特征、题型描述特征、试题特征以及排版格式特征。
9.根据权利要求8所述的试卷结构化处理装置,其特征在于,所述特征提取模块包括标题特征提取子模块;
所述标题特征提取子模块包括:
试卷文本分词单元,用于将所述段落转化为纯文本格式,并做分词处理;
关键字匹配单元,用于将各分词与预先构建的标题关键字库进行关键字匹配;其中所述标题关键字库包括标题类别名称以及标题内容;
标题特征确定单元,用于将匹配的分词确定为所述标题特征。
10.根据权利要求8所述的试卷结构化处理装置,其特征在于,所述特征提取模块包括题型描述特征提取子模块;
所述题型描述特征提取子模块包括:
试卷文本分词单元,用于将所述段落转化为纯文本格式,并做分词处理;
候选检索单元,用于根据各分词的词义,在预先构建的题型索引词库中检索出若干个与所述分词相似的候选题型描述信息;
题型描述特征确定单元,用于基于预设的过滤策略,从候选题型描述信息中确定出所述题型描述特征。
11.根据权利要求10所述的试卷结构化处理装置,其特征在于,所述候选检索单元包括题型索引词库构建子单元;
所述题型索引词库构建子单元包括:
题型描述样本提取组件,用于从大量试卷数据中提取纯文本化的题型描述样本;
分词组件,用于对所述题型描述样本进行分词;
目标甄别组件,用于将全部分词在领域词典中进行甄别,获取其中属于题型描述信息的目标分词;其中所述题型描述信息包括题型学科、题型名称以及题型备注;
题型索引词库构建组件,用于由所述目标分词构建出所述题型索引词库。
12.根据权利要求7~11任一项所述的试卷结构化处理装置,其特征在于,所述段落类别确定模块包括:
特征得分计算单元,用于利用所述试卷特征与预设的权重矩阵,计算当前所述段落的综合特征得分;其中所述权重矩阵预先由试卷特征以及专家标注的段落类别标签求取;
段落类别标签获取单元,用于根据综合特征得分,获取相应的段落类别标签;
段落类别确定单元,用于基于段落类别标签,确定当前所述段落的段落类别。
13.一种试卷结构化处理设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求1~6任一项所述的试卷结构化处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911397114.3A CN111274239B (zh) | 2019-12-30 | 2019-12-30 | 试卷结构化处理方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911397114.3A CN111274239B (zh) | 2019-12-30 | 2019-12-30 | 试卷结构化处理方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274239A true CN111274239A (zh) | 2020-06-12 |
CN111274239B CN111274239B (zh) | 2023-07-14 |
Family
ID=70998777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911397114.3A Active CN111274239B (zh) | 2019-12-30 | 2019-12-30 | 试卷结构化处理方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274239B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931018A (zh) * | 2020-10-14 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 试题匹配及试题拆分方法、装置和计算机存储介质 |
CN111950557A (zh) * | 2020-08-21 | 2020-11-17 | 珠海奔图电子有限公司 | 错题处理方法、图像形成装置及电子设备 |
CN112001183A (zh) * | 2020-07-26 | 2020-11-27 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
CN112396009A (zh) * | 2020-11-24 | 2021-02-23 | 广东国粒教育技术有限公司 | 一种基于全卷积神经网络模型的算题批改方法、算题批改装置 |
CN112541085A (zh) * | 2020-12-07 | 2021-03-23 | 北京左医科技有限公司 | 问卷的结构化方法、问卷的结构化装置及存储介质 |
CN112861864A (zh) * | 2021-01-28 | 2021-05-28 | 广东国粒教育技术有限公司 | 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质 |
CN113111702A (zh) * | 2021-03-01 | 2021-07-13 | 联想(北京)有限公司 | 一种信息确定方法、装置和电子设备 |
CN114399782A (zh) * | 2022-01-18 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备、存储介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932795A (zh) * | 2006-10-10 | 2007-03-21 | 青岛中科恒信信息技术有限公司 | 考试试卷智能命题组卷系统 |
CN103500216A (zh) * | 2013-09-30 | 2014-01-08 | 北京林业大学 | 一种文件信息的提取方法 |
CN106354740A (zh) * | 2016-05-04 | 2017-01-25 | 上海秦镜网络科技有限公司 | 一种电子试卷的导入方法 |
US20180322341A1 (en) * | 2015-12-30 | 2018-11-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting information |
CN109947836A (zh) * | 2019-03-21 | 2019-06-28 | 江西风向标教育科技有限公司 | 英语试卷结构化方法和装置 |
-
2019
- 2019-12-30 CN CN201911397114.3A patent/CN111274239B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932795A (zh) * | 2006-10-10 | 2007-03-21 | 青岛中科恒信信息技术有限公司 | 考试试卷智能命题组卷系统 |
CN103500216A (zh) * | 2013-09-30 | 2014-01-08 | 北京林业大学 | 一种文件信息的提取方法 |
US20180322341A1 (en) * | 2015-12-30 | 2018-11-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting information |
CN106354740A (zh) * | 2016-05-04 | 2017-01-25 | 上海秦镜网络科技有限公司 | 一种电子试卷的导入方法 |
CN109947836A (zh) * | 2019-03-21 | 2019-06-28 | 江西风向标教育科技有限公司 | 英语试卷结构化方法和装置 |
Non-Patent Citations (1)
Title |
---|
王东;林宏;左欣;: "基于WEB的试题库系统的设计与实现" * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001183A (zh) * | 2020-07-26 | 2020-11-27 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
CN111950557A (zh) * | 2020-08-21 | 2020-11-17 | 珠海奔图电子有限公司 | 错题处理方法、图像形成装置及电子设备 |
CN111931018A (zh) * | 2020-10-14 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 试题匹配及试题拆分方法、装置和计算机存储介质 |
CN112396009A (zh) * | 2020-11-24 | 2021-02-23 | 广东国粒教育技术有限公司 | 一种基于全卷积神经网络模型的算题批改方法、算题批改装置 |
CN112541085A (zh) * | 2020-12-07 | 2021-03-23 | 北京左医科技有限公司 | 问卷的结构化方法、问卷的结构化装置及存储介质 |
CN112861864A (zh) * | 2021-01-28 | 2021-05-28 | 广东国粒教育技术有限公司 | 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质 |
CN113111702A (zh) * | 2021-03-01 | 2021-07-13 | 联想(北京)有限公司 | 一种信息确定方法、装置和电子设备 |
CN114399782A (zh) * | 2022-01-18 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备、存储介质及程序产品 |
CN114399782B (zh) * | 2022-01-18 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111274239B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
WO2020259060A1 (zh) | 试卷信息提取方法、系统及计算机可读存储介质 | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
US11386897B2 (en) | Method and system for extraction of key-terms and synonyms for the key-terms | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
CN111522901A (zh) | 文本中地址信息的处理方法及装置 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN110659352A (zh) | 试题考点识别方法及其系统 | |
WO2021230054A1 (ja) | 文抽出装置及び文抽出方法 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN113918686A (zh) | 智能问答模型构建方法、装置、计算机设备及存储介质 | |
CN113610068B (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
CN111539383B (zh) | 公式知识点识别方法及装置 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
CN113807158A (zh) | 一种pdf内容提取方法、装置及设备 | |
EP2544100A2 (en) | Method and system for making document modules | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |