CN112001183B

CN112001183B - 一种基于段落语义的中小学试题分割提取方法及系统

Info

Publication number: CN112001183B
Application number: CN202010727007.9A
Authority: CN
Inventors: 杨明华; 刘琼; 肖荣; 彭键; 吴翔; 孙健; 肖小明
Original assignee: Hunan Shihe Education Technology Co ltd
Current assignee: Hunan Shihe Education Technology Co ltd
Priority date: 2020-07-26
Filing date: 2020-07-26
Publication date: 2021-11-19
Anticipated expiration: 2040-07-26
Also published as: CN112001183A

Abstract

本发明公开了一种基于段落语义的中小学试题分割提取方法及系统。方法包括：读取试卷文档中每个段落的文字，采用结构语义正则表达式匹配规则分析每个段落的结构语义；采用段落结构语义编码规范记录整个试卷的段落结构，以形成段落结构语义串；对所述段落结构语义串进行结构矫正和结构划分；根据结构划分的记录，从试卷文档中提取固定格式以形成单个试题的格式化文档。本发明通过对中小学常见的大量试卷文档按结构模式进行分类归纳，抽象出几种最常见的结构模型，并设计出具有较强适应性的文档结构分析方法，进而实现了对试卷文档的结构化分拆和试题信息分割提取，具有较强的可扩展性和较广的试卷模型适用性。

Description

一种基于段落语义的中小学试题分割提取方法及系统

技术领域

本发明涉及题库处理技术领域，更具体的说，涉及一种基于段落语义的中小学试题分割提取方法及系统。

背景技术

题库在各类教学测评工作中作用重大，特别是中小学教学中，对大量的试卷进行自动化的试题分割，进而实现高效的数据库管理，有重要意义。但是，中小学日常教学中对试卷文档的编辑没有统一的标准，难以采用固定模式的试题拆分策略来处理数量巨大的试卷文档。

中小学试卷的文档编辑特点是，社会科学学科以文本居多，但字体设置往往有各种富文本格式，如：粗体、斜体、着重号、注音、带圈等。自然科学学科除了上述富文本格式外，还包含大量的图片、图形、公式等多媒体素材。

针对中小学常用试卷文档编辑规范不统一，试题分割入库效率低下的问题，有必要开发一种基于段落语义的中小学试题分割提取方法及系统。

发明内容

本发明主要是解决现有技术中所存在的技术问题，从而提供一种基于段落语义的中小学试题分割提取方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于段落语义的中小学试题分割提取方法，该方法包括以下步骤：

读取试卷文档中每个段落的文字，采用结构语义正则表达式匹配规则分析每个段落的结构语义；

采用段落结构语义编码规范记录整个试卷的段落结构，以形成段落结构语义串；

对所述段落结构语义串进行结构矫正和结构划分；

根据结构划分的记录，从试卷文档中提取固定格式以形成单个试题的格式化文档。

进一步地，在所述读取试卷文档中每个段落的文字后还包括：采用正则表达式清理规则对试卷中的每个段落文本进行清理，所述正则表达式清理规则的清理方法为针对清理目标设计一表达式集合进行，所述清理目标至少包括赋分说明和说明文本。

进一步地，所述结构语义正则表达式匹配规则的分析方法为：

将段落的结构语义进行分类；

根据不同类型的结构语义采用对应的表达式集合进行匹配，所述表达式集合主要包括排除法、单纯匹配法和参数提取法。

进一步地，所述段落结构语义编码规范包括段落索引、语义类型、语义关键词、内容起点、内容终点和提取索引偏移，所述试卷文档的每个段落的结构语义均符合段落结构语义编码规范，多个段落的结构语义形成段落结构语义串。

进一步地，还包括采用段落结构语义检查规则对所述段落结构语义串进行检查的步骤，所述段落结构语义检查规则的检查方法为，根据检查目标设定表达式集合，通过表达式集合对段落结构语义串进行检查，若匹配成功则表明该检查目标存在，若匹配不成功则表明该检查目标不存在并发出警报。

进一步地，对所述段落结构语义串进行结构矫正具体为：采用正则表达式对段落结构语义串再次进行分析。

进一步地，对所述段落结构语义串进行结构划分具体为：

设定一试卷概念对象和概念对象正则表达式匹配规则；

对进行结构矫正后的段落结构语义串通过概念对象正则表达式匹配规则进行匹配，以划分出各个概念对象的范围；

通过排序、树形结构化得到试卷概念模型树。

进一步地，在试题为阅读理解类试题时，在该试题的段落结构语义串中设计阅读资料列表和试题列表两个数据结构，并通过引用指针联系试题及其所需阅读材料；

在试题为表格型选择题时，当选择题答案以表格方式罗列时，在段落语义分析过程中，先将表格型选择题答案罗列替换为文本罗列的方式，再进行选择题答案正则表达式匹配，并提取答案题号信息及答案内容信息，以便后续实现题干和答案关联。

进一步地，所述从试卷文档中提取固定格式以形成单个试题的格式化文档具体包括：

检测试卷文档中段落的编辑样式，若发现段落中包含富文本信息，则采用富文本数据格式提取试题的文档数据；

若未发现段落中包含富文本信息，则采用纯文本格式提取。

本发明还提供一种实现上述的基于段落语义的中小学试题分割提取方法的系统，该系统包括：

读取和匹配模块，用于读取试卷文档中每个段落的文字，采用结构语义正则表达式匹配规则分析每个段落的结构语义；

记录模块，用于采用段落结构语义编码规范记录整个试卷的段落结构，以形成段落结构语义串；

结构矫正和结构划分模块，用于对所述段落结构语义串进行结构矫正和结构划分；

提取模块，用于根据结构划分的记录，从试卷文档中提取固定格式以形成单个试题的格式化文档。

现有技术相比，本发明的优点在于：本发明通过对中小学常见的大量试卷文档按结构模式进行分类归纳，抽象出几种最常见的结构模型，并设计出具有较强适应性的文档结构分析方法，进而实现了对试卷文档的结构化分拆和试题信息分割提取，具有较强的可扩展性和较广的试卷模型适用性。

附图说明

为了更清楚地说明发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是中小学试卷文档的基本结构图；

图2是本发明的基于段落语义的中小学试题分割提取方法的流程图；

图3是本发明的基于段落语义的中小学试题分割提取方法的原理图；

图4是本发明的基于段落语义的中小学试题分割提取方法中段落结构语义编码规范图；

图5是本发明的基于段落语义的中小学试题分割提取系统的原理图。

图6是本发明提供的一套试卷编辑的规范图。

具体实施方式

下面结合附图对发明的优选实施例进行详细阐述，以使发明的优点和特征能更易于被本领域技术人员理解，从而对发明的保护范围做出更为清楚明确的界定。

中小学日常教学使用的Word文档试卷，看起来没有什么特殊的标记，其实结构还是很清晰的，从结构语义来讲，分为试卷标题、说明文字、大题标题、小题标题、题干、答案、解析等等，一个常见的试卷结构模型如图1。

中小学试卷的文档编辑特点是，社会科学学科以文本居多，但字体设置往往有各种富文本格式，如：粗体、斜体、着重号、注音、带圈等，而自然科学学科除了上述富文本格式外，还包含大量的图片、图形、公式等多媒体素材。

试卷拆分的关键在于分析出试卷的组织结构，本申请可以参照人在阅读试卷文档时的结构分析思路设计，请参阅图2和图3所示，本发明公开了一种基于段落语义的中小学试题分割提取方法，该方法包括以下步骤：

步骤S1：读取试卷文档中每个段落的文字，采用结构语义正则表达式匹配规则分析每个段落的结构语义；

步骤S2：采用段落结构语义编码规范记录整个试卷的段落结构，以形成段落结构语义串；

步骤S3：对段落结构语义串进行结构矫正和结构划分；

步骤S4：根据结构划分的记录，从试卷文档中提取固定格式(如：WordML或OpenXML、Rtf)以形成单个试题的格式化文档，用于后续的入库管理。

在本申请中，由于教师的编辑习惯或者技术限制，中小学使用的试卷文档中往往含有一些多余的字符，或者格式设置，如：题号后的空格、赋分说明、段落前后的空行等，在分析段落语义前最好进行清理，本申请设计了一套正则表达式清理规则，即：在读取试卷文档中每个段落的文字后还包括：采用正则表达式清理规则对试卷中的每个段落文本进行清理，正则表达式清理规则的清理方法为针对清理目标设计一表达式集合进行，清理目标至少包括赋分说明和说明文本，具体的正则表达式清理规则可参照表1设计。

表1

在本申请中，中小学使用的Word文档试卷，都是以段落为单位来表达语义结构的，因此结构分析也应该以段落为单位来分析文字的语义特征，为此，本申请设计了一套结构语义正则表达式匹配规则，用于分析每个段落的结构语义。

所述结构语义正则表达式匹配规则的分析方法为：将段落的结构语义进行分类；根据不同类型的结构语义采用对应的表达式集合进行匹配，表达式集合主要包括排除法、单纯匹配法和参数提取法。

部分段落结构语义模式的结构语义正则表达式匹配规则设计如表2所示。

表2

使用结构语义正则表达式对每个段落的语义进行分析后将形成一个段落语义编码集合，相当于将文档的段落进行了“DNA编码”，以便后续进行文档结构的检查、结构矫正和结构拆分。一个典型的段落语义编码如图4所示，即段落结构语义编码规范包括段落索引、语义类型、语义关键词、内容起点、内容终点和提取索引偏移，试卷文档的每个段落的结构语义均符合段落结构语义编码规范，多个段落的结构语义形成段落结构语义串。

本申请中，对段落结构语义串进行结构矫正的具体方法为：该段落语义编码将用正则表达式进行进一步分析，因此，应避免使用正则表达式的保留字符，以简化后续的正则表达式构造。

本申请实施例中，由于试卷编辑本身可能缺少某些关键内容，如：答案部分、部分试题答案缺失。可以通过检测段落语义编码串，发现异常就发出警报。具体方法为：采用段落结构语义检查规则对段落结构语义串进行检查的步骤，段落结构语义检查规则的检查方法为，根据检查目标设定表达式集合，通过表达式集合对段落结构语义串进行检查，若匹配成功则表明该检查目标存在，若匹配不成功则表明该检查目标不存在并发出警报。段落结构语义检查规则设计如表3所示。

表3

段落结构语义编码串是一个一维列表，只表达了单个段落的结构语义，并没有形成具有逻辑意义的试卷结构，还需要通过分析该编码串来构造试卷概念结构树，即对段落结构语义串进行结构划分。本申请实施例对所述段落结构语义串进行结构划分具体为：

首先、设定一试卷概念对象和概念对象正则表达式匹配规则。

然后、对进行结构矫正后的段落结构语义串通过概念对象正则表达式匹配规则进行匹配，以划分出各个概念对象的范围。

最后、通过排序、树形结构化得到试卷概念模型树。

本申请实施例中，设计的试卷概念对象包括文档根、试卷标题、试题[答案]小节、题型分组、试题、选择支、答案、解析等。

本申请中部分划分模式的概念对象正则表达式匹配规则设计如下表4所示。

表4

试题内容往往由文字作为基本媒体，常常还含有各种不能以纯文本的方式呈现的文本样式和多媒体信息，根据不同的试卷文本样式类型、媒体类型及后期试题呈现要求，有纯文本试题提取方式和多媒体试题提取方式两种方法。

对纯文本试题，以纯文本方式保存可以显著减少数据存储空间，提高网络传输速度，适合在只支持纯文本的设备上展示，可以只提取纯文本信息。

但考虑到中小学阶段试卷往往不完全由纯文本构成，则有必要检测试题中的文本样式，比如黑体、斜体、下划线、上下标、着重号等，这些样式是无法以纯文本的方式保存的。

具体的，本申请实施例中，从试卷文档中提取固定格式以形成单个试题的格式化文档具体包括：首先、本申请参照Word文档对象模型设计了读取和存储常见富格式文档的文档对象模型。然后、通过Font对象检测试卷文档中段落的编辑样式，相关属性如下：Font.Bold、Font.Italic、Font.Underline等，检测是否包含除文字外的其他媒体类型可以使用Range.Tables.Count、Rang.OMaths.Count、Range.ShapeRange等属性，如果检测发现试题中包含富文本信息则应该采用富文本数据格式提取试题的文档数据；这样可以完美保留试题的样式；若未发现段落中包含富文本信息，则采用纯文本试题提取方式。

在本申请实施例中，在试题为阅读理解类试题时，例如在语文、英语、政治、历史、地理等学科中普遍存在数个小题共用一段阅读材料的题型，在试卷概念模型中，这类试题应作为一个整体认定，但在文档编辑模型中各个小题又具有独立的段落结构语义；为此，本申请在该试题的段落结构语义串中设计阅读资料列表和试题列表两个数据结构，并通过引用指针联系试题及其所需阅读材料；这样的设计不仅处理好了试题的拆分，也在试题入库保存时避免了阅读材料的重复存储。如果不希望将一个阅读理解大题中的小题分割保存，也可以在手工去除小题编号后，把整个阅读理解题的阅读材料部分和题目部分合并识别为一个题目。

在本申请实施例中，各类正则表达式的设计首先是符合正则表达式的语法规范(这种语法规范属于现有技术，此处不再赘述)，其次是符合选择要防止与正则表达式的保留字冲突(混淆)即可。

在本申请实施例中，在试题为表格型选择题时，由于不少试卷的选择题答案采用了表格罗列的方式，但是这种方式不便于进行段落语义的分析，也不便于试题答案的匹配；为此，本申请在段落语义分析过程中，若发现答案小节后将表格型选择题答案罗列替换为文本罗列的方式，再进行题号和答案匹配，示意如下表5。

表5

题号	1	2	3	4	5	6	7	8	9
										答案	A	C	D	B	D	A	C	A	B

通过调用文档对象模型的“表格转文本”方法：Table.ConvertToText()转化为：

题号,1,2,3,4,5,6,7,8,9

答案,A,C,D,B,D,A,C,A,B。

参阅图5所示，依据上述设计方案，本申请设计了一种实现上述的基于段落语义的中小学试题分割提取方法的系统，该系统包括：读取和匹配模块10，用于读取试卷文档中每个段落的文字，采用结构语义正则表达式匹配规则分析每个段落的结构语义；记录模块20，用于采用段落结构语义编码规范记录整个试卷的段落结构，以形成段落结构语义串；结构矫正和结构划分模块30，用于对所述段落结构语义串进行结构矫正和结构划分；提取模块40，用于根据结构划分的记录，从试卷文档中提取固定格式以形成单个试题的格式化文档。系统采用VS2010，C#作为开发工具，采用.Net 4.0平台，主要应用了：正则表达式、 Office[Word]互操作等技术。

本申请设计的系统能够顺利拆分常见各科试卷，不需要进行专门的格式化修改；用户可以自定义符合目标试卷特征的识别模式集合；能自动识别试题题型，题干，选择支，答案，解析，等常见试题要素；适应参考答案的多种常见编排方式，如：直接跟在试题后面或者以多种常见方式罗列在试卷最后；能将试卷拆分后保存为多种富文本格的单个试题文件及答案文件；也可以通过软件接口获取每个试题的数据流，用于其他存储方式。软件系统具有识别准确率高，适应性强，易定制扩展，试题编辑格式保真完美，多媒体文件链接关系简单，数据格式转换方便，等特点。

本发明通过对中小学常见的大量试卷文档按结构模式进行分类归纳，抽象出几种最常见的结构模型，并设计出具有较强适应性的文档结构分析方法，进而实现了对试卷文档的结构化分拆和试题信息分割提取，具有较强的可扩展性和较广的试卷模型适用性。

由于本发明是建立在较为规范的试卷文档上，编辑规范的试卷文档既可以提高学生考试时阅读试卷文本的效率，也便于设计简便的规则来分析试卷结构，同时也可以减少对切分出的试题进行后期编辑的投入，对于学校试卷资源的深度利用大有益处。因此，本申请还设计一套试卷编辑的规范(如图6所示，为一个规范的试卷格式)主要表现在：

1.段落起止规范，段落语义分析是本设计的核心所在，因此正确的段落划分是成功分析试卷的前提，但是，不少教师不了解“换行符”和“回车符”的文档编辑意义，在本该使用“回车符”来开始新段落的位置使用“换行符”，造成段落划分歧义，必然造成试题拆分错误。因此，建议凡是需要人为换行的位置都使用“回车符”即敲击键盘“Enter”键。

2.段落列表编辑规范，试题题号是划分试题范围及对应试题答案的关键标志，部分教师习惯使用段落列表来自动编号试题，这样做虽然在文档编辑中有一定的便捷，但是提取段落文字进行语义分析时却不能得到段落列表编号，也就相当于丢失了试题题号，拆分也必然失败。因此，建议为试题编号时都采用手动编号的方式。这样，即便是在试卷的其他位置采用自动编号也不会影响试卷结构的分析和试题的拆分。

3.段落结构语义文本规范，虽然本申请能支持大部分试卷的结构分析和试题分割，但是规范的段落语义文本能更高效和准确的实现试卷拆分，按照如下规范编辑的试卷文档，符合绝大多数教师的试卷编辑习惯，能保证100％的试题拆分正确率。

4.图文混排编辑规范，图形是试卷文档中常见的媒体类型，许多教师，在编排图片、公式时为了使版面紧凑采用了“绕排”方式。由于试题切分是按照试题起止位置提取文档数据的，因此，必须保证图片的“锚点”落在相应试题的起点之后，但教师往往无法判断是否做到了这一点，因此，建议对于较大的图片一律采用“嵌入”排版方式，这样，不易出现漏掉试题图片的情况。

以上所述，仅为发明的具体实施方式，但发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在发明的保护范围之内。因此，发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于段落语义的中小学试题分割提取方法，其特征在于，该方法包括以下步骤：

对所述段落结构语义串进行结构矫正和结构划分；

根据结构划分的记录，从试卷文档中提取固定格式以形成单个试题的格式化文档；

对所述段落结构语义串进行结构划分具体为：

设定一试卷概念对象和概念对象正则表达式匹配规则；

通过排序、树形结构化得到试卷概念模型树；

在试题为阅读理解类试题时，在该试题的段落结构语义串中设计阅读资料列表和试题列表两个数据结构，并通过引用指针联系试题及其所需阅读材料；

2.根据权利要求1所述的基于段落语义的中小学试题分割提取方法，其特征在于，

在所述读取试卷文档中每个段落的文字后还包括：采用正则表达式清理规则对试卷中的每个段落文本进行清理，所述正则表达式清理规则的清理方法为针对清理目标设计一表达式集合进行，所述清理目标至少包括赋分说明和说明文本。

3.根据权利要求1所述的基于段落语义的中小学试题分割提取方法，其特征在于，

所述结构语义正则表达式匹配规则的分析方法为：

将段落的结构语义进行分类；

4.根据权利要求1所述的基于段落语义的中小学试题分割提取方法，其特征在于，

所述段落结构语义编码规范包括段落索引、语义类型、语义关键词、内容起点、内容终点和提取索引偏移，所述试卷文档的每个段落的结构语义均符合段落结构语义编码规范，多个段落的结构语义形成段落结构语义串。

5.根据权利要求1所述的基于段落语义的中小学试题分割提取方法，其特征在于，

还包括采用段落结构语义检查规则对所述段落结构语义串进行检查的步骤，所述段落结构语义检查规则的检查方法为，根据检查目标设定表达式集合，通过表达式集合对段落结构语义串进行检查，若匹配成功则表明该检查目标存在，若匹配不成功则表明该检查目标不存在并发出警报。

6.根据权利要求1所述的基于段落语义的中小学试题分割提取方法，其特征在于，

对所述段落结构语义串进行结构矫正具体为：采用正则表达式对段落结构语义串再次进行分析。

7.根据权利要求1所述的基于段落语义的中小学试题分割提取方法，其特征在于，

所述从试卷文档中提取固定格式以形成单个试题的格式化文档具体包括：

若未发现段落中包含富文本信息，则采用纯文本格式提取。

8.一种实现权利要求1-6任意一项基于段落语义的中小学试题分割提取方法的系统，其特征在于，该系统包括：