CN110765107B

CN110765107B - 基于数字化编码的题型识别方法及其系统

Info

Publication number: CN110765107B
Application number: CN201911012203.1A
Authority: CN
Inventors: 张新华; 王朝选; 魏鹏; 刘严
Original assignee: Zhejiang Lancoo Technology Co ltd
Current assignee: Zhejiang Lancoo Technology Co ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-09-29
Anticipated expiration: 2039-10-23
Also published as: CN110765107A

Abstract

本发明涉及教育领域，公开了一种基于数字化编码的题型识别方法及其系统，该方法将试题的题型特征进行数字化编码，生成该试题的题型编码；将待识别试题的题型编码与样题题型编码进行匹配，实现题型识别。本发明通过制定统一的编码标准，有利于数据统一处理，且数据处理简单，题型识别速度快；本发明不限于试题格式多样化、复杂化，满足所有试题题型的识别，且识别准确率高。

Description

基于数字化编码的题型识别方法及其系统

技术领域

本发明属于教育领域，尤其涉及一种基于数字化编码的题型识别方法及其系统。

背景技术

在智能化题库的构建中，对试题的题型进行标识是最基础的环节，有利于后续智能化产品中的试题精准化推荐。然而，海量的试题资源，涉及到丰富的题型类型，若人工对其题型一一进行标识，将会耗费大量的人力和物力。而已有的一些题型识别技术，存在着题型识别类型单一、识别准确率低等问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于数字化编码的题型识别方法及其系统，能够快速、准确地对试题题型进行识别与分类。

本发明的目的是通过以下技术方案来实现的：本发明采用数字化编码的方式，将试题的题型特征转化成编码的形式，并通过与样题的题型编码进行匹配，识别出试题的题型。具体地：

本发明公开了一种基于数字化编码的题型识别方法，该方法包括：

将试题的题型特征进行数字化编码，生成该试题的题型编码；

将待识别试题的题型编码与样题题型编码进行匹配，实现题型识别。

进一步地，该题型编码是根据试题结构特征、以及各结构对应的内容表现特征生成的统一规范性编码。

进一步地，该结构特征的编码按照各结构在试题中出现的顺序有序表示；

各结构对应的内容表现特征的编码紧跟其对应的结构特征编码之后，且各类内容表现特征按顺序编码。

进一步地，收集各学科各题型的试题样题，生成样题题型编码，构建题型样题特征库，该题型样题特征库包括多个样题和样题属性信息，其中，样题属性信息包括所属学科、所属题型名称及其生成的题型编码。

进一步地，将试题的题型特征进行数字化编码之前还包括：对试题序号进行识别并标识；对试题导语进行识别并标识；并结合试题序号和导语的关系，将试卷中的试题进行分割，并对试题的结构进行标识。

进一步地，将待识别试题的题型编码与样题题型编码进行结构特征匹配：从样题题型编码集中筛选出与待识别试题的结构特征编码相同，且顺序一致的题型编码，根据筛选出的样题题型编码确定试题题型。

进一步地，在结构特征匹配前，基于该试题导语的题型范围筛选出该试题对应的题型范围，并获取对应题型的样题题型编码集。

进一步地，在结构特征匹配后，进行结构内容特征匹配，具体为：依次将待识别题型编码与筛选出的样题题型编码集的各编码进行结构内容特征编码匹配，匹配度由内容表现特征的相似程度确定；选择匹配度最高值M_max与阈值M₀比较：

若M_max＞M₀，则匹配成功，输出匹配度最高的样题题型为该试题的题型；

若M_max＜M₀，则匹配失败，将此待识别试题及其题型编码作为样题数据。

本发明还公开了一种基于数字化编码的题型识别系统，该系统包括编码模块和匹配模块；该编码模块用于将试题的题型特征进行数字化编码，生成该试题的题型编码；该匹配模块用于将待识别试题的题型编码与样题题型编码进行匹配，实现题型识别。

进一步地，该系统还包括预处理模块和构建模块；

该预处理模块用于对试题序号进行识别并标识；对试题导语进行识别并标识；并结合试题序号和导语的关系，将试卷中的试题进行分割，并对试题的结构进行标识；

该构建模块用于构建题型样题特征库，该题型样题特征库包括多个样题和样题属性信息，其中，样题属性信息包括所属学科、所属题型名称及其生成的题型编码。

本发明采用数字化编码的方式，将待识别试题的题型特征转化成数字化编码的形式，并通过与题型样题特征库的样题题型编码进行匹配，识别出待识别试题的题型。实施本发明具有以下有益效果：

(1)通过制定统一的题型特征编码标准，通过题型编码的匹配实现试题题型的识别，有利于数据统一处理，且数据处理简单，题型识别速度快；

(2)本发明不限于试题格式多样化、复杂化，满足各类试题的题型识别，且识别准确率高达99％。

进一步地，本发明对批量试卷中的试题进行分割和题型识别，可快速构建海量题库；除此之外，各类教学应用系统基于试题的题型信息，可以实现精准化推荐，给教学提供了更好的便利。

附图说明

图1为本发明基于数字化编码的题型识别流程图；

图2为试题的题型编码组成示意图；

图3为试题的篇章特征编码示例；

图4为阅读综合题编码示例；

图5为基于题型数字化编码和题型样题特征库识别试题题型的流程图；

图6为试题结构识别流程图；

图7为基于数字化编码的题型识别系统结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明提出的基于数字化编码的题型识别方法，如图1所示，首先，按照统一规范性编码，根据各类题型试题的结构特征生成题型编码，并构建题型样题特征库；然后，通过对各待识别试题进行题型数字化编码，并与样题特征库中的样题题型编码进行匹配，最终将匹配度最高的样题题型作为该试题的题型。

本发明具体实现过程，分为以下几部分进行详细说明：

(一)题型数字化编码方式

本发明设计的题型数字化编码方式，使计算机自动根据各题型试题的结构特征、以及各结构对应的内容表现特征，按照特征信息的统一规范性编码，自动生成试题的题型编码，其编码的组成部分如图2所示。

所述的结构特征即试题的组成结构，可分为“篇章”、“题干”、“选项”、“小题数量”等，所有题型的试题可以由这些结构的任意组合形式表示。其编码按照各结构在试题中出现的顺序有序表示，若无某一结构对应的结构特征，则不表示该结构特征。

所述的结构内容表现特征即各组成结构中更细的内容表现特征。其编码则紧跟着对应结构特征编码后面，且各类内容表现特征按顺序编码。其中，各结构内容表现特征及数字化表示如下表所示，但不限于此：

基于上述编码规则、各结构内容表现特征以及数字化表示形式，举如下例子进一步的理解：

例1：如图3所示，试题的篇章特征编码为“Ac00”。

例2：如图4所示，阅读综合题(含多小题)编码例子。

(二)基于题型数字化编码机制，构建题型样题特征库

收集各学科各题型的试题样题，输入题型数字化编码机制，对各试题的题型按统一规范性编码，生成题型编码，输出题型样题特征库，库中的各样题属性信息如下表所示：

样题	样题属性信息
		样题1	{学科，题型名称，题型编码，……}
样题2	{学科，题型名称，题型编码，……}
		……	……

(三)基于题型数字化编码和题型样题特征库，识别试题题型，具体实现步骤如图5所示。

步骤1：试题结构特征分析

基于对试题序号和导语的判定，并结合试题序号和导语的关系，将试卷中的试题进行分割，并对试题的结构“篇章、题干、选项、小题数量等”进行标识，以及答题点等特殊格式处进行标识。

步骤2：基于题型数字化编码，生成题型编码

基于上述题型编码规则、以及统一规范性编码，并根据待识别题型试题的结构及各结构内容特征，进行特征数字化编码，生成题型编码。

步骤3：基于题型样题特征库，进行题型特征匹配

针对当前待识别题型试题，对该题型编码与题型样题特征库的题型编码进行匹配，通过试题结构特征编码粗匹配与各结构内容特征编码精细化匹配，确定试题的题型。具体匹配的流程如下：

①基于该试题导语的题型范围筛选出该试题对应的题型范围，并获取对应题型的样题题型编码集；

②根据上一步获取的样题题型编码集，进一步筛选出与待识别试题“结构一致”的题型编码(即二者的结构特征编码相同，且顺序一致)；

对于一些结构简单的题型，通常在结构特征编码这一环节可直接判断出试题的题型，例如：单选题样题题型编码为[Ba00 Caa Da]，若某个试题的结构编码为BCD，则直接确定为单选题。

③根据上一步筛选后的题型编码集，依次将待识别题型编码与题型编码集的各编码进行结构内容特征编码精细匹配。其中，匹配度M的计算方式如下：

其中，j为待识别试题与某样题题型的结构数量，T_i为待识别试题与某样题题型结构i编码相似程度，取值1或0(编码相同取1，否则取0)；

对于某大类题，为了满足应用层面(即用户精细化)搜索需求，需对这大类题的题型做进一步的精细化划分，通常在结构特征编码匹配之后，通过各结构内容特征编码，可进一步地确定其所属题型的某一类。

例如：英语作文题涉及看图写作题、文本理解写作题等，因此需通过匹配其内容特征编码，以明确该题所属该题型的某一类。具体的，假设英语看图写作题的一个样题题型编码为[Bc00Da]、文本理解写作题的一个样题编码为[Ba00Da]，若当前待识别试题的编码为[Bc00Db]，则与题型编码[Bc00Da]匹配度高于[Ba00Da]，可判定当前待识别试题的题型为看图写作题。

④根据上述计算的各匹配度值，选择匹配度最高值M_max与阈值M₀比较：

a、若M_max＞M₀大于M₀(经大量实验数据获取的最佳经验值)，则匹配成功，输出匹配度最高的样题题型为该试题的题型；

b、若M_max＜M₀，则匹配失败，并将此待识别试题及其题型编码作为样题数据录入题型样题特征库，待人工审核，赋予题型名称等属性信息。

步骤4：输出试题题型

输出试题的题型，并将题型名称、题型编码存储至相应的属性表中，便于应用层获取各试题的相关属性信息。

进一步地，第(三)部分步骤1中的试题结构特征分析中，首先根据样本试卷的试题导语、试题序号构建试题信息特征库；然后将待拆分试卷划成若干段落；将这些段落与特征库的信息进行特征匹配，识别出试题序号、试题导语，通过分析试题导语与试题序号段落之间的关系，将待拆分试卷划分为若干独立试题，并对试题的结构进行划分和标识；具体实现流程如下：

(1)预先构建试题信息特征库：

收集各学科试卷，包括小初高全学科，以及各类考试试卷，对试卷中的试题序号、试题导语等进行统计与特征分析，构建试题信息特征库。具体如下：

①试题序号：指题目的各类序号特征信息，具体包括“试题有效序号”、“试题不规则序号”如下表：

②试题导语：试题导语指针对不同题型的试题考核要求，向应试者指明的考查、答题方式的语句。具体包括“标准导语”以及对应的“导语关键词”、对应的题型信息等。如下表：

标准导语文本	导语关键词	对应题型
			Part I Listening Comprehension	Listening；Comprehension	听力选择、听力填空等
This part is to test your listening ability	Test；listening；ability	听力简答
			……	……	……

(2)基于构建的试题信息特征库，对导入的试卷进行段落划分，将这些段落与特征库的信息进行特征匹配，识别出试题序号、试题导语，通过分析试题导语与试题序号段落之间的关系，划分出单个试题，并对试题的结构进行划分和标识，如图6所示，具体实现流程如下：

步骤1：试卷预处理

①将各格式文档转换为html文本文件；标记段落处及特殊格式内容，如斜体字、加粗、括号、下划线等；

②依据html文件中的段落标签，例如html语言中的“p、h1、br、table”等标签，将试卷拆分成若干份段落；

③依据html文件中的下划线标签，例如html语言中的“u”、“/u”等标签，将段落中存在的“u”“/u”标签，且两标签之间无任何字串信息或只存在数字字串处标识为答题点。

其中，答题点主要是针对填空题、完型填空、匹配题等题型的属性信息，直接关系到答题的个数。对于选择题题型，有些以下划线形式作为答题点，有些没有下划线，有些以括号形式作为答题点，若有下划线则标记答题点，没有下划线或其它形式默认有1个答题点，答题点属性信息在选择题中不重要。

步骤2：试题序号判定

基于“试题序号”特征信息，结合“序号位于段首”的特点，识别出各段落的试题序号，并在此序号前添加序号标签，同时标识此段落为序号段落。

步骤3：试题导语判定

基于“导语关键词”特征信息，提取包含相同导语关键词的标准导语，采用余弦相似性计算该试题导语与其对应的各标准导语的相似度，取导语内容相似度最大的标准导语作为该试题导语类型，同时标识此段落为试题导语段落。

步骤4：独立试题划分

基于试题导语段落、试题序号段落的判定结果，并根据上下段落关系，将试题内容划分为若干个独立试题，具体如下：

①独立试题块划分：以“试题导语段落”为划分点，将两个相邻试题导语段落之间的内容划分为一个“独立试题块”。

每个独立试题块可能是1个完整的独立试题(例如：1个阅读题包含5个选择题)、或多个独立试题(例如：1个翻译题型包含4个独立的翻译题)。

②独立试题划分：判断独立试题块中的试题导语是否含有“回答多少题”例如“回答X～Y题”等类似的导语关键词(例如：听力题，1个音频对应多个听题单选题)；若有，则此独立试题块即为1个完整的独立试题；否则，从独立试题块中的第一个试题序号开始，划分为若干个独立试题。

步骤5：试题结构划分

基于已划分的独立试题、以及试题的各段落属性信息，对试题的结构进行划分与标识，具体如下：

①篇章与小题段落范围划分：判断独立试题中是否有试题序号；

若有，则以第一个试题序号段落为分界点，第一个试题序号段落以上且非试题导语段落的内容是篇章内容(若无内容，说明无篇章)，第一个试题序号段落及其以下的是小题内容；

否则，则此试题只有一个小题，且试题内容就是小题内容；

②各小题段落之间范围划分：根据以上划分的小题内容，查找所有与第一个试题序号段落同类型的试题序号段落，将相邻两个试题序号段落之间的段落内容及前一个试题序号段落划分为一个小题；

③各小题题干与选项的划分：查找出此小题中所有字母类型序号(查找方法：依据字母类型的特征样式，即“A、”、“(A)”等类似的样式)，并判断字母类型序号是否是从字母“A”开始，且是连续的：

若否，则此小题内容均是题干内容，无选项内容；

若是，则先判断字母类型序号“A”所在的段落是否在小题的开头；若在开头，则以最后一个字母类型序号段落为分界点，此段落及其以上的内容是选项，此段落以下的内容是题干；若不在开头，则以第一个字母类型序号段落为分界点，此段落以上的内容是题干，此段落及其以下的内容是选项。

此外，本发明还提供一种基于数字化编码的题型识别系统，如图7所示，该系统包括编码模块、匹配模块、预处理模块和构建模块。

具体的，该编码模块用于将试题的题型特征进行数字化编码，生成该试题的题型编码；

该匹配模块用于将待识别试题的题型编码与样题题型编码进行匹配，实现题型识别；

该构建模块用于构建题型样题特征库，题型样题特征库包括多个样题和样题属性信息，其中，样题属性信息包括所属学科、所属题型名称及其生成的题型编码。

可选地，该构建模块还包括子构建模块，该子构建模块用于构建试题信息特征库，试题信息特征库包括各科多个样本试卷和试题特征信息，其中，试题特征信息包括试题序号特征信息和试题导语特征信息；

可选地，该系统还包括输入模块，用于输入待识别试题集和试卷；

可选地，该系统还包括输出模块，用于将所识别的试题题型输出至人机交互界面例如电脑显示屏，以及保存至相应的试题属性文件中等。

本发明还公开了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施案例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数字化编码的题型识别方法，其特征在于，该方法包括：

对试题序号进行识别并标识；对试题导语进行识别并标识；并结合试题序号和导语的关系，将试卷中的试题进行分割，并对试题的结构进行标识；

将试题的题型特征进行数字化编码，生成该试题的题型编码；所述题型编码是根据试题结构特征、以及各结构对应的内容表现特征生成的统一规范性编码；

将待识别试题的题型编码与样题题型编码进行匹配，实现题型识别，所述匹配包括结构特征匹配：从样题题型编码集中筛选出与待识别试题的结构特征编码相同，且顺序一致的题型编码，根据筛选出的样题题型编码确定试题题型；在结构特征匹配后，进行结构内容特征匹配，具体为：依次将待识别题型编码与筛选出的样题题型编码集的各编码进行结构内容特征编码匹配，匹配度由内容表现特征的相似程度确定；选择匹配度最高值M_max与阈值M₀比较：

2.根据权利要求1所述的一种基于数字化编码的题型识别方法，其特征在于，所述结构特征的编码按照各结构在试题中出现的顺序有序表示；

所述各结构对应的内容表现特征的编码紧跟其对应的结构特征编码之后，且各类内容表现特征按顺序编码。

3.根据权利要求1所述的一种基于数字化编码的题型识别方法，其特征在于，收集各学科各题型的试题样题，生成样题题型编码，构建题型样题特征库，所述题型样题特征库包括多个样题和样题属性信息，其中，所述样题属性信息包括所属学科、所属题型名称及其生成的题型编码。

4.根据权利要求1所述的一种基于数字化编码的题型识别方法，其特征在于，在结构特征匹配前，基于该试题导语的题型范围筛选出该试题对应的题型范围，并获取对应题型的样题题型编码集。

5.一种基于数字化编码的题型识别系统，其特征在于，包括编码模块和匹配模块；所述编码模块用于将试题的题型特征进行数字化编码，生成该试题的题型编码；所述匹配模块用于将待识别试题的题型编码与样题题型编码进行匹配，实现题型识别，所述匹配包括结构特征匹配：从样题题型编码集中筛选出与待识别试题的结构特征编码相同，且顺序一致的题型编码，根据筛选出的样题题型编码确定试题题型；在结构特征匹配后，进行结构内容特征匹配，具体为：依次将待识别题型编码与筛选出的样题题型编码集的各编码进行结构内容特征编码匹配，匹配度由内容表现特征的相似程度确定；选择匹配度最高值M_max与阈值M₀比较：

若M_max＜M₀，则匹配失败，将此待识别试题及其题型编码作为样题数据；

该系统还包括预处理模块和构建模块；

所述预处理模块用于对试题序号进行识别并标识；对试题导语进行识别并标识；并结合试题序号和导语的关系，将试卷中的试题进行分割，并对试题的结构进行标识；

所述构建模块用于构建题型样题特征库，所述题型样题特征库包括多个样题和样题属性信息，其中，所述样题属性信息包括所属学科、所属题型名称及其生成的题型编码。