CN110781672B

CN110781672B - 基于机器智能的题库生产方法及系统

Info

Publication number: CN110781672B
Application number: CN201911042467.1A
Authority: CN
Inventors: 周云; 须佶成; 李川; 刘岩; 雷光化; 任悦超
Original assignee: Beijing Aixuexi Bole Education Technology Co ltd
Current assignee: Beijing Aixuexi Bole Education Technology Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2024-01-30
Anticipated expiration: 2039-10-30
Also published as: CN110781672A

Abstract

本发明提供了一种基于机器智能的题库生产方法及系统。所述方法包括：通过版本还原技术，将试卷的图像文件转换为word文件；通过自动识别技术，由所述word文件中识别出所述试卷中试题的层次结构；通过BERT模型，提取所述层次结构中蕴含的知识点。本发明提供的基于机器智能的题库生产方法及系统大幅提高了题库生产线的效率，降低了人工成本，提高了自动化规模。

Description

基于机器智能的题库生产方法及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于机器智能的题库生产方法及系统。

背景技术

在在线教育企业，教研老师们生产题目的过程中，基本都是依靠人工录入题目。人工录入题目需要教研老师对不同渠道得到的试卷，题目照片，文档等通过系统进行录入。每到生产季，需要大量的教研人员来进行题目的录入工作。导致每道题目的录入人力成本很高，同时存在录入失误的情况。为了降低人为录入失误的风险，还需要投入人力对题目进行逐道审核。题目录入的方式与可靠性，对教育企业的生产成本和生产时间有着较大的影响。

设计一套可以自动化识别图片，文档并且可以智能录题的系统，是在线教育企业的必然需求。

目前的采用word插件的形式提供了两种处理方式：第一种是使用word作为编辑器为网页提供富文本编辑，这种方式类似常见的富文本网页编辑器，如文本，图像，公式等需要逐个剪贴，细粒度的操作频次很高，并且会导致学科大量的知识资产以word的形式存放；第二种是批量导入试题功能，需要人工按照规定的格式准备好文档，再进行试题的导入。

这两种处理方式在人工录入的基础上有了一定的优化，可以提高教研人员试题录入的效率，相对降低录题的人工成本，可以基本满足目前的需求。

目前处理方式在原始人工录题的基础上有了一定的优化，但是也存在着不少的问题。

首先，word插件的运行环境为windows+word2016+mathtype，软件对环境的要求比较高，同时也无法支持很多使用WPS的用户，以及非Windows的PC如OSX系统。其次，对于单题录入的富文本编辑器来说，文本，图像，公式都需要逐个剪贴，细颗粒度的操作频次很高，操作繁琐。最后，对于批量导入试题的功能，还是需要人工预先将文档打好标签，不能脱离人工的操作。

发明内容

本发明要解决的技术问题是提供一种基于机器智能的题库生产方法及系统，从而大幅提高了题库生产线的效率，降低了人工成本，提高了自动化规模。

为解决上述技术问题，本发明提供了一种基于机器智能的题库生产方法，所述方法包括：通过版本还原技术，将试卷的图像文件转换为word文件；通过自动识别技术，由所述word文件中识别出所述试卷中试题的层次结构；通过BERT模型，提取所述层次结构中蕴含的知识点。

在一些实施方式中，通过版本还原技术，将试卷的图像文件转换为word文件，包括：对所述图像文件进行预处理；对预处理后的图像文件进行检测、识别；对检测、识别得到的结果进行后处理。

在一些实施方式中，所述预处理包括：双栏分割、旋转校正、大小调整。

在一些实施方式中，对检测、识别得到的结果进行后处理，包括：根据检测的坐标信息合并识别的文本、Latex公式及图表。

在一些实施方式中，通过自动识别技术，由所述word文件中识别出所述试卷中试题的层次结构，包括：将word文档转换为T语言文件；将T语言文件输入至Antlr解析模块，获得语法树，所述语法树表示试卷中试题的层次结构；通过遍历语法树，获得试题集的业务对象json数据结构。

在一些实施方式中，所述BERT模型包括：双向Transformer的编码器。

在一些实施方式中，所述双向Transformer的编码器包括：多头注意力机制层，以及前馈网络层。

在一些实施方式中，所述多头注意力机制层执行如下操作：从每个编码器的输入向量中生成查询向量、键向量、值向量；通过查询向量分别与其他所有单词的键向量进行点积计算，得到其他单词对当前单词的打分；对点积进行缩放处理；采用softmax进行归一化处理；通过多头注意力机制，计算注意力值。

在一些实施方式中，通过多头注意力机制，计算注意力值，包括：根据如下公式，计算注意力值：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W⁰

其中，head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)， h表示head的数量，d_q、d_k、d_v分别表示查询向量，键向量和值向量的维度。

此外，本发明还提供了一种基于机器智能的题库生产系统，所述系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现前文所述的基于机器智能的题库生产方法。

采用这样的设计后，本发明至少具有以下优点：

由于新技术的应用与针对流程的优化设计，我们大幅提高了题库生产线的效率，降低了人工成本，提高了自动化规模，整条生产流程上均可受益。

在试题还原上，通过版本还原技术，不再需要人工对纸质试卷，试卷照片的录入，直接通过拍照即可，节省了大量时间。

在试题的批量导入上，通过word自动识别技术，减少了人工的参与，输入word由版本还原技术保证了较高的准确率，提高了自动化水准。

在知识点的预测上，目前初中数学目录预测精度约为95.4％，在目录预测这一环节加速20倍，在知识点标注上整体节省人工标注时间50％以上。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是本发明实施例提供的基于机器智能的题库生产方法的流程图；

图2是本发明实施例提供的版本还原的流程图；

图3是本发明实施例提供的Word自动识别的流程图；

图4A是本发明实施例提供的BERT模型训练过程的流程图；

图4B是本发明实施例提供的BERT模型分类预测过程的流程图；

图5是本发明实施例提供的BERT模型的结构图；

图6是本发明实施例提供的BERT模型的输入数据的示意图；

图7是本发明实施例提供的Transformer编码器的结构图；

图8是本发明实施例提供的自注意力机制的流程示意图；

图9是本发明实施例提供的多头注意力机制的流程示意图；

图10是本发明实施例提供的基于机器智能的题库生产系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明依赖版本还原技术、Word自动识别技术及智能推荐技术的应用，配合现有系统流程实现自动化的题库生产线系统。

参见图1，本发明提供的基于机器智能的题库生产方法包括如下步骤：S11，用户上传试卷图片；S12，版本还原技术；S13，生成试题word文档；S14，word自动识别；S15，题库生产线后台处理；S16，智能推荐难度；S17，审核；S18，入库。其中，操作步骤S12、S14及S16是本发明算法实现的关键步骤。

版面还原的流程由是三个重要部分组成：预处理，检测与识别，后处理。其输入是试卷、课件等资源的图像或者pdf文件，最终生成它们对应的word文档，整个过程参见图2所示。

具体的讲，首先，通过预处理我们会得到比较规范的文档的图像文件。如果输入的文件格式是pdf，我们第一步会将pdf转化成对应的图像文件。预处理的第二步是判断输入数据是否为双栏，如果是双栏的话我们会将其切割成两个单栏的图像文件。第三步则是对旋转的输入图像进行旋转矫正，矫正阈值为旋转角度大于6度。最后通过resize，二值化等图像操作得到一个比较规范的单栏图像。

然后我们会对得到的预处理图片进行文字，公式，图表的检测和识别。首先这个图像会并行输入到自行研发的OCR文字检测引擎以及公式、图表检测引擎。得到两个模型的检测结果后，我们根据检测结果对文字检测结果进行过滤和矫正，如过滤掉通用文字检测引擎误检的公式区域等，最终我们将矫正之后的文字区域送入通用文字识别引擎并得到其对应的文字文本。而我们的检测引擎会同时得到试卷中的公式和图表的位置信息，其中公式区域会送到公式识别引擎中得到公式对应的Latex公式，而图表区域会经过进一步预处理得到低噪的图像文件。

最后我们会根据检测的坐标信息合并识别的文本，识别的Latex公式以及检测的图表文件并得到文本格式的tex文件。最后通过pandoc直接将tex文件转换为最终的word文件。

参见图2，在自动识别过程中，文字、图表与公式是分别进行检测的。最后将分别检测得到的文字、图表与公式进行合并，得到tex文件，并最终转换为word文件。

Word自动识别技术无需人工打标签，通过自动识别常见的试题文档，大大的降低人工工作量，同时作为一个服务，也降低了部署和技术支持的成本，扩大了用户的范围，可以支持原WPS，OSX的用户。

参见图3，本发明技术方案中的自动识别技术过程关键如下：

1.WordParser模块接收word文档(如果不是word文档，比如wps文档，可以考虑一个前置模块或用户自己先转成word文档)，提取Tidocx(简称T语言)文档。Word文档被看作List<Paragraph>,Tidocx文档则是T语言的语句集List<Statement>。每个段落由T语言对应的一条语句描述，每个语句包含了结构化的段落样式和文本信息。Tidocx用于描述试卷的层次结构。Tidocx由Antlr4(www.antlr.org)定义语法。

2.T语言文件输入进Antlr Parser模块获得语法树(AST)，从而获得试卷和试题的层次结构。

3.BOParser模块通过遍历语法树，获得试题集的业务对象json数据结构。

该自动识别技术的关键改进点在于：

1.为了提升准确率，3个Parser环节都可以优化提升；2.通过遍历语法树，获得一份机器初始生成的简化的试卷结构描述；3.机器生成的简化的试卷结构描述通过人工校对形成标准的试卷结构描述；4.后续每次改进parser模块和T语言定义，用机器生成试卷结构描述，并和人工校对过的标准的试卷结构描述进行比对，计算召回率和准确率；5.多个测试样本，计算平均召回率和准确率；6.根据召回率和准确率的变化来优化算法。

在知识点预测算法上我们采用BERT模型来完成知识点的预测任务。BERT模型是一种自编码模型，可以有效地提取上下文的语义信息，并且采用了注意力机制，避免了长距离依赖等问题。

(1)模块设计

知识点预测算法基于机器学习算法，采用了大规模预训练+任务微调的方式。目前Google开放的BERT预训练模型有两个版本：BERT-base(L＝12，H＝768，A＝12)和BERT-large(L＝24，H＝1024，A＝16)。我们选取BERT-large预训练模型，并在此基础上进行知识点预测任务的微调。知识点预测算法分为模型训练和预测两个阶段。训练阶段流程如图4A所示。分类预测过程如图4B所示。

(2)BERT模型

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder。BERT分为两个阶段，分别为大规模语料的预训练阶段和微调阶段。BERT的结构请参见图5。

在预训练阶段，BERT采用了Masked LM和Next Sentence Prediction两种方法来对无监督预料进行预训练来捕捉词语和句子级别的representation。

Masked LM，也就是随机去掉句子中15％的token。模型通过上下文来预测被Mask的token。论文考虑到微调阶段是没有Mask token的，采用Masked LM会导致预训练阶段和微调阶段的不匹配问题。因此模型对每个Mask的token采取如下方案：80％的概率用[MASK]token来代替；10％的概率用任意的词来进行代替；10％的概率不发生变化。Next SentencePrediction为分类任务，即为判断输入的两句话是否为上下句的关系。

请参见图6，BERT的输入由token词嵌入，段落嵌入以及位置嵌入(token的位置信息)三部分的和构成，中间经过多层基于自注意力机制的编码器进行上下文特征提取，来对Masked token进行预测。

为了适用于不同的任务，需要在大规模语料训练好的模型基础上进行微调，在初中数学知识点预测算法中，模型的输入为初中数学题的题干、解析等文本，输出是该题所属的知识点。对于sequence-level的分类任务，BERT直接取第一个[CLS]token的finalhidden state在之后加一层权重/>通过softmax计算相应的类别概率，其中P＝softmax(CW^T)，取最大概率的类别作为输出。

(3)Transformer编码器

BERT采用了双向Transformer的编码器部分，下面对Transformer编码器进行介绍。

参见图7，Transformer编码部分由多层编码器堆叠而成。对于每一个编码器则又可以分为两层，第一层为多头注意力机制层，第二层为前馈网络层。在每个编码器中的每个子层(自注意力、前馈网络)的周围都有一个残差连接，并且都跟随着一个“层-归一化”步骤。所有的编码器在结构上都是相同的，但它们没有共享参数。

Transformer编码器采用了缩放点积自注意力机制，如图8所示。

计算自注意力的第一步就是从每个编码器的输入向量(每个单词的词向量)中生成三个向量。也就是说对于每个单词，创造一个查询向量q、一个键向量k和一个值向量v。这三个向量是通过词嵌入与三个权重矩阵后相乘创建的。

对于单词token_i，通过查询向量分别于其他所有token的键向量进行点积计算，得到其他token对token_i的打分，这些分数决定了在编码单词token_i的过程中有多重视句子的其它部分。

为了使得模型在训练的时候梯度稳定，需要对点积进行缩放处理，即q·K^T中每个元素除以其中d_k为键向量的维度。接着采用softmax进行归一化处理。这个softmax分数决定了每个单词对编码当下位置token_i的贡献。然后每个token值向量v乘以softmax分数并进行求和得到token_i经过自注意力层的输出。对于全部token，自注意力的矩阵运算形式如下：

在缩放点积自注意力机制的基础上，Transformer编码器进一步扩展为多头注意力机制。

参见图9，多头注意力(multi-headed attention)的机制进一步完善了自注意力层，并在两方面提高了注意力层的性能：首先它扩展了模型专注于不同位置的能力，其次它给出了注意力层的多个“表示子空间”(representation subspaces)。接下来我们将看到，对于“多头”注意机制，我们有多个查询/键/值权重矩阵集(Transformer使用八个注意力头，因此我们对于每个编码器/解码器有八个矩阵集合)。这些集合中的每一个都是随机初始化的，在训练之后，每个集合都被用来将输入词嵌入(或来自较低编码器/解码器的向量)投影到不同的表示子空间中。

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W⁰

其中，headi＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)， h表示head的数量，d_q、d_k、d_v分别表示查询向量，键向量和值向量的维度。

图10示出了本发明基于机器智能的题库生产系统的结构图。参见图10，基于机器智能的题库生产系统包括：中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU 1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种基于机器智能的题库生产方法，其特征在于，包括：

通过版本还原技术，将试卷的图像文件转换为word文件；

通过自动识别技术，由所述word文件中识别出所述试卷中试题的层次结构；

通过BERT模型，提取所述层次结构中蕴含的知识点；所述BERT模型包括：双向Transformer的编码器；

所述通过自动识别技术，由所述word文件中识别出所述试卷中试题的层次结构，包括：

将word文档转换为T语言文档；T语言文档是T语言的语句集，每个段落由T语言对应的一条语句描述，每个语句包含了结构化的段落样式和文本信息，T语言文档用于描述试卷的层次结构；T语言文档由Antlr4定义语法；

将T语言文档输入至Antlr解析模块，获得语法树，所述语法树表示试卷中试题的层次结构；

通过遍历语法树，获得试题集的业务对象json数据结构。

2.根据权利要求1所述的基于机器智能的题库生产方法，其特征在于，通过版本还原技术，将试卷的图像文件转换为word文件，包括：

对所述图像文件进行预处理；

对预处理后的图像文件进行检测、识别；

对检测、识别得到的结果进行后处理。

3.根据权利要求2所述的基于机器智能的题库生产方法，其特征在于，所述预处理包括：双栏分割、旋转校正、大小调整。

4.根据权利要求2所述的基于机器智能的题库生产方法，其特征在于，对检测、识别得到的结果进行后处理，包括：

根据检测的坐标信息合并识别的文本、Latex公式及图表。

5.根据权利要求1所述的基于机器智能的题库生产方法，其特征在于，所述双向Transformer的编码器包括：多头注意力机制层，以及前馈网络层。

6.根据权利要求5所述的基于机器智能的题库生产方法，其特征在于，所述多头注意力机制层执行如下操作：

从每个编码器的输入向量中生成查询向量、键向量、值向量；

通过查询向量分别与其他所有单词的键向量进行点积计算，得到其他单词对当前单词的打分；

对点积进行缩放处理；

采用softmax进行归一化处理；

通过多头注意力机制，计算注意力值。

7.根据权利要求6所述的基于机器智能的题库生产方法，其特征在于，通过多头注意力机制，计算注意力值，包括：

根据如下公式，计算注意力值：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W⁰

8.一种基于机器智能的题库生产系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至7任意一项所述的基于机器智能的题库生产方法。