CN103500216B

CN103500216B - 一种文件信息的提取方法

Info

Publication number: CN103500216B
Application number: CN201310462931.9A
Authority: CN
Inventors: 李冬梅; 覃延; 陈志泊
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2017-02-15
Anticipated expiration: 2033-09-30
Also published as: CN103500216A

Abstract

本发明提供一种文件信息的提取方法，包括：依次以段落方式获取文件信息；查找所述段落内是否包括至少一个标识字符；如果查找到所述标识字符，则将所述段落作为信息块的起始段。通过对文件信息的所述至少一个标识符进行识别，能够快速而准确从文件信息中切割出需要的信息块。因为不需要对文件内容中的公式、表格和/或图片等信息进行识别，所以该方法还适用于包含公式等信息的文件，扩大了该方法的适用范围。本方法结合支持向量机和浅层句法分析，在进行初步识别之后，还可对错误结果进行修正，提高了识别的正确率。

Description

一种文件信息的提取方法

技术领域

本发明涉及信息识别技术领域，具体地讲，本发明涉及一种文件信息的提取方法。

背景技术

由于互联网的普及发展，现在可以从互联网上查找大量的信息，通过利用查找的信息自动构建一个满足要求的信息库,可使建立信息库的工作更加自动化。这种方法尤其适合试卷信息的处理。如何将大量的试卷信息进行识别，并利用识别后的试题信息自动完成试题库的初始化工作，是试题库系统建设中的一个关键步骤，也是计算机辅助教学中一个重要的研究课题。

传统的试题库构建工作是通过人工手动操作，将试题依次录入到数据库中。这种方法浪费人力资源，效率低下，并且在录入过程中容易出现差错。目前有关试题库的自动构建主要有以下三种代表性的方法。

第一种，基于开源语法分析器(Another Tool for Language Recognition，ANTLR)的试卷识别方法。该方法利用语言识别工具ANTLR构造出词法、语法分析器。通过将试卷内容作为源代码，利用词法、语法、语义分析来对试卷文本进行验证和识别，生成试卷的抽象语法树，并在树遍历过程中报告出相应的语法、语义错误，生成试卷模型。虽然这种方法相对于传统的试卷识别方法（人工手动录入）提高了工作效率，但是，这种方法由于将试卷中内容看成源代码，因此只能针对不含公式、表格和/或图片的纯文本形式的试卷。并且进行试卷识别前，需要一定的人工预处理。

第二种，基于自动机的试卷识别方法。该方法利用浅层句法分析的原理构建自动机的模型，即根据系统预先定义的识别规则，利用语块识别程序，对大规模试卷文本进行识别，查找试卷文本结构及各试卷中试题的属性，依次将识别的各属性值实时写入数据库，完成试题库的初始化工作。但这种方法只能识别纯文本信息的试卷，仍然无法识别包含图片、公式等信息内容的非纯文本格式的试卷，并且还需要一定的人工预处理工作，例如需要将试卷格式设为系统规定的格式。并且由于自动机是根据事先设定的规则进行识别，因此在试卷识别时，需要对试题的开始位置、结束位置或分值、答案的位置等进行特殊标识。

第三种，基于支持向量机的试卷识别方法。该方法将试题文本进行向量化，求解试卷特征字符的向量划分，然后依据此划分对试卷文本块进行识别。该方法可以实现非纯文本文件的识别，但识别结果存在一定的误差，且目前只实现了选择题题型的处理，不具有通用性。

如何实现对以试卷信息为代表的文件信息的自动快速提取，是一个亟待解决的问题。

发明内容

有鉴于此，本发明的主要目的是提供一种文件信息的提取方法，该方法包括：依次以段落方式获取文件信息；查找所述段落内是否包括至少一个标识字符；如果查找到所述标识字符，则将所述段落作为信息块的起始段。

其中，所述提取方法还包括：在查找所述至少一个标识字符之前，先获取所述段落的特征值；其中，所述查找所述段落内是否包括至少一个标识字符包括根据预设的第一规则和所述特征值的位置，查找所述段落内的至少一个标识字符。

其中，所述根据预设的第一规则和所述特征值的位置，查找所述段落内的至少一个标识字符之后还包括：根据预设的第二规则，对所述至少一个标识字符进行判断；如果所述至少一个标识字符符合所述第二规则，则确定所述至少一个标识字符为正确标识字符，否则，确定所述至少一个标识字符为错误标识字符。

其中，所述信息块内容包括公式、表格和/或图片的内容信息。

其中，所述文件信息存储为Word文件。

其中，所述文件信息为试卷信息，所述至少一个标识字符为所述试卷内的题序号。

其中，所述方法还包括：在查找所述段落内的至少一个题序号之前，先获取所述段落的题型信息；其中，所述查找所述段落内是否包括至少一个题序号包括根据预设的第一规则和所述题型信息的位置，查找所述段落内的至少一个题序号。

其中，所述根据预设的第一规则和所述题型信息的位置，查找所述段落内的至少一个题序号之后还包括：根据预设的第二规则，对所述至少一个题序号进行判断；如果所述至少一个题序号符合所述第二规则，则确定所述题序号为正确题序号，否则，确定所述题序号为错误的题序号。

其中，所述第一规则利用支持向量机原理。

其中，所述第二规则利用浅层句法分析原理。

通过对文件信息的所述至少一个标识符进行识别，能够快速而准确从文件信息中切割出需要的信息块。因为不需要对文件内容中的公式、表格和/或图片等信息进行识别，所以该方法还适用于包含公式等信息的文件，扩大了该方法的适用范围。本方法结合支持向量机和浅层句法分析，在进行初步识别之后，还可对错误结果进行修正，提高了识别的正确率。

该方法针对大量的Word试卷信息，通过识别试卷信息中的题序号，能够快速准确地从试卷信息中切割出需要试题的题干信息，提高了建立试题库的速度。由于只需要对试卷信息中的题型信息以及题序号进行识别，因此试题的信息可包括公式等非纯文本信息，使试题库的建立更加便捷高效。本方法结合支持向量机和浅层句法分析，在对题序号进行初步识别之后，还可对错误的识别结果进行修正，提高了题序号识别的正确率。

附图说明

图1为本发明提供的一种文件信息的提取方法实施例的流程示意图；

图2为图1所示实施例的具体示例的流程图；

图3为本发明实施例中利用第一规则进行识别的识别结果示意图；

图4为本发明实施例中利用第二规则构建自动机的识别状态示意图；

图5为本发明实施例中利用第二规则进行识别的识别结果示意图。

具体实施方式

下面将结合附图，对本发明的实施例进行详细的说明。

本实施例以Word试卷信息为示例说明本发明提供的信息提取方法，本发明的方法适用的文件信息是信息内容的首部包括标识字符的任何文件信息，标识字符包括各种纯文本信息，不止局限于数字信息。另外，由于不需要对文件信息内容中的公式、表格和/或图片等信息进行识别，所述Word试卷信息中可包括公式、表格和/或图片的内容信息。

参见图1和图2，该方法包括以下步骤：

101：依次以段落方式获取文件信息；

通常Word试卷信息是由标题、题型以及试题信息组成，标题用于描述试题性质的信息，例如某年级某阶段某科目的考试题目等信息。题型用于描述试题的类别信息，试题的类别信息可包括选择题、填空题、简答题等题型，试题部分可分为题序号和题干信息。利用本发明提供的方法，将Word试卷中的题干信息提取出来，并依次将它们存入数据库。

102：查找所述段落内的至少一个标识字符；

本方法是以段落为单位，进行识别提取的，通过依次读取Word文件信息段落并定位出该段落信息中用数字和/或字符表示的题序号，通过该试题的题序号及其下一试题的题序号可定位出该试题在Word中的起始位置，从而将Word试卷信息进行了分类，由此提取出试题信息，即完成了Word试卷信息的提取。

由于本发明提供的方法只需识别出题序号，因此识别信息较少，使试题的信息识别更加简便快速。

本发明方法适用于在首部包括有标识字符的文件信息，通过对文件信息中表示特殊意义字符（标识字符）的定位，即可找到所需要的信息，完成对该文件信息的识别提取。例如，标识字符为文件信息中的各条信息前的标号，该标识字符可为数字、字母或其他设置的文本信息以及这些信息的组合，在本示例中为试题前的序号，即题序号。

优选地，通过将题型信息（特征值）与该段落内容进行匹配，找到可以匹配的题型信息，该题型信息即为该段落的特征值，通过找到段落中的题型信息位置，就可以定位首个题序号的位置，例如，在题型信息后面，紧接着的试题1，其中数字1即是题序号，题型信息可以包括选择题、填空题、简答题等各种题型，在文件信息中，其可以为预先设置的各种特征值，例如，特征值为“对汽车尾气处理意见如下：”，而下面紧随的各条意见首部字符，例如，为数字，字符及/或其组合即是该段落的标识字符。

本发明提供的方法仅需找到这些标识字符，即可完成信息的识别。本示例利用支持向量机（Support Vector Machine，SVM）构建超平面对样本集进行分类，得到段落中的题序号，将待识别的试卷中的内容分为两大类——题序号和题干，利用SVM的原理识别出题序号和题干。

为了便于描述本发明，给出了如下定义：

题序号QN：Word试题中标志着每题起点的数字

题干中的数字NQ：出现在试题题目中的数字。

标杆符号P：位于每个题型下第一个题题序号右边的一个元素。

已知训练样本K：由每个题型下第一个题序号以及其P组成。

未知样本UK：由试卷中NQ组成。

判别符号T：于每个题型下第一个题题序号左边的所有元素。

上下文题序号：识别出的上一道题的题序号，S∈K|S∈UK。

采用六元组来描述样本

TN＝{x,y,value,sentence,index,digit}，

其中：TN代表试卷中的训练样本，

x表示TN在Word试卷中的相对向量；

y表示TN所属类别，如果TN属于QN，则y=1，否则y=-1,

Value表示TN的值；

Sentence表示TN所在的段落；

index表示TN位于Sentence的位置；

digit表示TN的位数，如果TN是数字，则digit是该数字的位数，如果不是，则是1。

其中，为了样本的定位，需要确定出x的向量，因此在进行识别前需要确认坐标原点，由于Microsoft Office Word中不含有坐标系，为了求得试卷中内容的坐标，采用.Net技术提供的函数，分别求出试卷内容相对于Word文档左上角的横纵坐标，即将Word页的左上角页面视为坐标原点。

同理，对文件信息的标识字符可以利用各种已知的方法获得标识字符的向量坐标，也可编写函数求得标识字符的向量坐标。

SVM可以由已知的训练样本集，建立一个超平面，该平面能够将训练集分类并且对于新的样本输入，可由决策函数判断其所属类别。

利用下面公式对未知样本进行训练，以确定样本的分类，从而得到标识字符，即Word试卷的题序号。

(公式1）

由于不同题型下，题序号的表示形式可能不同，因此，本系统采用以不同题型为一个识别单位，即遇到新题型或者到达试卷结尾时，对上一种题型中的内容进行识别。有些时候可能一种题型下面只含有1个数字，因此，我们只需解决2个变量的最优化问题即可，即求解α₁和α₂的值的值。

在进行试卷识别之前，系统需要对SMO算法中的一些参数进行预设定。在此，需要设定的参数有C、tol和Maxpasses。其中C是惩罚参数，tol是容忍极限值，Maxpasses是迭代次数。

由于已知训练集中只含有两个已知量，迭代次数Maxpasses的值选取2就足够。tol是误差能够容忍的范围，选取过大达不到预期效果，这里选择0.01。C表明对这个点的舍弃值，C越大表明越不想放弃这个点、边界缩小，而题序号和题干之间的距离小，通过测试发现当C达到某一数值后对识别结果没有影响，因此，C选取1。

其识别规则（第一规则）定义如下：

（1）记录每个题型下所有数字以及第一题右边元素的位置。其中，令第一题题序号QN的决策函数f(x)值为1，令该题右边元素P的决策函数f(x)值为-1，它们为K，其余数字只记录其坐标，作为UK。

（2）利用系统产生的随机数初始化向量权重α_i，并计算偏移b。

（3）初始化误差项

E_i＝f(x_i)-y_i (公式2)

其中

(公式3)

（4）选取向量α₁和α₂作为需要调整的点。

（5）判断α₁和α₂是否满足KKT条件如果不满足条件则转向（2），如果满足条件中的一个，则说明该α_*需要更新。这里假设需要更新的点为α₂，则

(公式4)

其中

η＝K(x₁,x₁)+K(x₂,x₂)-2K(x₁,x₂) (公式5)

（6）其中

(公式6)

（7）令

(公式7)

（8）利用更新的和的值修改E_i和b的值。

（9）如果达到终止条件即达到设置的迭代次数Maxpasses，则算法停止，否则转向（3）。

（10）根据上面求出的α^*和b^*值，可以得到决策函数见公式1。

（11）将决策函数的值为1的数字标记为用框框中的数字。

其中，公式1中X值的大小选取对分类结果有很大的影响。如果X值过大，则会导致SVM的识别结果出现过多的误分点，会使得较多的点进行自动机的识别，影响系统的运行速度。但如果X值过小则当出现格式不标准的试卷时，将不能对其中的题序号进行正确的识别，从而影响系统识别的正确率。

为了找到最优的X值，我们以陈守孔等人编写，由机械工业出版社出版的图书《算法与数据结构考研试题精析(第2版)》电子版中的试题作为测试样本。其中，选择题318道，填空题335道，判断题232道，应用题450道，算法设计题226道，总计1561道题。采用2个指标对X值的选取进行测试：准确率(P)，召回率(R)。

表1记录了SVM对Word试卷识别的准确率和召回率以及自动机对SVM识别结果进行分析识别的准确率和召回率。其中，P₁表示SVM识别的准确率，R₁表示SVM识别的召回率，P₂表示自动机识别的准确率，R₂表示SVM识别的准确率。

从表1可以看出，当X值选取b的时候，准确率最高。这是因为该电子书的试卷格式是标准试卷格式，即所有题序号都在一条直线上，但是如果出现了格式不标准的试卷，题序号并不在一条直线上时，就会导致一部分题目无法识别。所以，为了确保也能识别这种情况的试卷，我们X值选取

表1

通过上述步骤，将该段落中出现的数字作为样本，得到该段落的标识字符，即Word试卷的题序号，参见图3。

经过上述步骤，可以判断出哪些数字（标识字符）是题序号，哪些是题干中的数字。根据识别出的题序号，将题序号后面的题干部分提取出来，进行相应的处理，例如，入库或分类等。

参见图3，图中用框框中的数字都是利用第一规则识别出的题序号。除了将题序号正确识别之外，还将判断题第一题题干部分的数字12也错误的识别为题序号。

由此，可见经过上述步骤快速识别了试题的题序号以及题干，但是出现了识别误差，本发明通过下述方法，使题序号和题干的识别更加准确。

更优选地，步骤102之后还包括：

103：根据预设的第二规则，对所述至少一个标识字符进行判断；如果所述至少一个标识字符符合所述第二规则，则确定所述至少一个标识字符为正确标识字符，否则，确定所述至少一个标识字符为错误标识字符。

对所述至少一个标识字符进行判断，可通过对将标识字符的判断值进行赋值来表示判断结果，例如用1来表示正确标识字符（题序号），用0来表示错误标识字符（题序号）。

本方法还利用浅层句法分析建立自动机模型，将SVM识别的结果进行再一次分析和识别，如果发现识别出错，则对其进行改正。

在本发明的方法中，由于将第一题的题序号作为已知训练集中的元素，因此，对于它的识别分类是不会出现差错，因此利用浅层句法分析，通过预先设定的第二规则，对识别出的题序号（标识字符）进行判断，以使识别效果更加准确。

第二规则可设定为：

通过判断数字后面的元素是否与第一题题序号后面的元素相等来确定该数字是否属于题序号，如果相同则说明该QN中的数字分类正确，即为试题的题序号，如果不同就需要对该QN中的数字进行上下文的判断；

判断该数字是否接续该数字前面的题序号，即该数字是否等于上一个题序号加1，如果不是，则确定该数字不是题序号，如果是，并不能确定该数字是题序号，还需对该数字左边的字符进行判断；

如果该数字等于上一个题序号加1，则判断该数字左边的字符是否与第一个题题序号左边的所有元素相同，如果相同，则说明该数字为题序号，否则该数字不是题序号，修改错误分类，即将QN改为NQ，即在本示例中，将标识符号的判断值为1表示为该数字（标识字符）是题序号（标示符），将标识符号的判断值为0表示为该数字（标识字符）是题干中出现的数字（标示符），即不是题序号或标示符；

利用上述第二规则构建的自动机，参见图4，现对自动机中的状态进行相应的说明：

（1）起始状态G：识别的起始状态，所有经过SVM识别为QN的数字都将作为自动机的输入进入该状态。在状态G下，系统会判断当前QN的P是否与第一题的P相同，如果相同则说明该QN的分类无误，如果不同就需要对该QN进行上下文的判断。

（2）判断上下文状态A：系统会判断QN是否符合上下文条件，如果不满足，则可以说明QN的识别有误，如果符合并不能说明QN的分类无误，还需进行更进一步的识别分析。

（3）元素判断B：系统会判断当前QN的T是否与第一题QN的T相等，如果相同则说明该QN的分类无误，否则说明有误。

（4）错误分类状态E：如果被状态A和状态B判断为分类有误的QN都将进入该状态，该状态会对错误的分类进行改正，即将QN改为NQ。

（5）结束状态D：所有分类正确的QN都将进入该状态，结束对该QN的识别分析。

经过自动机对SVM的识别结果进行识别分析处理过后的结果，如图5所示，图中用框框中了识别出的题序号。即，利用第二规则，对上述找到的题序号（标识字符）进行判断，从而排除了出现在题干中的数字，得到了正确的题序号，可见，利用第二规则进行识别后，使题序号的识别的正确率达到100%。

虽然本示例以Word文件为示例，但显而易见，本发明的方法适用于包含具有特定意义的标识字符的文件信息，例如对.TXT文件，只要文件信息中包含有标识字符，也可以利用本发明的方法对标识字符进行识别，以对文件信息的标识字符以及其后的信息进行区分。

104：提取标识字符后面的信息块。

如果查找到所述标识字符，则将所述段落作为信息块的起始段，即提取所述标识字符后面直到下一个题序号的信息块内容。

在本实施例中题干信息即为所需提取的信息块信息，如果文件信息没有到结尾处，所需提取的信息块信息（题干信息）即为该题序号到下一个题序号之间的信息块内容。

通过识别出的标识字符，找到需要提取的文件信息，提取该信息内容，并利用所提取的信息内容建立信息库。

该方法针对大量的Word试卷信息，通过识别试卷信息中的题序号，能够快速准确地从试卷信息中切割出需要试题的题干信息，提高了建立试题库的速度，而不需要对整个试卷中的所有信息内容进行识别，使信息的提取更加快速，简便。由于只需要对试卷信息中的题型信息以及题序号进行识别，因此试题的信息可包括公式等非纯文本信息，使试题库的建立更加便捷高效。本方法结合支持向量机和浅层句法分析，在对题序号进行初步识别之后，还可对错误的识别结果进行修正，提高了题序号识别的正确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文件信息的提取方法，其特征在于，该方法包括：

依次以段落方式获取文件信息；

查找所述段落内是否包括至少一个标识字符；

如果查找到所述标识字符，则将所述段落作为信息块的起始段；

在查找所述至少一个标识字符之前，先获取所述段落的特征值；以及

根据所述至少一个标识符进行识别，从文件信息中切割出所述信息块，

其中，所述查找所述段落内是否包括至少一个标识字符包括根据预设的第一规则和所述特征值的位置，查找所述段落内的至少一个标识字符，所述特征值为所述段落的题型信息。

2.根据权利要求1所述的提取方法，其特征在于，所述根据预设的第一规则和所述特征值的位置，查找所述段落内的至少一个标识字符之后还包括：

根据预设的第二规则，对所述至少一个标识字符进行判断；

如果所述至少一个标识字符符合所述第二规则，则确定所述至少一个标识字符为正确标识字符，否则，确定所述至少一个标识字符为错误标识字符。

3.根据权利要求1所述的提取方法，其特征在于，所述信息块内容包括公式、表格和/或图片的内容信息。

4.根据权利要求1所述的提取方法，其特征在于，所述文件信息存储为Word文件。

5.根据权利要求4所述的提取方法，其特征在于，所述文件信息为试卷信息，所述至少一个标识字符为所述试卷内的题序号。

6.根据权利要求5所述的提取方法，其特征在于，所述方法还包括：

所述查找所述段落内是否包括至少一个题序号包括根据预设的第一规则和所述题型信息的位置，查找所述段落内的至少一个题序号。

7.根据权利要求6所述的提取方法，其特征在于，所述根据预设的第一规则和所述题型信息的位置，查找所述段落内的至少一个题序号之后还包括：

根据预设的第二规则，对所述至少一个题序号进行判断；

如果所述至少一个题序号符合所述第二规则，则确定所述题序号为正确题序号，否则，确定所述题序号为错误的题序号。

8.根据权利要求1所述的提取方法，其特征在于，所述第一规则利用支持向量机原理。

9.根据权利要求2所述的提取方法，其特征在于，所述第二规则利用浅层句法分析原理。