CN105654022A

CN105654022A - 一种提取文档结构化信息的方法及装置

Info

Publication number: CN105654022A
Application number: CN201410645403.1A
Authority: CN
Inventors: 林欣欣; 罗伟富; 易珏玲
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-06-08

Abstract

本发明提供一种提取文档结构化信息的方法，提取文档的字符块信息后，根据文档中字符块信息选择结构化信息模板，然后根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块，最后根据所述结构化信息模板和所述文本块形成结构化文档。该方案中，根据当前文档的特点来选择模板，该模板更符合当前文档的特点，因此使用其来提取结构话信息，更加准确，此外，不同的文档可以根据其特点选择不同的模板，该方案可以应用于多种多样的文档中。本发明对现有技术中存在的只针对只适用一种文档的结构化信息提取方法进行了改进，采用多套模板的方式，使各种复杂的版面信息根据排版样式选择不同的模式，以提高获取版面信息的准确率。

Description

一种提取文档结构化信息的方法及装置

技术领域

本发明涉及数字文本加工领域，具体地说是一种提取文档结构化信息的方法及装置。

背景技术

版式文档格式是版面呈现效果固定的电子文档格式，版式文档的呈现与设备无关，在各种设备上阅读、打印或印刷时，其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。版式文档的特点是版面固定、不跑版，即所见即所得(Whatyouseeiswhatyouget,简称WYSIWYG)，使电子文档在使用过程中，呈现效果不因软硬件环境、操作者的变化而变化，在版式、版面、字体、字号等方面与纸质文件保持完全一致。版式文档格式的特点使它成为电子文档发布、数字化信息传播和存档的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档，在国外，Adobe公司的PDF版式文档格式目前已成为数字化信息事实上的一个工业标准。

随着信息技术的发展，越来越多的书籍、报纸逐渐电子化，由原来的纸质图书转变成各种PC、手持设备的电子阅读器。在报社、出版社等行业，电子文档主要以版式文档为主，便于打印和印刷。但在电子化阅读时(如各种电子书阅读器)，由于屏幕的大小，需要对版式文档进行重排以适应屏幕，这就需要从版式文档中提取目录、正文、章节标题等结构化信息。

现有技术中公开一种基于PDF的复杂版面的标引方法，用以提供一种省时、省力的统一的PDF复杂版面的标引方法。通过分析和获取文字信息以及位置、字体、字号等信息，根据相邻、相似的原则进行自动化的文字成块操作，进一步根据字体字号等信息确定文章标题与正文，根据位置信息进行正文拼接，使得整个版面上的文章快速构建。该方法的优点是可以自动化处理复杂版面的文字信息提取、原始文字块合并以及文章内容和样式信息的提取，但不足之处是该方法在处理过程中使用一组参数进行识别，而目前的版式文档多种多样且数据量巨大，该方案不能适应多种多样的复杂版面信息，如果需要人为来针对每种版式进行参数设置，数据量过于复杂，难于实现。

发明内容

为此，本发明所要解决的技术问题在于现有技术中提取文档的结构化信息的方法中使用固定的参数，只能针对特定类型的文档提取，从而提出一种可以针对多种多样的文档自动选择进行格式化信息提取的方法和装置。

为解决上述技术问题，本发明的提供一种提取文档结构化信息的方法和装置。

本发明提供一种提取文档结构化信息的方法，包括：

提取文档的字符块信息；

根据文档中字符块信息选择结构化信息模板；

根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块；

根据所述结构化信息模板和所述文本块形成结构化文档。

优选地，所述根据文档中字符块信息选择结构化信息模板的处理前，还包括

建立结构化信息模板，所述结构化信息模板中包括文档属性及其对应的属性内容。

优选地，所述文档属性包括标题、正文，所述属性内容包括字体值、字号值、格式值。

优选地，所述根据文档中字符块信息选择结构化信息模板的过程，包括

获取字符块信息中存在的属性内容；

将该属性内容与所述结构化信息模板中的信息内容匹配，

选择匹配程度最高的结构化信息模板。

优选地，所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的位置关系容忍系数。

优选地，根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块的处理中，包括：

根据所述结构化信息模板中的字号容忍度系数、和/或字符块之间的位置关系容忍系数，对字符块进行聚类生成文本块。

优选地，根据所述结构化信息模板和所述文本块形成结构化文档的过程，包括：

根据结构化信息模板中的属性及属性内容，将属性内容相同的文本块作为该属性的结构信息，获得结构化文档。

本发明还提供一种提取文档结构化信息的装置，包括：

提取单元：提取文档的字符块信息；

模板选择单元：根据文档中字符块信息选择结构化信息模板；

文本块获取单元：根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块；

结构化信息提取单元：根据所述结构化信息模板和所述文本块形成结构化文档。

优选地，还包括模板建立单元：建立结构化信息模板，所述结构化信息模板中包括文档属性及其对应的属性内容。

优选地，模板选择单元包括

获取子单元：获取字符块信息中存在的属性内容；

匹配子单元：将该属性内容与所述结构化信息模板中的信息内容匹配，

选择子单元：选择匹配程度最高的结构化信息模板。

优选地，文本块获取单元包括：

容忍度处理子单元：根据所述结构化信息模板中的字号容忍度系数、和/或字符块之间的位置关系容忍系数，对字符块进行聚类生成文本块。

优选地，结构化信息提取单元包括提取子单元：根据结构化信息模板中的属性及属性内容，将属性内容相同的文本块作为该属性的结构信息，获得结构化文档。

本发明的上述技术方案相比现有技术具有以下优点，

(1)本发明中提取文档结构化信息的方法，提取文档的字符块信息后，根据文档中字符块信息选择结构化信息模板，然后根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块，最后根据所述结构化信息模板和所述文本块形成结构化文档。该方案中，根据当前文档的特点来选择模板，该模板更符合当前文档的特点，因此使用其来提取结构话信息，更加准确，此外，不同的文档可以根据其特点选择不同的模板，该方案可以应用于多种多样的文档中。本发明对现有技术中存在的只针对只适用一种文档的结构化信息提取方法进行了改进，采用多套模板的方式，使各种复杂的版面信息根据排版样式选择不同的模式，以提高获取版面信息的准确率。同时该方法不仅适用于PDF文档，还适用于CEBX、OFD等所有的版式文档。此外，现有的版式文档结构化的过程存在准确率不高、适用范围较小、处理缓慢的现象，本发明就是在现有技术的基础上，通过模板的方式进行改进，以提高版式文档提取结构化信息的处理速度以及准确率。

(2)本发明中提取文档结构化信息的方法，构建了结构化信息模板，该模板中包括正文、标题等属性，以及他们对应的属性内容，如正文或标题中的字体值、字号值、格式值，该结构化信息模板根据需要设置为尽量多的不同形式，保证每种文档都有其对应的合理模板，这样就可以提高结构化信息的获取精度。

(3)本发明中提取文档结构化信息的方法，选择结构化信息模板的依据是该模板中的属性内容与当前文档字符块中属性内容一致，也就是如果当前文本的字库块中存在四号楷体、二号宋体字，则选择属性内容中也存在这些内容的模板，为后续匹配提供依据。

(4)本发明中提取文档结构化信息的方法，所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的位置关系容忍系数，由于字号匹配、位置等都具有不可避免的误差，因此该方案中还提供字号容忍度系数、位置关系容忍系数，保证能够顺利完成匹配。

(5)本发明还提供一种提取文档结构化信息的装置，包括提取单元、模板选择单元、文本块获取单元、结构化信息提取单元，根据当前文档的特点来选择模板，该模板更符合当前文档的特点，因此使用其来提取结构话信息，更加准确，此外，不同的文档可以根据其特点选择不同的模板，该方案可以应用于多种多样的文档中。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明实施例1的提取文档结构化信息的方法流程图；

图2是本发明实施例2的提取文档结构化信息的方法流程图；

图3是本发明实施例中的提取文档结构化信息的装置的结构框图。

具体实施方式

实施例1：

本实施例中提供一种提取文档结构化信息的方法，如图1所示，包括如下步骤：

S1、提取文档的字符块信息。

S2、根据文档中字符块信息选择结构化信息模板。

本实施例中，已经预先建立好了结构化信息模板，所述结构化信息模板中包括文档属性及其对应的属性内容。文档属性是指文档中的正文、标题、目录等，属性内容则是指该属性对应的字体、字号或格式，如下:

表1

属性	字体	字号	格式
				正文	宋体	四号	简体
标题	楷体	二号	简体

每个结构化信息模板中存储了多种属性和属性内容，根据文档中存在的字体、字号、格式等内容信息，通过匹配的方式，选择包含所有这些信息的结构化信息模板作为选定的模板。

S3、根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块。当选定模板后，根据字符块中的文字对应的字体属性，如字体、字号等信息，与结构化信息模板中的属性内容进行比对，将一致的归为一类进行聚类。如文档中字符块中为四号，宋体，而在结构化信息模板中四号、宋体对应的是正文，则将这些内容聚类。

S4、根据所述结构化信息模板和所述文本块形成结构化文档。根据结构化信息模板中的属性及属性内容，将属性内容相同的文本块作为该属性的结构信息，获得结构化文档。

将上述聚类后的文本，根据与结构化信息模板中的属性内容，对应到相应的属性下，如将上述聚类后的四号、宋体的内容对应到正文下，将楷体、二号的文本块关联到标题中，这样就得到了结构化文档。

该方案中，根据当前文档的特点来选择模板，该模板更符合当前文档的特点，因此使用其来提取结构话信息，更加准确，此外，不同的文档可以根据其特点选择不同的模板，该方案可以应用于多种多样的文档中。本发明对现有技术中存在的只针对只适用一种文档的结构化信息提取方法进行了改进，采用多套模板的方式，使各种复杂的版面信息根据排版样式选择不同的模式，以提高获取版面信息的准确率。同时该方法不仅适用于PDF文档，还适用于CEBX、OFD等所有的版式文档。此外，现有的版式文档结构化的过程存在准确率不高、适用范围较小、处理缓慢的现象，本发明就是在现有技术的基础上，通过模板的方式进行改进，以提高版式文档提取结构化信息的处理速度以及准确率。

在其他的实施方式中，还包括建立结构化信息模板的步骤，所述结构化信息模板中包括文档属性及其对应的属性内容。如该模板中包括正文、标题等属性，以及他们对应的属性内容，如正文或标题中的字体值、字号值、格式值，该结构化信息模板根据需要设置为尽量多的不同形式，保证每种文档都有其对应的合理模板，这样就可以提高结构化信息的获取精度。

进一步地，所述根据文档中字符块信息选择结构化信息模板的过程，包括首先，获取字符块信息中存在的属性内容；然后，将该属性内容与所述结构化信息模板中的信息内容匹配，最后，选择匹配程度最高的结构化信息模板。

此处，选择结构化信息模板的依据是该模板中的属性内容与当前文档字符块中属性内容一致，也就是如果当前文本的字库块中存在四号楷体、二号宋体字，则选择属性内容中也存在这些内容的模板，为后续匹配提供依据。

在进一步优化的实施方式中，所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的位置关系容忍系数。因此根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块的处理中，还包括：根据所述结构化信息模板中的字号容忍度系数、和/或字符块之间的位置关系容忍系数，对字符块进行聚类生成文本块。由于字号匹配、位置等都具有不可避免的误差，因此该方案中还提供字号容忍度系数、位置关系容忍系数，保证能够顺利完成匹配。

实施例2：

本发明中提供一种提取文档结构化信息的方法，旨在高效、便捷、准确的提取版式文档结构信息并支持形成结构化版式文档。该发明大致分为五个步骤，例如对应某本PDF书籍，具体实施方式如下，流程图如图2所示：

一、导入版式文档，解析并提取文档的字符块信息。本实施例是针对版式文档提取结构化信息，所有的版式文档均可应用此方法进行处理，包括PDF、CEBX、OFD等。根据文档中存储的信息提取文档的字符块信息(包括内容、位置信息、字体等等)。

二、选择模板。根据第一步提取到的大量字符块的信息，从中抽取一部分字符块信息，如所有奇数页的字符块信息，通过其中的字体、字号、距离等等信息，与结构化信息模板中设置的字体、字号、距离等值比较，识别出匹配度最高的模板，此例中使用模板A。

在本实施例中，已经预先设置好了结构化信息模板，在每个模板中，设置好了各个属性及其对应的属性内容。为了更好的对字符块匹配，还可以在模板中设置字号容忍系数，以及字符块之间的位置关系容忍系数阈值等等

三、据模板对字符块进行聚类、排序后合并为文本块。根据步骤二中选取的模板A，取出其中所设的字号容忍系数，以及字符块之间的位置关系容忍系数阈值等等，判断第一步中得到的字符块是否属于同一文本内容，若根据这些阈值，得出这些字符块位置相邻、字号相近且不超过容忍度系数(此例中，最大容忍字号差别系数为C_max＝0.1，最大容忍水平方向距离系数为D_xmax＝0.9，最大容忍垂直方向距离系数为D_ymax＝0.9，即字符块字号差别C<C_max，且D_x<D_xmax，D_y<D_ymax)，则可判断这些字符块属于同一文本块，从而来对字符块进行聚类、排序，进而生成一个个文本块。

四、据模块定义文本块属性并关联成文。由第三步生成的文本块，结合第二步选取的模板A，据模板中所设定的关于字号、格式以及容忍度系数等等的预设值(此例中，临界字号大小阈值为13pt，格式为无格式，容忍度系数为0.2)，结合文本块的相应信息，将文本块定义为各个属性，如：标题、正文等。再将标题与正文进行关联，最终形成完整的结构化文档。

五、据需求将标题区分为须要内容。事实上，在第四步，该发明已经能够得到完整的已经进行标题与正文关联的结构化文档信息了，但是可能根据客户需求，需要对标题进行具体定义，例如目录、版权、附录等等。因此，该发明可以对标题内容进行文字匹配，来确定该目录是何内容，以增强用户体验，并简化后续操作。

本实施例中的提取文档结构化信息的方法，首先需要导入版式文档，解析并提取文档的字符块信息；其次依据这些字符块信息，选择匹配度最高的模板；接着，根据模板中的阈值对字符块进行聚类与排序，并将聚类、排序后的字符块合并为文本块；然后再依据模板中的预设值定义这些文本块的标题、正文、页码等属性，将其关联成文；最后，据需求将标题区分为须要的内容(如目录、附录、版权等待)。该方案采用多套模板的方式，而不依赖于任何流式信息，可以使得各种复杂的版式文档均可快速有效的获取准确率相当高的结构化文档信息。并且其不仅局限于提取结构化目录信息，还可提取版权页、附录等等特殊页面的信息，扩展了使用广度，提升用户体验，方便后续功能的添加。

实施例3：

本实施例中提供一种提取文档结构化信息的装置，如图3所示，包括：

提取单元：提取文档的字符块信息；

本实施例中，还进一步包括模板建立单元：建立结构化信息模板，所述结构化信息模板中包括文档属性及其对应的属性内容。

本实施例中，模板选择单元包括

获取子单元：获取字符块信息中存在的属性内容；

选择子单元：选择匹配程度最高的结构化信息模板。

作为其他优选的实施方式，所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的位置关系容忍系数。

相应地，文本块获取单元包括容忍度处理子单元：根据所述结构化信息模板中的字号容忍度系数、和/或字符块之间的位置关系容忍系数，对字符块进行聚类生成文本块。

本实施例中，结构化信息提取单元包括提取子单元：根据结构化信息模板中的属性及属性内容，将属性内容相同的文本块作为该属性的结构信息，获得结构化文档。

本发明实施例中的提取文档结构化信息的装置，包括提取单元、模板选择单元、文本块获取单元、结构化信息提取单元，根据当前文档的特点来选择模板，该模板更符合当前文档的特点，因此使用其来提取结构话信息，更加准确，此外，不同的文档可以根据其特点选择不同的模板，该方案可以应用于多种多样的文档中。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种提取文档结构化信息的方法，其特征在于，包括：

提取文档的字符块信息；

根据文档中字符块信息选择结构化信息模板；

根据所述结构化信息模板和所述文本块形成结构化文档。

2.根据权利要求1所述的方法，其特征在于，所述根据文档中字符块信息选择结构化信息模板的处理前，还包括建立结构化信息模板，所述结构化信息模板中包括文档属性及其对应的属性内容。

3.根据权利要求2所述的方法，其特征在于，所述文档属性包括标题、正文，所述属性内容包括字体值、字号值、格式值。

4.根据权利要求2所述的方法，其特征在于，所述根据文档中字符块信息选择结构化信息模板的过程，包括

获取字符块信息中存在的属性内容；

将该属性内容与所述结构化信息模板中的信息内容匹配，

选择匹配程度最高的结构化信息模板。

5.根据权利要求2所述的方法，其特征在于，所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的位置关系容忍系数。

6.根据权利要求5所述的方法，其特征在于，根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块的处理中，包括：

7.根据权利要求2所述的方法，其特征在于，根据所述结构化信息模板和所述文本块形成结构化文档的过程，包括：

8.一种提取文档结构化信息的装置，其特征在于，包括：

提取单元：提取文档的字符块信息；

9.根据权利要求8所述的装置，其特征在于，还包括模板建立单元：建立结构化信息模板，所述结构化信息模板中包括文档属性及其对应的属性内容。

10.根据权利要求8或9所述的装置，其特征在于，模板选择单元包括

获取子单元：获取字符块信息中存在的属性内容；

选择子单元：选择匹配程度最高的结构化信息模板。

11.根据权利要求10所述的装置，其特征在于，所述结构化信息模板中还设置有字号容忍度系数、和/或字符块之间的位置关系容忍系数。

12.根据权利要求11所述的装置，其特征在于，文本块获取单元包括：

13.根据权利要求12所述的装置，其特征在于，结构化信息提取单元包括：

提取子单元：根据结构化信息模板中的属性及属性内容，将属性内容相同的文本块作为该属性的结构信息，获得结构化文档。