CN103399857B

CN103399857B - 一种通用文档结构信息抽取方法

Info

Publication number: CN103399857B
Application number: CN201310272418.3A
Authority: CN
Inventors: 李新然; 吕江花; 马世龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-07-01
Filing date: 2013-07-01
Publication date: 2017-02-08
Anticipated expiration: 2033-07-01
Also published as: CN103399857A

Abstract

本发明提供了一种通用文档结构信息抽取方法，属于文档一体化工程领域。本发明针对特定领域的领域知识，定义文档的同构信息格式，同构信息格式至少包括：定义文本信息格式的文本节点、定义文档结构信息格式的结构节点、定义图片信息格式的图片节点、以及定义图表信息格式的表格节点，构建原始文档向同构信息格式的提取转换方法，供给上层应用的统一操作接口，以及同构信息描述格式，并将同构信息格式转换为同构信息描述格式显示。本发明可以抽取重要的文档结构信息，同时保持文档中的图片和图表信息，方法简单易用，通用性强；通过本发明方法可以建立特定领域的文档同构信息模型，实现文档信息的同构互操作，方便文档一体化管理。

Description

一种通用文档结构信息抽取方法

技术领域

本发明属于文档一体化工程领域，涉及一种通用文档信息格式定义、一组文档信息格式间转换和操作过程的实现方法、以及一种通用的文档同构信息描述的定义；具体涉及一种通用文档结构信息抽取方法。

背景技术

随着相关技术的发展，文档资源在工程实际中的地位变得越来越突出。新世纪提出的文档工程的概念，更是将文档资源的地位提到工程实际的中心位置。文档资源是一种知识积累，是工程实际中经验的结晶，充分利用现有的文档资源可以减少在当前工程实际中所犯的错误，为当前的工程问题解决提供参考，从而加快工程开发进度。但是，由于文档原始资源内容庞杂且缺乏统一规范，信息格式不统一，缺乏互操作性，不易为计算机统一操作和理解，更不易为人所理解和查询，导致当前大量的工程文档资源被搁置而不能服务于工程实际，造成极大的资源浪费。

文档一体化管理是指由同一文档管理机构从文件和档案工作的全局出发，统筹规划，科学管理，实现文件管理部门由文件形成、收发、登记、编号、存储、检索、利用到档案部门的收集、整理、鉴定、著录、保管、统计、利用等管理的全过程控制。此种工作模式有利于改善和保证文件、档案质量，提高文件和档案管理工作的规范化和标准化，从而实现文件和档案管理工作的现代化。

文档结构是文档内容的凝练，是整篇文档的框架。结构化的信息呈现可以方便用户的阅读和理解，充分利用文档的结构信息也可以实现快速的文档定位方便用户的查阅；在对文档资源进行修改时并不是同时对所有的文档信息进行修改，通常每个工作人员只负责修改部分的文档信息，充分利用文档结构信息，可以方便地实现文档资源的协同编辑修改；文档资源体积通常很大，通过网络传递完整的文档信息通常需要占用很大的网络带宽，且十分耗时，而利用文档结构信息，通过传递部分结构化的文档信息可以有效节省带宽，提高效率；工程中的文档通常有严格的文档结构要求，严格的文档结构也可以方便文档资源的编制，提高工作效率，且方便一体化管理；利用文档结构信息，结合文档内容信息可以指定灵活的规则，方便对文档的评价和审核。

为了针对文档资源进行抽取同构，进而加以利用，人们开展了诸多的研究：文本自动分类，信息检索，文本内容过滤等。有研究者提出了开放式文档同构引擎（Open DocumentIsomorphic Engine，ODIE），就是从多种多样的文档格式中获取文本内容及其所代表的语义,并提供给其它高层系统使用，基于此提出了开放式文档层次模型的概念，并介绍了获取文档资源中文本信息的关键技术和方法。多格式文档的同构化可以使其他应用系统摆脱文档分析的难点，只专注于系统本身的业务操作。文档同构化同时也是基于内容的信息安全、自动分类、自动标引、自动检索等领域的基础性工作。然而这些研究工作的研究对象仅仅锁定在文本内容及其所代表的语义上，忽略了原始文档结构信息及图表信息，另外由于其架构太过通用，实际应用中又没有给出一种面向特定领域的可操作的文档抽取同构的技术与方法，使其注定无法满足工程实际的需求。

综上所述，现有的文档一体化研究领域存在多种局限：1）在文档信息抽取中，只关注文本信息的抽取，忽视文档结构信息，这样抽取出的纯文本方便文本检索分类等上层应用的同时，由于缺失重要的结构信息，无法满足特定工程领域的需求；2）在文档信息抽取中，忽略文档中重要的图片图表信息，在方便通用文档同构格式定义的同时，损失了原有文档资源的信息，没有做到对原始文档资源的充分利用；3）在定义开放式文档同构结构时，提出了开放式文档层次模型的概念，介绍了获取多种格式文本信息的关键技术和方法，但没有给出一种面向特定领域的同构文档格式及其定义方法，没有提出一种建立针对特定领域的开放式文档同构的实际可操作的流程和方法；4）开放式文档同构主要研究文本信息抽取处理及其语义的理解，没有建立通用的文档信息描述方法，不能为人所理解和操作，不能满足工程实际的需求；5）概念和操作方法复杂，易用性差，不便于在工程实际中普及；6）抽取方法通用性差，无法保障可移植性。

发明内容

本发明的目的在于针对特定领域给出一种通用文档结构信息抽取方法，基于文档抽取的概念，可以抽取重要的文档结构信息，同时保持文档中的图片和图表信息，抽取方法简单易用，通用性强。通过本发明方法可以建立特定领域的文档同构信息模型，实现文档信息的同构互操作，方便文档一体化管理。

本发明给出的一种通用文档结构信息抽取方法，主要包括如下步骤：

步骤1：针对特定领域的领域知识，定义文档的同构信息格式，同构信息格式至少包括：定义文本信息格式的文本节点、定义文档结构信息格式的结构节点、定义图片信息格式的图片节点、以及定义图表信息格式的表格节点；

步骤2：针对原始文档资源，构建原始文档向同构信息格式的提取转换方法；

步骤3：针对同构文档，构建一组统一的操作接口，提供给上层应用；操作接口至少包括：对信息结构的操作接口，对文本信息内容的操作接口，对图片信息的操作接口，及对图表信息的操作接口；

步骤4：针对同构信息格式，定义同构信息描述格式，以便提供给上层应用对当前的文档同构信息进行描述展示，为人所理解分析，同构信息描述至少包括：对结构信息的描述，对文本信息的描述，对图片信息的描述，以及对图表信息的描述；

步骤5：利用同构信息描述格式，将同构信息格式转换为同构信息描述格式。

上述步骤1和步骤4在进行结构定义时需要综合考虑通用性和领域特定性，做到既有利于扩展，又能满足本领域的特定需求的目的；步骤3和步骤5重在操作接口的定义，定义时需要考虑到上层应用的易用性，以便能方便集成到上层应用中；步骤2是文档格式转换方法的定义，定义时需要原始文档的格式和版本等诸多问题，做到具有一定的通用性和兼容性。

综上所述，本发明的优点在于：

（1）实用性，本发明通过以上五个步骤实现的通用文档结构信息抽取方法，可以满足工程实际需求，具有一定的实用性，并在地震预案管理领域获得了应用；

（2）易用性，本发明建立的通用文档结构信息抽取方法简单易用，结构定义简单紧凑，操作接口调用方面，易用性强可以方便与上层应用集成；

（3）通用性，本发明提出的通用文档结构信息抽取方法，在实际应用中针对特定工程的领域知识，采用此方法，适当修改文档同构格式定义，及其操作接口即可满足本领域的需求，而无需重新设计文档同构的体系结构；

（4）可扩展性，本发明的通用文档结构信息抽取方法不仅提取出来原始文档资源中的文本信息，同时对文档结构信息，图片图表信息亦进行了定义和提取，上层应用可以针对文本信息进行文本检索，内容过滤，语义理解等操作，同时针对结构信息及图片图表信息亦可以开发特定的应用；

（5）兼容性，本发明在建立同构文档时，借鉴互联网领域的将数据信息与描述信息分离的原则，将文档信息分割为文档实体信息包括文档结构信息，文本信息，图片图表信息等数据信息，及文档描述信息，即文档结构信息，文本信息，图片图表如何展示的信息；并分别对两种信息进行了定义，使其可以方便应用于互联网领域。

附图说明

图1是地震应急预案文档的结构形式及其同构文档结构的示意图；

图2是本发明通用文档结构信息抽取方法的整体流程图；

图3是从原始文档解析为同构信息格式的流程示意图；

图4是从同构文档提取内容的操作流程示意图；

图5是同构文档模型的最小接口的示意图。

具体实施方式

下面将结合附图和实施实例对本发明作进一步的详细说明。

本发明的目的在于针对特定领域给出一种通用文档结构信息抽取方法，它基于文档抽取的概念，可以抽取重要的文档结构信息，同时保持文档中的图片和图表信息，抽取方法简单易用，通用性强。通过本发明方法可以建立特定领域的文档同构信息模型，实现文档信息的同构操作，方便文档一体化管理。本发明实施例中以地震应急预案这一特定领域的领域知识来说明具体实现方法。

地震应急预案管理信息系统是以预案文档为中心的综合性的信息管理系统，系统中的预案文档管理子系统是文档资源管理的核心，主要包括预案草案的管理，预案存储服务，正式预案文档的管理和相关的预案文档服务接口。地震应急预案管理信息系统需要对当前的预案审查评审，通过自动对预案进行演习和培训，结合现有的知识库信息，对预案的内容进行评估。因此信息系统需要定义统一的预案文档信息格式，以满足预案文档管理自动化的需求；由于在信息系统建立之初已经有初始的预案文档资源，但原始预案的信息格式不统一，缺乏互操作性，不易为计算机所理解，而且与系统中的预案文档不兼容，因此需要建立原始预案文档向通用文档信息格式转换的过程；预案文档资源需要为工程人员理解，操作查询，因此需要为通用文档信息格式建立统一的操作接口，以方便工程人员操作和查询。

如图1所示，图左侧展示了地震应急预案的结构，从此结构中可以看出，预案文档主要有章节段组成，章标题均有固定的标题内容，章可以有多个节，同样节内部可以有多个段，段内部是纯文本内容或图片图表信息，本发明方法的主要任务是提取预案文档的结构信息和内容信息，同时保留图片图表信息，建立相应的操作接口以方便上层应用。

针对地震应急预案的原始预案文档信息，利用本发明的通用文档结构信息抽取方法，建立文档同构模型，从同构文档中提取内容，整体步骤如图2所示。下面对各步骤的实现进行具体说明。

步骤1：针对地震应急预案的领域知识，定义应急预案的文档同构信息格式。

下面给出了一个地震应急预案的文档同构信息的示例：

从上面应急预案同构文档信息的示例中可以看出，文档同构信息格式共有五类结构定义：

a，文本结构定义，对应为文本节点－text节点，主要存储纯文本信息，节点无其他属性。

b，文档结构定义，对应为结构节点－level节点，主要存储文档结构信息，是地震应急预案文档结构提取的重点，节点拥有属性name记录当前结构级别的标题，拥有属性code记录当前结构级别的具体值，其中，1代表章标题，2代表节标题，3代表段标题，其他级别值依次类推，例如第3章第1节第1段所对应的code为3.1.1。另外level节点可以拥有子节点，子节点可以为定义中五类节点中的任意一种类型。

c，图片结构定义，对应为图片节点－picture节点，主要记录文档结构中的图片信息，拥有属性filepath记录提取出的图片的具体存储位置，以便上层应用操作。

d，图表结构定义，对应表格节点－table节点，记录文档结构中的表格信息，拥有属性col和row分别记录表格的列数和行数，表格节点拥有th和tr等子节点记录确切的行信息和列信息。

e，原始文档整体结构定义，对应原始文档节点－document节点，此为整个文档结构的根节点，其子节点记录整个文档的结构信息即可以包括所述的五类节点。

如图1所示，图右侧是对应图左侧转换的部分同构文档结构，相应地章、节和段落在同构文档结构由chapter、section和part三部分组成，其根节点document代表整个预案文档的结构。

步骤2：针对原始文档资源，构建原始文档向同构信息格式的提取转换方法，在实际应用中文档提取转换方法应包括原始文档向同构格式的转换及同构信息格式向原始文档转换两种方法。

如图3所示，为原始文档向同构格式的转换的过程。

首先，初始化原始文档解析器，此处的解析器利用的是COM（Component ObjectModel，组件对象模型）技术。

其次，初始化同构文档构建器，此处的构建器采用的XML处理的DOM（DocumentObject Model，文件对象模型）技术。

然后，原始文档解析器循环遍历所有的原始文档段落，如果当前段落为纯文本信息，提交构建器，在对应的同构文档中添加文本节点；如果当前段落为结构信息，即包含级别，则提取级别信息，提取标题信息，提交构建器，在对应的同构文档中构建结构节点；如果当前段落包含图片信息，提取图片并存为文件，提交构建器，在对应的同构文档中构建图片节点；如果当前段落包含表格信息，按行列提取表格内容，提交构建器，在对应的同构文档中构建表格节点。构建器在插入节点时，利用栈结构保证整体文档的结构信息。

最后，当所有段落均遍历完时，关闭文档解析器，并存储构建的同构文档。

由同构文档生成原始文档的转换方法与此相反，利用DOM技术遍历所有的节点，针对每个节点，根据节点列席利用COM技术在原始文档中插入信息即可生成原始文档。

步骤3：针对同构文档资源，构建一组统一的操作接口提供给上层应用，此处的操作接口主要包括：对信息结构的操作接口、对文本信息内容的操作接口，对图片信息的操作接口和对图表信息的操作接口，相关章节段的提取接口，接口应尽量简单实用，以方便上层应用。如图4所示，从同构文档中提取信息的操作为：初始化同构文档操作结口，利用DOM解析技术，解析提取结构序列，查找是否有匹配的结构序列，如果有，初始化同构文档构建器，提取匹配的文档结构，添加到新的文档结构中，最后存储同构文档的提取结果。

以章节段的提取接口的实现为例说明，给定以点号分割的章节段序列，初始化同构文档解析器，利用DOM解析技术，首先查找是否有相应的章信息，在章下查找是否有相应的节信息，在节下查找段信息；当匹配到相应的章节段内容，导出相应的节点及其子节点，存储为结果文件。

步骤4：针对地震应急预案展示需求，设置通用的地震应急预案文档的同构信息描述格式。通用的同构信息采用XSLT（Extensible Stylesheet Language Transformations，扩展样式表转换语言）格式进行描述，分别定义步骤1所述五类节点的显示方法，通用同构信息描述格式定义具有一定的灵活性，实际工程应用中可以针对工程需求定义相应的描述格式，对通用文档进行描述。

下面给出的是一个同构文档的描述信息示例。

如上所述，同构信息描述格式，给出了步骤1所述五类节点的描述方式，每种方式对应一种显示模板template，针对每一个节点定义一个显示模板template，如对text节点的匹配，显示模板描述显示文本信息，然后回车，对table节点，显示模板将table节点的第一行显示为图表的标题，其余行按表格正常显示。通过同构信息描述格式的定义，应用XSLT转换技术将结构化的同构文档转换为HTML文档，实现展示功能。

步骤5：针对同构信息格式，利用同构信息描述格式定义，首先依据同构文档的定义，调用同构文档验证器，然后借助XSLT转换器，实现从同构文档转换为HTML等格式的展示文档以便在Web应用中提供给客户端。本步骤应包括同构信息格式向同构信息描述格式的转换，同构信息描述格式向同构信息格式的转换两部分。

如图4所示，给出了针对预案同构文档进行部分章节段信息进行抽取的流程，从图中可以看出针对同构文档的部分结构信息抽取操作可以简化为初始化同构文档操作接口、解析提取的结构序列和匹配抽取结构序列三个过程。

图5给出了预案文档同构文件的最简接口，此最简接口主要包括四个基本函数：原始文档转换为同构文档接口的基本函数DocToXml::ConvertToXml，此接口函数主要参数为原始文档文件名和同构文档文件名；同构文档向原始文档转换的接口函数XmlToDoc::ConvertToDoc，此接口的主要参数为同构文档文件名和欲输出的原始文档格式的文件名；同构文档章节段提取接口为：XmlStructTool::ExtractXml，此接口的主要参数为同构文档文件名，欲提取的章节段的字符串序列，欲输出的同构文档文件名；同构文档向格式化描述文档的转换接口为：XmlToHtml::ConvertToHtml，此接口的主要参数为输入的同构文档文件名和欲输出的Html文件名。通过以上四个最简接口即可实现大部分的预案同构文档的转换与处理操作。

Claims

1.一种通用文档结构信息抽取方法，其特征在于，该方法包括如下步骤:

步骤一：定义原始文档的同构信息格式，同构信息格式至少包括：定义文本信息格式的文本节点、定义文档结构信息格式的结构节点、定义图片信息格式的图片节点、以及定义图表信息格式的表格节点；

针对地震应急预案的领域知识，定义的地震应急预案的文档同构信息包括五类节点：定义文本信息格式的text节点、定义文档结构信息格式的level节点、定义图片信息格式的picture节点、定义图表信息格式的table节点、以及定义原始文档整体结构的document节点；level节点拥有属性name记录当前结构级别的标题，拥有属性code记录当前结构级别的具体值，level节点的子节点为四类节点中的任意一种；picture节点拥有属性filepath记录提取出的图片的具体存储位置；table节点拥有属性col和row分别记录表格的列数和行数，并拥有th和tr子节点，用来记录确切的行信息和列信息；document节点为整个文档结构的根节点，其子节点记录整个文档的结构信息；步骤二：构建原始文档向同构信息格式的提取转换方法；

步骤三：通过步骤二转换得到原始文档的同构文档，针对同构文档，构建一组统一的操作接口，提供给上层应用；操作接口至少包括：对定义文档结构信息格式的结构节点的操作接口，对文本信息内容的操作接口，对图片信息的操作接口，及对图表信息的操作接口；

步骤四：针对同构信息格式，定义同构信息描述格式，同构信息描述格式至少包括：对结构信息的描述、对文本信息的描述、对图片信息的描述、以及对图表信息的描述；

步骤五：利用同构信息描述格式，将同构信息格式转换为同构信息描述格式。

2.根据权利要求1所述的一种通用文档结构信息抽取方法，其特征在于，所述的步骤二的具体实现方法是：首先，初始化原始文档解析器；其次，初始化同构文档构建器；然后，原始文档解析器循环遍历所有的原始文档段落，如果当前段落为纯文本信息，提交构建器，在对应同构文档中添加文本节点；如果当前段落为结构信息，提取级别信息和标题信息，提交构建器，在对应的同构文档中构建结构节点；如果当前段落包含图片信息，提取图片并存为文件，提交构建器，在对应的同构文档中构建图片节点；如果当前段落包含表格信息，按行列提取表格内容，提交构建器，在对应的同构文档中构建表格节点；最后，当所有段落均遍历完时，关闭原始文档解析器，并存储构建的同构文档。

3.根据权利要求1所述的一种通用文档结构信息抽取方法，其特征在于，所述的步骤三通过操作接口，从同构文档中提取信息，具体实现方法为：初始化同构文档的操作接口，利用DOM解析技术，解析提取结构序列，查找是否有匹配的结构序列，如果有，初始化同构文档构建器，提取匹配的文档结构，添加到新的文档结构中，最后存储同构文档的提取结果。