CN100347706C

CN100347706C - 一种pdf文档到xml文档转换的方法

Info

Publication number: CN100347706C
Application number: CNB2005101228904A
Authority: CN
Inventors: 张文德; 宋艳娟; 陈振标; 杨传耀; 陈俊林; 朱丹红
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2005-12-03
Filing date: 2005-12-03
Publication date: 2007-11-07
Anticipated expiration: 2025-12-03
Also published as: CN1776673A

Abstract

本发明公开了一种PDF文档到XML文档转换的方法，(一)中间文档生成模块(7)：针对PDF样本文档(2)的内容，根据语义项和文本块之间的映射关系，系统自动生成标记语义项和信息块特征的中间XML文档(3)；(二)规则生成模块：对PDF样本文档(2)进行分析和处理，调用中间文档生成模块(7)产生的中间XML文档(3)，通过文档解析器读取PDF源文档(1)的内容，并将其转换为规则的XSLT文档；(三)自动抽取模块：接受规则的XSLT文档，得到满足目标DTD文档并具有语义信息的目标XML文档(5)。本发明可以对转换后的XML文档做进一步的操作，从而提高文档自动分类和用户信息检索的效率。

Description

一种PDF文档到XML文档转换的方法

技术领域：

本发明是一种信息转化的方法，属于信息技术类，确切地说，它包括中间文档生成模块、规则生成模块、自动抽取模块的信息抽取系统的方法。

背景技术：

随着Web技术的发展，越来越多的信息呈现在用户面前。如何对海量的信息资源进行处理，是数字图书馆研究工作的一项重要内容。为了实现对网络信息资源的有效开发利用，需要进行信息的分类、检索等操作。所有对信息处理的操作都应该涉及到对文档信息的抽取。文档信息抽取是指从一段文本中抽取指定的一类信息，并将其形成结构化数据填入数据库中供用户查询使用的过程。

信息抽取现有三种基本实现方法：基于字典，基于马尔可夫模型和基于规则。其中，基于字典和基于马尔可夫模型主要应用于WebIE领域；只有基于规则的方法不仅应用于WebIE中，同时也是实现信息抽取的主要方法。目前有三种主要的基于规则的信息抽取技术：基于自然语言理解、基于Ontology和基于DOM树。

1、基于自然语言理解的信息抽取技术：自然语言的处理技术通常用于自由文本的信息抽取。自然语言处理的过程如下：首先把文本分割成多个句子，对每个句子的成分进行标记；然后将已分析好的句子成分和事先定义好的规则进行匹配，从而获得句子的内容。这种信息抽取方法的实质是，根据语义项对应的语义类，语义项的上下文和所处的句子成分实现信息的定位。它主要适合源文档中含有大量文本的情况，尤其是合乎文法的文本。

2、基于ontology的信息抽取主要利用了对数据本身的描述信息实现抽取。采用该方法，事先要由知识领域专家采用人工的方式书写某一应用领域的ontology，并且根据ontology中常值和关键字的描述信息产生抽取规则，对每个无结构的文本块进行抽取获得各语义项的值。这种方法对页面的结构和表现形式依赖少，只要事先创建的应用领域的ontology足够强大，系统可以对某一应用领域中各种网页实现信息抽取。不过，这事先需要构造一个完整的ontology库，而构造这样一个库需要花费专家大量的时间；而且，有时很多信息很难给出对应的ontology库。

3、基于DOM树的信息抽取技术：在信息抽取之前，通过解析器将HTML文档或XML文档解析成DOM树，然后以自动化或半自动化的方式产生抽取规则，将信息抽取转化为对DOM树的操作。该类信息抽取技术应用于能够表示为DOM树的文档，如HTML文档，XML文档的信息抽取。

经检索：还没有见到一种包括中间文档生成模块、规则生成模块、自动抽取模块信息抽取系统的方法，从PDF文档到XML文档转换的方法方面的文献报道。

发明内容：

本发明的目的在于发明一种信息抽取的方法。

本发明是这样实现的：所述方法包含以下步骤：

步骤一：利用中间文档生成模块，针对PDF样本文档的内容，并根据语义项和文本块之间的映射关系，系统自动生成标记语义项和文本块特征的中间XML文档，这种中间XML文档能够描述样本文档的格式特征和编排结构信息；

步骤二：利用规则生成模块，对PDF样本文档进行分析和处理，调用中间文档生成模块以产生与PDF样本文档相对应的中间XML文档，并通过文档解析器读取PDF样本文档的内容，将其转换为规则XSLT文档，所述规则生成模块的功能是生成应用于与PDF源文档相对应的中间XML文档的规则XSLT文档，所述规则生成模块采用半自动化的方式生成规则；

步骤三：利用自动抽取模块，接受规则XSLT文档，得到满足目标DTD文档并具有语义信息的目标XML文档，由所述自动抽取模块读取规则XSLT文档的内容，自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档，从而得到满足文档定义并具有语义信息的XML文档。

本发明还有一种是这样实现的：所述方法包含以下步骤：

步骤一：利用中间文档生成模块，针对PDF源文档的内容，根据语义项和文本块之间的映射关系，系统自动生成标记语义项和文本块特征的中间XML文档，这种中间XML文档能够描述源文档的格式特征和编排结构信息；

步骤二：利用自动抽取模块，接受XSLT规则文档库中相应的规则XSLT文档，得到满足目标DTD文档并具有语义信息的目标XML文档，由所述自动抽取模块读取所述规则XSLT文档的内容，自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档，从而得到满足文档定义并具有语义信息的XML文档。

也就是没有规则生成模块，也可以是将PDF源文档经过中间文档生成模块，产生中间XML文档，不经过规则生成模块，而是直接进入自动抽取模块，输出目标XML文档。

本发明可以对转换后的XML文档做进一步的操作，从而提高文档自动分类和用户信息检索的效率。

附图说明：

图1为本发明的系统总体框架图；

图2为本发明的系统流程图；

图3为样例PDF源文档片断；

图4为样例中间XML文档片断；

图5为样例目标XML文档

图中：1为PDF源文档；2为PDF样本文档；3为中间XML文档；4为规则XSLT文档；5为目标XML文档；6为PDF文档库；7为中间文档生成模块；8为规则生成模块；9为自动抽取模块；10为XSLT规则文档库；11为目标XML文档库

以下将结合实施例对本发明进行进一步的描述：

具体实施方式：

一、模块的具体设计和实现

1.中间文档生成模块：

中间文档生成模块7设计是先将PDF源文档1转换成为一种易于处理的中间格式，再对中间格式进行基于规则的自动的XML文档转换。

本模块的实现有两个关键点：

(一)中间文档的结构的定义。

对中间文档结构设计的要求如下：一是它能够描述源文档的格式特征和编排结构信息，这是自动抽取模块9规则匹配的依据；二是PDF文档到中间文档的转换最好能够较为容易地进行。

(二)设计PDF文档的解析器，生成满足上述要求的中间文档。

目前，有不少软件如pdfpert，pdftohtml等，能够将PDF文档转换为XML文档。它们转换后生成的XML文档基本上都是平级XML文档，其中的XML元素和属性包含了PDF源文档1中大量的显示信息。因此，可以基于上述软件提供的接口开发中间文档生成模块。

2.规则生成模块：

该模块的功能是生成应用于PDF源文档1对应的中间XML文档3的规则XSLT文档4。规则生成模块8采用半自动化的方式生成规则，具体包括以下三个步骤：

(一)开发用户学习界面。用户首先全面理解PDF样本文档2的内容和结构，并在用户学习界面的帮助下，建立语义项与文本块之间的映射关系。系统利用Adobe在Acrobat 7.0 SDK中提供的一个IAC(Interapplication Communication)实例ActiveView完成用户学习界面的开发。

(二)生成规则中间文档。目的是方便规则XSLT文档4的编写。这个过程是通过对PDF样本文档2对应的中间XML文档3进行解析完成的。由于中间XML文档3的结构趋于平面化，整个文档的数据量很大，而目标文档的生成所需的信息一般只位于文档的开始部分，所以选择XML简单应用编程接口SAX对中间XML文档3进行解析。Sun公司提供了Java API for XML Parsing(JAXP)接口支持SAX和DOM的使用，任何与JAXP兼容的XML文档解析器都可以使用，如Apache的Xerces解析器。

(三)编辑规则XSLT文档4。结合文本块的显示特征，位置特征以及先验的文本特征，根据每个元素的XPath形成XSLT文档。该XSLT文档就是抽取规则。

3.自动抽取模块：

由于抽取规则采用XSLT语言进行编辑，所以自动抽取模块9需要做的工作是执行抽取规则XSLT文档4。本系统使用Xalan作为XSLT执行引擎，由于XSLT执行引擎都实现了XML转换接口，所以它们可以任意替代而不影响应用程序代码。

二、信息抽取系统运行过程

步骤一：针对PDF样本文档2的内容，用户为页面信息附加语义；根据用户建立的语义项和文本块之间的映射关系，系统自动生成标记语义项和信息块特征的规则中间XML文档；完成规则XSLT文档4的编辑，存入规则文档库中。

步骤二：用户从PDF文档库中选择PDF源文档1，同时从规则文档库中选择规则文档。系统调用中间文档生成模块7，通过文档解析器读取PDF源文档1的内容，并将其转换为中间XML文档3。中间XML文档3是自动抽取模块9的输入项。

步骤三：自动抽取模块9使用规则解析器读取规则文档中的内容，自动地将抽取规则应用于中间XML文档3，从而得到满足目标DTD文档并具有语义信息的XML文档。

其中，规范目标XML文档的DTD文件如下：

<?xml version=“1.0”?><!ELEMENT articleinfo(title,(authors,address?,email?)+,abstract?,keywords?)><!ELEMENT title(#PCDATA)><!ELEMENT authors(author+)><!ELEMENT emails(email+)><!ELEMENT author(#PCDATA)><!ELEMENT address(#PCDATA)><!ELEMENT email(#PCDATA)><!ELEMENT abstract(#PCDATA)><!ELEMENT keywords(#PCDATA)>

三.系统的特点

1.系统通过中间文档生成模块7，先将PDF文档转换为中间文档，该中间文档保留了PDF源文档1中的文本显示信息以及版面编排结构特征，方便了自动抽取模块9的规则匹配，从而降低了系统设计的难度。

2.中间文档生成模块7选择XML格式作为中间文档的信息表现形式，优点表现在以下两个方面：

(一)可以通过XML文档的自定义标签(包括元素和属性)保存PDF源文档1中的显示信息，从而可以利用PDF文档中的显示信息有效地完成基于规则的信息抽取。

(二)可以利用XML的标准化工具完成对中间文档的合法性验证和有效性验证，以及利用XML的解析模型DOM或SAX对中间文档进行解析，而不需要开发专门的工具，从而减少了不必要的系统开支。

3.在规则生成模块中，选择XSLT作为抽取规则描述语言。

XSLT作为W3C制定的标准，支持它的工具很多，目前已经获得了包括xalan在内的二十多种工具的支持；XSLT定义了一套强大而且灵活的数据定位指令XPath和抽取指令，具有部分的高级编程语言的能力，能够应付许多场合的变换要求；XSLT采用XML语法进行定义，易于理解和修改，而且具有良好的扩展性；与java，c等高级语言相比，XSLT能够以少量代码完成文本块的定位和抽取。

本发明也可以是将PDF源文档1经过中间文档生成模块7，产生中间XML文档3，不经过规则生成模块8，而是直接进入自动抽取模块9，输出目标XML文档5。还可以将PDF文档，先经过规则生成模块8，输出规则XSLT文档4，再进入自动抽取模块9，输出目标XML文档5。

PDF源文档1为系统处理的原始对象、PDF样本文档2为提供给用户学习从而获得系统抽取规则的对象。

Claims

1、一种PDF文档到XML文档转换的方法，其特征在于：所述方法包含以下步骤：

步骤一：利用中间文档生成模块，针对PDF样本文档(2)的内容，并根据语义项和文本块之间的映射关系，系统自动生成标记语义项和文本块特征的中间XML文档(3)，这种中间XML文档能够描述样本文档的格式特征和编排结构信息；

步骤二：利用规则生成模块，对PDF样本文档(2)进行分析和处理，调用中间文档生成模块(7)以产生与PDF样本文档(2)相对应的中间XML文档，并通过文档解析器读取PDF样本文档(2)的内容，将其转换为规则XSLT文档(4)，所述规则生成模块的功能是生成应用于与PDF源文档相对应的中间XML文档的规则XSLT文档，所述规则生成模块采用半自动化的方式生成规则；

步骤三：利用自动抽取模块，接受规则XSLT文档(4)，得到满足目标DTD文档并具有语义信息的目标XML文档(5)，由所述自动抽取模块读取规则XSLT文档的内容，自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档，从而得到满足文档定义并具有语义信息的XML文档。

2、一种PDF文档到XML文档转换的方法，其特征在于：所述方法包含以下步骤：

步骤一：利用中间文档生成模块，针对PDF源文档(1)的内容，根据语义项和文本块之间的映射关系，系统自动生成标记语义项和文本块特征的中间XML文档(3)，这种中间XML文档能够描述源文档的格式特征和编排结构信息；

步骤二：利用自动抽取模块，接受XSLT规则文档库中相应的规则XSLT文档(4)，得到满足目标DTD文档并具有语义信息的目标XML文档(5)，由所述自动抽取模块读取所述规则XSLT文档的内容，自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档，从而得到满足文档定义并具有语义信息的XML文档。

3、根据权利要求1所述的一种PDF文档到XML文档转换的方法，其特征在于：规则生成模块(8)生成的结果为规则XSLT文档，包括以下三个步骤：步骤一，开发用户学习界面，用户全面理解PDF样本文档(2)的内容和结构，并在用户学习界面的帮助下，建立语义项与文本块之间的映射关系；步骤二，生成规则中间文档，通过对与PDF样本文档(2)相对应的中间XML文档(3)进行解析完成的；步骤三，编辑规则XSLT文档，结合文本块的显示特征，位置特征以及先验的文本特征，根据每个元素的XPath形成XSLT文档。