CN100347706C - 一种pdf文档到xml文档转换的方法 - Google Patents

一种pdf文档到xml文档转换的方法 Download PDF

Info

Publication number
CN100347706C
CN100347706C CNB2005101228904A CN200510122890A CN100347706C CN 100347706 C CN100347706 C CN 100347706C CN B2005101228904 A CNB2005101228904 A CN B2005101228904A CN 200510122890 A CN200510122890 A CN 200510122890A CN 100347706 C CN100347706 C CN 100347706C
Authority
CN
China
Prior art keywords
document
pdf
xml
regular
xslt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005101228904A
Other languages
English (en)
Other versions
CN1776673A (zh
Inventor
张文德
宋艳娟
陈振标
杨传耀
陈俊林
朱丹红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CNB2005101228904A priority Critical patent/CN100347706C/zh
Publication of CN1776673A publication Critical patent/CN1776673A/zh
Application granted granted Critical
Publication of CN100347706C publication Critical patent/CN100347706C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模块:对PDF样本文档(2)进行分析和处理,调用中间文档生成模块(7)产生的中间XML文档(3),通过文档解析器读取PDF源文档(1)的内容,并将其转换为规则的XSLT文档;(三)自动抽取模块:接受规则的XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档(5)。本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。

Description

一种PDF文档到XML文档转换的方法
技术领域:
本发明是一种信息转化的方法,属于信息技术类,确切地说,它包括中间文档生成模块、规则生成模块、自动抽取模块的信息抽取系统的方法。
背景技术:
随着Web技术的发展,越来越多的信息呈现在用户面前。如何对海量的信息资源进行处理,是数字图书馆研究工作的一项重要内容。为了实现对网络信息资源的有效开发利用,需要进行信息的分类、检索等操作。所有对信息处理的操作都应该涉及到对文档信息的抽取。文档信息抽取是指从一段文本中抽取指定的一类信息,并将其形成结构化数据填入数据库中供用户查询使用的过程。
信息抽取现有三种基本实现方法:基于字典,基于马尔可夫模型和基于规则。其中,基于字典和基于马尔可夫模型主要应用于WebIE领域;只有基于规则的方法不仅应用于WebIE中,同时也是实现信息抽取的主要方法。目前有三种主要的基于规则的信息抽取技术:基于自然语言理解、基于Ontology和基于DOM树。
1、基于自然语言理解的信息抽取技术:自然语言的处理技术通常用于自由文本的信息抽取。自然语言处理的过程如下:首先把文本分割成多个句子,对每个句子的成分进行标记;然后将已分析好的句子成分和事先定义好的规则进行匹配,从而获得句子的内容。这种信息抽取方法的实质是,根据语义项对应的语义类,语义项的上下文和所处的句子成分实现信息的定位。它主要适合源文档中含有大量文本的情况,尤其是合乎文法的文本。
2、基于ontology的信息抽取主要利用了对数据本身的描述信息实现抽取。采用该方法,事先要由知识领域专家采用人工的方式书写某一应用领域的ontology,并且根据ontology中常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取获得各语义项的值。这种方法对页面的结构和表现形式依赖少,只要事先创建的应用领域的ontology足够强大,系统可以对某一应用领域中各种网页实现信息抽取。不过,这事先需要构造一个完整的ontology库,而构造这样一个库需要花费专家大量的时间;而且,有时很多信息很难给出对应的ontology库。
3、基于DOM树的信息抽取技术:在信息抽取之前,通过解析器将HTML文档或XML文档解析成DOM树,然后以自动化或半自动化的方式产生抽取规则,将信息抽取转化为对DOM树的操作。该类信息抽取技术应用于能够表示为DOM树的文档,如HTML文档,XML文档的信息抽取。
经检索:还没有见到一种包括中间文档生成模块、规则生成模块、自动抽取模块信息抽取系统的方法,从PDF文档到XML文档转换的方法方面的文献报道。
发明内容:
本发明的目的在于发明一种信息抽取的方法。
本发明是这样实现的:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF样本文档的内容,并根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档,这种中间XML文档能够描述样本文档的格式特征和编排结构信息;
步骤二:利用规则生成模块,对PDF样本文档进行分析和处理,调用中间文档生成模块以产生与PDF样本文档相对应的中间XML文档,并通过文档解析器读取PDF样本文档的内容,将其转换为规则XSLT文档,所述规则生成模块的功能是生成应用于与PDF源文档相对应的中间XML文档的规则XSLT文档,所述规则生成模块采用半自动化的方式生成规则;
步骤三:利用自动抽取模块,接受规则XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档,由所述自动抽取模块读取规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
本发明还有一种是这样实现的:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF源文档的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档,这种中间XML文档能够描述源文档的格式特征和编排结构信息;
步骤二:利用自动抽取模块,接受XSLT规则文档库中相应的规则XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档,由所述自动抽取模块读取所述规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
也就是没有规则生成模块,也可以是将PDF源文档经过中间文档生成模块,产生中间XML文档,不经过规则生成模块,而是直接进入自动抽取模块,输出目标XML文档。
本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。
附图说明:
图1为本发明的系统总体框架图;
图2为本发明的系统流程图;
图3为样例PDF源文档片断;
图4为样例中间XML文档片断;
图5为样例目标XML文档
图中:1为PDF源文档;2为PDF样本文档;3为中间XML文档;4为规则XSLT文档;5为目标XML文档;6为PDF文档库;7为中间文档生成模块;8为规则生成模块;9为自动抽取模块;10为XSLT规则文档库;11为目标XML文档库
以下将结合实施例对本发明进行进一步的描述:
具体实施方式:
一、模块的具体设计和实现
1.中间文档生成模块:
中间文档生成模块7设计是先将PDF源文档1转换成为一种易于处理的中间格式,再对中间格式进行基于规则的自动的XML文档转换。
本模块的实现有两个关键点:
(一)中间文档的结构的定义。
对中间文档结构设计的要求如下:一是它能够描述源文档的格式特征和编排结构信息,这是自动抽取模块9规则匹配的依据;二是PDF文档到中间文档的转换最好能够较为容易地进行。
(二)设计PDF文档的解析器,生成满足上述要求的中间文档。
目前,有不少软件如pdfpert,pdftohtml等,能够将PDF文档转换为XML文档。它们转换后生成的XML文档基本上都是平级XML文档,其中的XML元素和属性包含了PDF源文档1中大量的显示信息。因此,可以基于上述软件提供的接口开发中间文档生成模块。
2.规则生成模块:
该模块的功能是生成应用于PDF源文档1对应的中间XML文档3的规则XSLT文档4。规则生成模块8采用半自动化的方式生成规则,具体包括以下三个步骤:
(一)开发用户学习界面。用户首先全面理解PDF样本文档2的内容和结构,并在用户学习界面的帮助下,建立语义项与文本块之间的映射关系。系统利用Adobe在Acrobat 7.0 SDK中提供的一个IAC(Interapplication Communication)实例ActiveView完成用户学习界面的开发。
(二)生成规则中间文档。目的是方便规则XSLT文档4的编写。这个过程是通过对PDF样本文档2对应的中间XML文档3进行解析完成的。由于中间XML文档3的结构趋于平面化,整个文档的数据量很大,而目标文档的生成所需的信息一般只位于文档的开始部分,所以选择XML简单应用编程接口SAX对中间XML文档3进行解析。Sun公司提供了Java API for XML Parsing(JAXP)接口支持SAX和DOM的使用,任何与JAXP兼容的XML文档解析器都可以使用,如Apache的Xerces解析器。
(三)编辑规则XSLT文档4。结合文本块的显示特征,位置特征以及先验的文本特征,根据每个元素的XPath形成XSLT文档。该XSLT文档就是抽取规则。
3.自动抽取模块:
由于抽取规则采用XSLT语言进行编辑,所以自动抽取模块9需要做的工作是执行抽取规则XSLT文档4。本系统使用Xalan作为XSLT执行引擎,由于XSLT执行引擎都实现了XML转换接口,所以它们可以任意替代而不影响应用程序代码。
二、信息抽取系统运行过程
步骤一:针对PDF样本文档2的内容,用户为页面信息附加语义;根据用户建立的语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的规则中间XML文档;完成规则XSLT文档4的编辑,存入规则文档库中。
步骤二:用户从PDF文档库中选择PDF源文档1,同时从规则文档库中选择规则文档。系统调用中间文档生成模块7,通过文档解析器读取PDF源文档1的内容,并将其转换为中间XML文档3。中间XML文档3是自动抽取模块9的输入项。
步骤三:自动抽取模块9使用规则解析器读取规则文档中的内容,自动地将抽取规则应用于中间XML文档3,从而得到满足目标DTD文档并具有语义信息的XML文档。
其中,规范目标XML文档的DTD文件如下:
  <?xml version=“1.0”?><!ELEMENT articleinfo(title,(authors,address?,email?)+,abstract?,keywords?)><!ELEMENT title(#PCDATA)><!ELEMENT authors(author+)><!ELEMENT emails(email+)><!ELEMENT author(#PCDATA)><!ELEMENT address(#PCDATA)><!ELEMENT email(#PCDATA)><!ELEMENT abstract(#PCDATA)><!ELEMENT keywords(#PCDATA)>
三.系统的特点
1.系统通过中间文档生成模块7,先将PDF文档转换为中间文档,该中间文档保留了PDF源文档1中的文本显示信息以及版面编排结构特征,方便了自动抽取模块9的规则匹配,从而降低了系统设计的难度。
2.中间文档生成模块7选择XML格式作为中间文档的信息表现形式,优点表现在以下两个方面:
(一)可以通过XML文档的自定义标签(包括元素和属性)保存PDF源文档1中的显示信息,从而可以利用PDF文档中的显示信息有效地完成基于规则的信息抽取。
(二)可以利用XML的标准化工具完成对中间文档的合法性验证和有效性验证,以及利用XML的解析模型DOM或SAX对中间文档进行解析,而不需要开发专门的工具,从而减少了不必要的系统开支。
3.在规则生成模块中,选择XSLT作为抽取规则描述语言。
XSLT作为W3C制定的标准,支持它的工具很多,目前已经获得了包括xalan在内的二十多种工具的支持;XSLT定义了一套强大而且灵活的数据定位指令XPath和抽取指令,具有部分的高级编程语言的能力,能够应付许多场合的变换要求;XSLT采用XML语法进行定义,易于理解和修改,而且具有良好的扩展性;与java,c等高级语言相比,XSLT能够以少量代码完成文本块的定位和抽取。
本发明也可以是将PDF源文档1经过中间文档生成模块7,产生中间XML文档3,不经过规则生成模块8,而是直接进入自动抽取模块9,输出目标XML文档5。还可以将PDF文档,先经过规则生成模块8,输出规则XSLT文档4,再进入自动抽取模块9,输出目标XML文档5。
PDF源文档1为系统处理的原始对象、PDF样本文档2为提供给用户学习从而获得系统抽取规则的对象。

Claims (3)

1、一种PDF文档到XML文档转换的方法,其特征在于:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF样本文档(2)的内容,并根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档(3),这种中间XML文档能够描述样本文档的格式特征和编排结构信息;
步骤二:利用规则生成模块,对PDF样本文档(2)进行分析和处理,调用中间文档生成模块(7)以产生与PDF样本文档(2)相对应的中间XML文档,并通过文档解析器读取PDF样本文档(2)的内容,将其转换为规则XSLT文档(4),所述规则生成模块的功能是生成应用于与PDF源文档相对应的中间XML文档的规则XSLT文档,所述规则生成模块采用半自动化的方式生成规则;
步骤三:利用自动抽取模块,接受规则XSLT文档(4),得到满足目标DTD文档并具有语义信息的目标XML文档(5),由所述自动抽取模块读取规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
2、一种PDF文档到XML文档转换的方法,其特征在于:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF源文档(1)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档(3),这种中间XML文档能够描述源文档的格式特征和编排结构信息;
步骤二:利用自动抽取模块,接受XSLT规则文档库中相应的规则XSLT文档(4),得到满足目标DTD文档并具有语义信息的目标XML文档(5),由所述自动抽取模块读取所述规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
3、根据权利要求1所述的一种PDF文档到XML文档转换的方法,其特征在于:规则生成模块(8)生成的结果为规则XSLT文档,包括以下三个步骤:步骤一,开发用户学习界面,用户全面理解PDF样本文档(2)的内容和结构,并在用户学习界面的帮助下,建立语义项与文本块之间的映射关系;步骤二,生成规则中间文档,通过对与PDF样本文档(2)相对应的中间XML文档(3)进行解析完成的;步骤三,编辑规则XSLT文档,结合文本块的显示特征,位置特征以及先验的文本特征,根据每个元素的XPath形成XSLT文档。
CNB2005101228904A 2005-12-03 2005-12-03 一种pdf文档到xml文档转换的方法 Expired - Fee Related CN100347706C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005101228904A CN100347706C (zh) 2005-12-03 2005-12-03 一种pdf文档到xml文档转换的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101228904A CN100347706C (zh) 2005-12-03 2005-12-03 一种pdf文档到xml文档转换的方法

Publications (2)

Publication Number Publication Date
CN1776673A CN1776673A (zh) 2006-05-24
CN100347706C true CN100347706C (zh) 2007-11-07

Family

ID=36766172

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101228904A Expired - Fee Related CN100347706C (zh) 2005-12-03 2005-12-03 一种pdf文档到xml文档转换的方法

Country Status (1)

Country Link
CN (1) CN100347706C (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306143A (zh) * 2011-09-22 2012-01-04 汉王科技股份有限公司 一种pdf文档生成、编辑的方法和系统
CN104765717A (zh) * 2014-01-08 2015-07-08 北大方正集团有限公司 一种批量文档格式转换的方法及装置
CN109002425B (zh) * 2018-06-19 2022-03-22 平安科技(深圳)有限公司 企业上下游关系的获取方法、终端设备及介质
CN109582928B (zh) * 2018-12-06 2023-07-21 万兴科技股份有限公司 Pdf报表数据提取方法及装置
CN111581948B (zh) * 2020-04-03 2024-02-09 北京百度网讯科技有限公司 文档解析方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030106021A1 (en) * 2001-11-30 2003-06-05 Tushar Mangrola Apparatus and method for creating PDF documents
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030106021A1 (en) * 2001-11-30 2003-06-05 Tushar Mangrola Apparatus and method for creating PDF documents
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于XML的PDF文档内容与结构的表示的实现 葛一兵,余智华.计算机工程与应用,第14期 2004 *

Also Published As

Publication number Publication date
CN1776673A (zh) 2006-05-24

Similar Documents

Publication Publication Date Title
Plessers et al. Accessibility: a web engineering approach
CN101079031A (zh) 一种网页主题提取系统和方法
CN100576201C (zh) 用于从自然语言文本开发本体的方法和电子数据处理系统
Margaretha et al. Building linguistic corpora from Wikipedia articles and discussions
US20070033520A1 (en) System and method for web page localization
US20070136698A1 (en) Method, system and apparatus for a parser for use in the processing of structured documents
CN101055578A (zh) 基于规则的文档内容挖掘器
CN101290624B (zh) 一种新闻网页元数据自动抽取方法
US20090019015A1 (en) Mathematical expression structured language object search system and search method
CN1687926A (zh) 一种基于xml的pdf文档信息抽取系统的方法
US20120310868A1 (en) Method and system for extracting and managing information contained in electronic documents
RU2003134278A (ru) Способ и считываемый компьютером носитель для импорта и экспорта иерархически структурированных данных
Müller et al. Multi-level annotation in MMAX
CN1732461A (zh) 基于要素的多个文件的分析系统和方法
CN100347706C (zh) 一种pdf文档到xml文档转换的方法
US20080163077A1 (en) System and method for visually generating an xquery document
CN109492199A (zh) 一种基于ocr预判断的pdf文件转换方法
CN101079025A (zh) 一种文档相关度计算系统和方法
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
CN114546988A (zh) 一种支持多字段类型markdown数据库文档转sql建表语句的方法
Rupp et al. Flexible interfaces in the application of language technology to an eScience corpus
CN112506488A (zh) 一种基于sql创建语句生成编程语言类的方法
CN1604075A (zh) 一种对报纸版面进行文字阅读顺序恢复的方法
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN105653516A (zh) 平行语料对齐的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071107

Termination date: 20101203