CN100347706C - 一种pdf文档到xml文档转换的方法 - Google Patents
一种pdf文档到xml文档转换的方法 Download PDFInfo
- Publication number
- CN100347706C CN100347706C CNB2005101228904A CN200510122890A CN100347706C CN 100347706 C CN100347706 C CN 100347706C CN B2005101228904 A CNB2005101228904 A CN B2005101228904A CN 200510122890 A CN200510122890 A CN 200510122890A CN 100347706 C CN100347706 C CN 100347706C
- Authority
- CN
- China
- Prior art keywords
- document
- xml
- regular
- xslt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种PDF文档到XML文档转换的方法,(一)中间文档生成模块(7):针对PDF样本文档(2)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的中间XML文档(3);(二)规则生成模块:对PDF样本文档(2)进行分析和处理,调用中间文档生成模块(7)产生的中间XML文档(3),通过文档解析器读取PDF源文档(1)的内容,并将其转换为规则的XSLT文档;(三)自动抽取模块:接受规则的XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档(5)。本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。
Description
技术领域:
本发明是一种信息转化的方法,属于信息技术类,确切地说,它包括中间文档生成模块、规则生成模块、自动抽取模块的信息抽取系统的方法。
背景技术:
随着Web技术的发展,越来越多的信息呈现在用户面前。如何对海量的信息资源进行处理,是数字图书馆研究工作的一项重要内容。为了实现对网络信息资源的有效开发利用,需要进行信息的分类、检索等操作。所有对信息处理的操作都应该涉及到对文档信息的抽取。文档信息抽取是指从一段文本中抽取指定的一类信息,并将其形成结构化数据填入数据库中供用户查询使用的过程。
信息抽取现有三种基本实现方法:基于字典,基于马尔可夫模型和基于规则。其中,基于字典和基于马尔可夫模型主要应用于WebIE领域;只有基于规则的方法不仅应用于WebIE中,同时也是实现信息抽取的主要方法。目前有三种主要的基于规则的信息抽取技术:基于自然语言理解、基于Ontology和基于DOM树。
1、基于自然语言理解的信息抽取技术:自然语言的处理技术通常用于自由文本的信息抽取。自然语言处理的过程如下:首先把文本分割成多个句子,对每个句子的成分进行标记;然后将已分析好的句子成分和事先定义好的规则进行匹配,从而获得句子的内容。这种信息抽取方法的实质是,根据语义项对应的语义类,语义项的上下文和所处的句子成分实现信息的定位。它主要适合源文档中含有大量文本的情况,尤其是合乎文法的文本。
2、基于ontology的信息抽取主要利用了对数据本身的描述信息实现抽取。采用该方法,事先要由知识领域专家采用人工的方式书写某一应用领域的ontology,并且根据ontology中常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取获得各语义项的值。这种方法对页面的结构和表现形式依赖少,只要事先创建的应用领域的ontology足够强大,系统可以对某一应用领域中各种网页实现信息抽取。不过,这事先需要构造一个完整的ontology库,而构造这样一个库需要花费专家大量的时间;而且,有时很多信息很难给出对应的ontology库。
3、基于DOM树的信息抽取技术:在信息抽取之前,通过解析器将HTML文档或XML文档解析成DOM树,然后以自动化或半自动化的方式产生抽取规则,将信息抽取转化为对DOM树的操作。该类信息抽取技术应用于能够表示为DOM树的文档,如HTML文档,XML文档的信息抽取。
经检索:还没有见到一种包括中间文档生成模块、规则生成模块、自动抽取模块信息抽取系统的方法,从PDF文档到XML文档转换的方法方面的文献报道。
发明内容:
本发明的目的在于发明一种信息抽取的方法。
本发明是这样实现的:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF样本文档的内容,并根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档,这种中间XML文档能够描述样本文档的格式特征和编排结构信息;
步骤二:利用规则生成模块,对PDF样本文档进行分析和处理,调用中间文档生成模块以产生与PDF样本文档相对应的中间XML文档,并通过文档解析器读取PDF样本文档的内容,将其转换为规则XSLT文档,所述规则生成模块的功能是生成应用于与PDF源文档相对应的中间XML文档的规则XSLT文档,所述规则生成模块采用半自动化的方式生成规则;
步骤三:利用自动抽取模块,接受规则XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档,由所述自动抽取模块读取规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
本发明还有一种是这样实现的:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF源文档的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档,这种中间XML文档能够描述源文档的格式特征和编排结构信息;
步骤二:利用自动抽取模块,接受XSLT规则文档库中相应的规则XSLT文档,得到满足目标DTD文档并具有语义信息的目标XML文档,由所述自动抽取模块读取所述规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
也就是没有规则生成模块,也可以是将PDF源文档经过中间文档生成模块,产生中间XML文档,不经过规则生成模块,而是直接进入自动抽取模块,输出目标XML文档。
本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。
附图说明:
图1为本发明的系统总体框架图;
图2为本发明的系统流程图;
图3为样例PDF源文档片断;
图4为样例中间XML文档片断;
图5为样例目标XML文档
图中:1为PDF源文档;2为PDF样本文档;3为中间XML文档;4为规则XSLT文档;5为目标XML文档;6为PDF文档库;7为中间文档生成模块;8为规则生成模块;9为自动抽取模块;10为XSLT规则文档库;11为目标XML文档库
以下将结合实施例对本发明进行进一步的描述:
具体实施方式:
一、模块的具体设计和实现
1.中间文档生成模块:
中间文档生成模块7设计是先将PDF源文档1转换成为一种易于处理的中间格式,再对中间格式进行基于规则的自动的XML文档转换。
本模块的实现有两个关键点:
(一)中间文档的结构的定义。
对中间文档结构设计的要求如下:一是它能够描述源文档的格式特征和编排结构信息,这是自动抽取模块9规则匹配的依据;二是PDF文档到中间文档的转换最好能够较为容易地进行。
(二)设计PDF文档的解析器,生成满足上述要求的中间文档。
目前,有不少软件如pdfpert,pdftohtml等,能够将PDF文档转换为XML文档。它们转换后生成的XML文档基本上都是平级XML文档,其中的XML元素和属性包含了PDF源文档1中大量的显示信息。因此,可以基于上述软件提供的接口开发中间文档生成模块。
2.规则生成模块:
该模块的功能是生成应用于PDF源文档1对应的中间XML文档3的规则XSLT文档4。规则生成模块8采用半自动化的方式生成规则,具体包括以下三个步骤:
(一)开发用户学习界面。用户首先全面理解PDF样本文档2的内容和结构,并在用户学习界面的帮助下,建立语义项与文本块之间的映射关系。系统利用Adobe在Acrobat 7.0 SDK中提供的一个IAC(Interapplication Communication)实例ActiveView完成用户学习界面的开发。
(二)生成规则中间文档。目的是方便规则XSLT文档4的编写。这个过程是通过对PDF样本文档2对应的中间XML文档3进行解析完成的。由于中间XML文档3的结构趋于平面化,整个文档的数据量很大,而目标文档的生成所需的信息一般只位于文档的开始部分,所以选择XML简单应用编程接口SAX对中间XML文档3进行解析。Sun公司提供了Java API for XML Parsing(JAXP)接口支持SAX和DOM的使用,任何与JAXP兼容的XML文档解析器都可以使用,如Apache的Xerces解析器。
(三)编辑规则XSLT文档4。结合文本块的显示特征,位置特征以及先验的文本特征,根据每个元素的XPath形成XSLT文档。该XSLT文档就是抽取规则。
3.自动抽取模块:
由于抽取规则采用XSLT语言进行编辑,所以自动抽取模块9需要做的工作是执行抽取规则XSLT文档4。本系统使用Xalan作为XSLT执行引擎,由于XSLT执行引擎都实现了XML转换接口,所以它们可以任意替代而不影响应用程序代码。
二、信息抽取系统运行过程
步骤一:针对PDF样本文档2的内容,用户为页面信息附加语义;根据用户建立的语义项和文本块之间的映射关系,系统自动生成标记语义项和信息块特征的规则中间XML文档;完成规则XSLT文档4的编辑,存入规则文档库中。
步骤二:用户从PDF文档库中选择PDF源文档1,同时从规则文档库中选择规则文档。系统调用中间文档生成模块7,通过文档解析器读取PDF源文档1的内容,并将其转换为中间XML文档3。中间XML文档3是自动抽取模块9的输入项。
步骤三:自动抽取模块9使用规则解析器读取规则文档中的内容,自动地将抽取规则应用于中间XML文档3,从而得到满足目标DTD文档并具有语义信息的XML文档。
其中,规范目标XML文档的DTD文件如下:
<?xml version=“1.0”?><!ELEMENT articleinfo(title,(authors,address?,email?)+,abstract?,keywords?)><!ELEMENT title(#PCDATA)><!ELEMENT authors(author+)><!ELEMENT emails(email+)><!ELEMENT author(#PCDATA)><!ELEMENT address(#PCDATA)><!ELEMENT email(#PCDATA)><!ELEMENT abstract(#PCDATA)><!ELEMENT keywords(#PCDATA)> |
三.系统的特点
1.系统通过中间文档生成模块7,先将PDF文档转换为中间文档,该中间文档保留了PDF源文档1中的文本显示信息以及版面编排结构特征,方便了自动抽取模块9的规则匹配,从而降低了系统设计的难度。
2.中间文档生成模块7选择XML格式作为中间文档的信息表现形式,优点表现在以下两个方面:
(一)可以通过XML文档的自定义标签(包括元素和属性)保存PDF源文档1中的显示信息,从而可以利用PDF文档中的显示信息有效地完成基于规则的信息抽取。
(二)可以利用XML的标准化工具完成对中间文档的合法性验证和有效性验证,以及利用XML的解析模型DOM或SAX对中间文档进行解析,而不需要开发专门的工具,从而减少了不必要的系统开支。
3.在规则生成模块中,选择XSLT作为抽取规则描述语言。
XSLT作为W3C制定的标准,支持它的工具很多,目前已经获得了包括xalan在内的二十多种工具的支持;XSLT定义了一套强大而且灵活的数据定位指令XPath和抽取指令,具有部分的高级编程语言的能力,能够应付许多场合的变换要求;XSLT采用XML语法进行定义,易于理解和修改,而且具有良好的扩展性;与java,c等高级语言相比,XSLT能够以少量代码完成文本块的定位和抽取。
本发明也可以是将PDF源文档1经过中间文档生成模块7,产生中间XML文档3,不经过规则生成模块8,而是直接进入自动抽取模块9,输出目标XML文档5。还可以将PDF文档,先经过规则生成模块8,输出规则XSLT文档4,再进入自动抽取模块9,输出目标XML文档5。
PDF源文档1为系统处理的原始对象、PDF样本文档2为提供给用户学习从而获得系统抽取规则的对象。
Claims (3)
1、一种PDF文档到XML文档转换的方法,其特征在于:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF样本文档(2)的内容,并根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档(3),这种中间XML文档能够描述样本文档的格式特征和编排结构信息;
步骤二:利用规则生成模块,对PDF样本文档(2)进行分析和处理,调用中间文档生成模块(7)以产生与PDF样本文档(2)相对应的中间XML文档,并通过文档解析器读取PDF样本文档(2)的内容,将其转换为规则XSLT文档(4),所述规则生成模块的功能是生成应用于与PDF源文档相对应的中间XML文档的规则XSLT文档,所述规则生成模块采用半自动化的方式生成规则;
步骤三:利用自动抽取模块,接受规则XSLT文档(4),得到满足目标DTD文档并具有语义信息的目标XML文档(5),由所述自动抽取模块读取规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
2、一种PDF文档到XML文档转换的方法,其特征在于:所述方法包含以下步骤:
步骤一:利用中间文档生成模块,针对PDF源文档(1)的内容,根据语义项和文本块之间的映射关系,系统自动生成标记语义项和文本块特征的中间XML文档(3),这种中间XML文档能够描述源文档的格式特征和编排结构信息;
步骤二:利用自动抽取模块,接受XSLT规则文档库中相应的规则XSLT文档(4),得到满足目标DTD文档并具有语义信息的目标XML文档(5),由所述自动抽取模块读取所述规则XSLT文档的内容,自动地将规则XSLT应用于与PDF源文档相对应的中间XML文档,从而得到满足文档定义并具有语义信息的XML文档。
3、根据权利要求1所述的一种PDF文档到XML文档转换的方法,其特征在于:规则生成模块(8)生成的结果为规则XSLT文档,包括以下三个步骤:步骤一,开发用户学习界面,用户全面理解PDF样本文档(2)的内容和结构,并在用户学习界面的帮助下,建立语义项与文本块之间的映射关系;步骤二,生成规则中间文档,通过对与PDF样本文档(2)相对应的中间XML文档(3)进行解析完成的;步骤三,编辑规则XSLT文档,结合文本块的显示特征,位置特征以及先验的文本特征,根据每个元素的XPath形成XSLT文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101228904A CN100347706C (zh) | 2005-12-03 | 2005-12-03 | 一种pdf文档到xml文档转换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101228904A CN100347706C (zh) | 2005-12-03 | 2005-12-03 | 一种pdf文档到xml文档转换的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1776673A CN1776673A (zh) | 2006-05-24 |
CN100347706C true CN100347706C (zh) | 2007-11-07 |
Family
ID=36766172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005101228904A Expired - Fee Related CN100347706C (zh) | 2005-12-03 | 2005-12-03 | 一种pdf文档到xml文档转换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100347706C (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306143A (zh) * | 2011-09-22 | 2012-01-04 | 汉王科技股份有限公司 | 一种pdf文档生成、编辑的方法和系统 |
CN104765717A (zh) * | 2014-01-08 | 2015-07-08 | 北大方正集团有限公司 | 一种批量文档格式转换的方法及装置 |
CN109002425B (zh) * | 2018-06-19 | 2022-03-22 | 平安科技(深圳)有限公司 | 企业上下游关系的获取方法、终端设备及介质 |
CN109582928B (zh) * | 2018-12-06 | 2023-07-21 | 万兴科技股份有限公司 | Pdf报表数据提取方法及装置 |
CN111581948B (zh) * | 2020-04-03 | 2024-02-09 | 北京百度网讯科技有限公司 | 文档解析方法、装置、设备及存储介质 |
CN113505566B (zh) * | 2021-05-25 | 2024-06-18 | 北京北大方正电子有限公司 | 一种版式文档的处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030106021A1 (en) * | 2001-11-30 | 2003-06-05 | Tushar Mangrola | Apparatus and method for creating PDF documents |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
-
2005
- 2005-12-03 CN CNB2005101228904A patent/CN100347706C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030106021A1 (en) * | 2001-11-30 | 2003-06-05 | Tushar Mangrola | Apparatus and method for creating PDF documents |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
Non-Patent Citations (1)
Title |
---|
基于XML的PDF文档内容与结构的表示的实现 葛一兵,余智华.计算机工程与应用,第14期 2004 * |
Also Published As
Publication number | Publication date |
---|---|
CN1776673A (zh) | 2006-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Plessers et al. | Accessibility: a web engineering approach | |
CN101361063B (zh) | 支持基于规则的文档内容挖掘的系统与方法 | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN100576201C (zh) | 用于从自然语言文本开发本体的方法和电子数据处理系统 | |
CN106959944A (zh) | 一种基于中文语法规则的事件提取方法和系统 | |
US20070033520A1 (en) | System and method for web page localization | |
CN100347706C (zh) | 一种pdf文档到xml文档转换的方法 | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
CN1687926A (zh) | 一种基于xml的pdf文档信息抽取系统的方法 | |
WO2006116612A2 (en) | Method, system and apparatus for a parser for use in the processing of structured documents | |
Müller et al. | Multi-level annotation in MMAX | |
CN101079024A (zh) | 一种专业词表动态生成系统和方法 | |
CN1732461A (zh) | 基于要素的多个文件的分析系统和方法 | |
US20080163077A1 (en) | System and method for visually generating an xquery document | |
CN109492199A (zh) | 一种基于ocr预判断的pdf文件转换方法 | |
CN101079025A (zh) | 一种文档相关度计算系统和方法 | |
US20070150494A1 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
US9286272B2 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
CN115759037A (zh) | 建筑施工方案智能审核框架及审核方法 | |
CN112506488A (zh) | 一种基于sql创建语句生成编程语言类的方法 | |
CN1604075A (zh) | 一种对报纸版面进行文字阅读顺序恢复的方法 | |
CN105653516A (zh) | 平行语料对齐的方法和装置 | |
CN108984676B (zh) | 一种基于xml的电子书跨终端自适应显示系统及方法 | |
Liu et al. | An automatic mark-up approach for structured document retrieval in engineering design | |
Karkaletsis et al. | Populating ontologies in biomedicine and presenting their content using multilingual generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20071107 Termination date: 20101203 |