CN1687926A

CN1687926A - 一种基于xml的pdf文档信息抽取系统的方法

Info

Publication number: CN1687926A
Application number: CN 200510039015
Authority: CN
Inventors: 张文德; 宋艳娟; 杨传耀; 朱丹红; 陈俊林
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2005-10-26

Abstract

本发明公开了一种基于XML的PDF文档信息抽取系统的方法，它是一种信息转化的方法，属于信息技术类，其步骤为：(1)DTD的设计，分析并选择出外部信息元数据和内部信息元数据；(2)实现对PDF文档的语义信息的抽取，先将提取存放PDF文档中各页的内容流，并进行解码，然后将PDF文档的物理结构转化为逻辑结构，外部信息元数据的提取，内部信息元数据的提取；(3)生成XML文档。本发明可以对转换后的XML文档做进一步的操作，从而提高文档自动分类和用户信息检索的效率。

Description

一种基于XML的PDF文档信息抽取系统的方法

技术领域：

本发明是一种信息转化的方法，属于信息技术类，确切地说，它是一种基于XML的PDF文档信息抽取系统的方法。

背景技术：

结构化的文档格式PDF是由美国的Adobe公司提出的。PDF文件格式以其卓越的特性成为在Internet上进行电子文档发行和格式化信息传播的理想文档格式。当前，在Internet中的科技论文以PDF格式提交变得越来越流行。如万方数据库等。但是，PDF重在描述文档的打印格式，并没有描述原始文档内容的数据结构。这成为制约人们信息检索的瓶颈。因此，对PDF进行信息抽取的研究显得十分重要。

XML是W3C推荐的数据交换的标准。它的出现推进了网络表达的语言集合。XML是Internet环境中跨平台的，依赖于内容的技术，是这个时代中处理分布式结构信息的选择工具。XML是面向内容的，因此它能够弥补PDF文件格式在语义描述方面的不足。

经检索：还没有见到一种基于XML的PDF文档信息抽取系统的方法方面的文献报道。

发明内容：

本发明的目的在于发明一种基于XML的PDF文档信息抽取系统的方法。

本发明是这样实现的其步骤为：(1)DTD的设计，分析并选择出外部信息元数据和内部信息元数据；(2)实现对PDF文档的语义信息的抽取，先将提取存放PDF文档中各页的内容流，并进行解码，然后将PDF文档的物理结构转化为逻辑结构，外部信息元数据的提取，内部信息元数据的提取；(3)生成XML文档。

本发明可以对转换后的XML文档做进一步的操作，从而提高文档自动分类和用户信息检索的效率。

附图说明：

图1为本发明的PDF的物理结构图；

图2为本发明的页面树结构示意图；

图3为本发明的目录树管理书签结构示意图；

图中：1为文件头(head)；2为文件体(body)；3为交叉引用表(cross table)；4为文件尾(tailer)。

以下将结合实施例对本发明进行进一步的描述：

具体实施方式：

PDF文档信息抽取系统设计的工作流程：

DTD(文档类型定义)的设计

要将PDF文档中的语义信息较好地表现出来，首要的一步是制定规范XML文档中元素和标志的规则及相互关系的DTD文档。我们参考了广受欢迎的DocBook元素的子集Simplified DocBook，根据科技论文具有篇章结构和用语规范的特点，分析并选择出以下两类基本的信息：

(1)外部信息元数据(Articleinfo)：描述科技论文外部特征的元数据，包括author(作者)，address(作者地址)，edition(出版)，bibliography(参考文献)等。外部信息元数据是用户进行信息检索的重要依据。

<！ELEMENT Articleinfo(authorgroup，edition，bibiography)>

<！ELEMENT authorgroup(address，author+)>

<！ELEMENT address(department，city，zip，email)>

<！ELEMENT author(name，birth，sex，degree，research)>

<！ELEMENT edition(ediname，pagenums，volumenum，issuenum，pubdate)>

<！ELEMENT bibliography(bibliodiv+)>

<！ELEMENT bibliodiv(title，biblioentry)>

<！ELEMENT biblioentry((authorgroup，title，publisher，date)|ulink)>

<！ELEMENT authorgroup(author_name+)>

<！ELEMENT publisher(publishername，address)>

<！ELEMENT department(#PCDATA)>

<！ELEMENT city(#PCDATA)>

......

<！ELEMENT ulink(#PCDATA)>

<！ATTLIST ulink url CDATA>

(2)内部信息元数据：描述文章语义信息的元数据，包括Title，Abstract，Keywordset，Section，Para等。利用文章的语义信息进行检索，能在很大程度上提高用户信息检索的效率。

①Title(文章标题)：最直接地反映了文章的核心内容。

<！ELEMENT Title (#PCDATA)>

②Abstract：论文的摘要

<！ELEMENT Abstract(#PCDATA)>

③Keywordset：论文关键词的集合

<！ELEMENT Keywordset(keyword+)>

<！ELEMENT keyword(#PCDATA)>

④Section：文章的章节。为了更好地实现文章信息的分类和检索，我们有必要对文章的篇章结构进行分析。文章由章节Section组成，Section中包含段落Para子元素，并且可以嵌套Section。

我们工作中很重要的一项任务是完成对章节主题以及段落主题的判断。

<！ELEMENT Section(sect_theme，(Section|para+)^*)>

<！ELEMENT sect_theme(#PCDATA)>

<！ELEMENT para(para_theme^*)>

<！ELEMENT para_theme(#PCDATA)>

<！ATTLIST paraid ID #REQUIRED>

PDF的文件格式

要实现对PDF文档的语义信息的抽取，必须十分清楚PDF的文件格式。

PDF的对象：

组成PDF文档的基本元素是PDF对象(PDF Object)。PDF支持七种基本的对象类型：Boolean(布尔型)，String(字符串型)，Name(名字型)，Dictionary(字典型)，Number(数值型)，Array(数组型)，Null(空对象)，Stream(流对象)。其中，字典对象是PDF文档的主要构成部分。PDF文档中的页面，字库等部分都用字典对象表示。

PDF对象可以分成直接对象(direct object)和间接对象(indirect object)。其中，PDF间接对象是一个被标志过的对象。它由对象标志符，直接对象和关键字endobj组成。PDF文档中使用了大量的间接对象和间接引用。

PDF的物理结构：

PDF的物理结构(文件结构)由四个部分组成。从图1可知：

(1)文件尾中主要包含了交叉引用表的地址，文件体的根对象Catalog的地址及加密等信息。

(2)交叉引用表是为了实现对间接对象的随机存取而特设的地址索引表。

(3)文件体是由大量的PDF间接对象组成。间接对象构成了PDF文档中的诸如字体，页面，表格，图像等具体内容。对文件体中的间接对象进行处理是我们信息抽取工作的主要工作量。

(4)文件头指明了PDF文档所遵从的PDF规范的版本号。如％PDF-1.4表示该文档格式符合PDF1.4规范。

PDF的逻辑结构：

PDF的逻辑结构反映了文件体中的间接对象之间的层次关系。它是一种树型结构。树的根节点是PDF文件的根对象Catalog。根节点下有四棵子树，分别介绍如下：

(1)页面树(pages tree)：所有的页面对象都是树的叶节点。每一页包含了对该页的内容(content)，注释，缩略图的引用。其中，content stream(内容流)描述的是该页的文本内容(参见图2)。

(2)目录树管理书签(bookmark)：PDF文档中的Outline Tree是一个树型层次结构。其中每一个节点都是一个书签Bookmark。书签在一个书签名和具体页面位置的之间建立了关联。应用程序可以按照书签名访问文档的内容(参见图3)。

线索树(threads)：按树型结构组织文章线索和线索下的文章块。

●名字树(Name)：建立了一个字符串和页面区域之间的关联。

PDF文本信息提取的实现：

提取存放PDF文档中各页的内容流，并进行解码。

应用程序首先访问文件尾，从文件尾中读取交叉引用表的地址和PDF文件的Catalog根节点。根据交叉引用表进而访问PDF文档中的间接对象，从而控制整个PDF文档。具体实现流程如下：

a从文件尾trail中找到PDF根对象。该对象的类型type为catalog。

b通过catalog根节点找到页树节点对象。该对象的type为pages。

c通过pages子节点找到页对象。该对象的type为page。

d访问页对象Page中的内容。如果找不到Contents入口，则说明此页内容为空，不予处理；如果找到Contents入口，转下一步进行处理。

e从Contents入口得到Contents后的所有对象号，并依次将该对象号记录到该页内容对象号数组Con_objNo[]中。

f根据数组Con_objNo[]中每一个对象号，转到相应的对象位置，提取Filter后的解码名，并将stream与endstream之间的所有内容放入一个con_byte[]数组中。

g调用Java的iText软件包的PdfReader类中的Filter解码方法对Con_objNo[]数组中的对象的内容流进行解码

h将Con_objNo[]数组中的所有对象解码后的字符串用指针连接起来，组成该页内容流解码后的字符串TextStr。

i重复以上工作，将各页内容流解码后的字符串用指针连接起来，组成单向链表，写入中间文件中。

注意：

1.页树中各节点的组织具有先序深度优先的性质。我们采用先序遍历算法读出所有的页面对象和属性，再将这些内容依次写入中间文件中。这样，访问页面节点的次序与页面的实际页码是一致的。

2.如果PDF文档是英文文档，中间文件中解码后的字符串就是原文；而对于中文，中间文件中给出的是汉字的编码，需要经过编码的转化才能还原为原文内容。

将PDF文档的物理结构转化为逻辑结构

从中间文件中，我们可以得到以下几项重要信息(1)content：每个页面中每一行的文本内容；(2)position：每行的位置(x，y)；(3)page：该行所处的页面；(4)font type：描述该行中多数文本内容采用的字体类型；(5)font size：描述该行中多数文本内容采用的字体大小。

由于中间文件描述的只是文档的物理结构，并不具有任何的语义信息。我们这一步的工作便是从中间文件中获取信息，生成按照人们阅读习惯组织的文章的逻辑结构。具体实现分为两步：

(1)排版分析：该步的目的是将以物理行为单位的中间文件转化为以逻辑行为单位的文件。对单栏排版的文章，逻辑行在一定意义上等同于物理行。而对于多栏排版的文章，要按栏为单位的方式对行进行重组。该步的核心是区分不同栏但同行的字符串。

(2)逻辑转换：经过排版分析的处理，我们得到了按照文章的物理顺序组织的字符串链表。逻辑转换所做的工作就是将字符串链表改成按照人们阅读文章时的顺序组织的文章的逻辑链表。系统使用聚类算法，依据各字符串之间的对齐方式，将属于同一栏的内容聚集在一起。

外部信息元数据的提取：

经过上面几步的预处理，我们得到了描述文章的逻辑链表。接下来，我们要做的工作是对应DTD文档中的定义，判断PDF文档的外部信息元数据。

对于第一作者的提取，我们制定的规则如下：(1)该字符串的position的y值与已提取出的title的position的y值最接近；(2)该字符串的font size小于title的font size。对于非第一作者的提取，我们参照如下规则：(1)该字符串的position的y值等于第一作者的position的y值；(2)该字符串的font size和font type与第一作者的相同。其余的为作者对应的单位的地址，名称，邮政编码等信息。

内部信息元数据的提取：

遍历整个逻辑结构链表，抽取出文档的内容信息。

(1)title文章标题的提取：对于标题的提取，我们参照如下规则：①该字符串的Page为第一页；②该字符串的position的y值最大；③该字符串的font size最大。同时符合上述条件的字符串，应用程序都认为是标题的一部分。

(2)section章节信息的提取：如前所述，PDF文档中的Outline Tree是一个树型层次结构。其中每一个节点都是一个书签Bookmark。系统使用书签Bookmark提取section章节的信息。具体的实现方法如下：①Bookmark节点在Outline Tree中的深度对应转换成XML文档中章节的层次结构；②章节的主题theme的内容为Bookmark的文本内容；③章节中包含的段落以Bookmark指向文档中的具体位置为依据。

(3)Para段落信息的提取：

对于段落的判断，我们制定的规则如下：①如果两行文本之间的间距大于平均的行距，则得出“这两行文本分属两个段落”的结论。②如果行首文本的横坐标大于前一文本行的行首横坐标，则判断该行是一个新段落的开始。

段落中最重要的信息是主题的表示。主题表示的方法常用的有两种：一是摘要形式；二是关键字形式。在系统中，我们采用关键字来表示段落的主题。系统使用了中文信息处理手段提取段落主题。具体步骤如下：

①汉语分词：汉语分词是由计算机自动识别文本中的词边界的过程，可用处理函数a＝F(b)表示。其中，b为汉字字符序列(b₁b₂…b_n)，a为汉语词串的组合序列(a₁a₂…a_m)。不同的F(b)，有不同的a。经过分析和比较，我们采用最大正向匹配算法作为F(b)。该算法依据一个分词词表和“长词优先”的原则，进行分词。它的基本思想如下：

设分词词表中的词由i个汉字组成，取汉字字符串序列中的前i个汉字作为匹配字段，查分词词表。若能匹配，则将这个匹配字段切分出来，填入数组a[]中；若不能匹配，则将匹配字段的最后一个字去掉，重复以上过程，直到匹配为止。

②词性标注：使用专门的工具对分词后的结果a[]中的词进行词性的标注。

③选择关键字：根据词性标注后的结果，判断每个段落中的所有的名词。对于这些名词，求出它们的词频。根据香农信息论，区别段落中最有意义的词语应该是那些在段落中出现频率足够高，但在段落集合(文章)的其他段落中出现频率足够少的词语。我们参考了TFIDF(Term Frequency Inverse Document Frequency)向量表示法，定义的计算词频的公式为：

x_i＝freq(w_i)log(N/DF(w_i))

其中，freq(w_i)表示w_i在段落中出现的次数；DF(w_i)是拥有词语w_i的段落数目，N表示目标文章中的段落总数。然后，选择词频最高的若干个名词作为该段的关键字，写入元素theme中。

生成XML文档。

PDF文档经过解码，章节划分，自动分词等处理后，最终的结果就是建立了文本结构树。在此基础上，我们可以实现面向内容的满足已定义好的DTD的valid XML文档的生成了。

Claims

1.一种基于XML的PDF文档信息抽取系统的方法，其特征在于：其步骤为：

(1)DTD的设计，分析并选择出外部信息元数据和内部信息元数据；

(2)实现对PDF文档的语义信息的抽取，先将提取存放PDF文档中各页的内容流，并进行解码，然后将PDF文档的物理结构转化为逻辑结构，外部信息元数据的提取，内部信息元数据的提取；

(3)生成XML文档。

2.根据权利要求1所述的一种基于XML的PDF文档信息抽取系统的方法，其特征在于：其步骤(2)外部信息元数据，包括作者，作者地址，版本，参考文献。

3.根据权利要求1所述的一种基于XML的PDF文档信息抽取系统的方法，其特征在于：其步骤(2)内部信息元数据，包括文章标题，论文的摘要，关键词，文章的章节。

4.根据权利要求1所述的一种基于XML的PDF文档信息抽取系统的方法，其特征在于：其步骤(2)提取存放PDF文档中各页的内容流，并进行解码，其具体实现的流程为：a、从文件尾trail中找到PDF根对象；b、通过catalog根节点找到页树节点对象；c、通过pages子节点找到页对象；d、访问页对象Page中的内容；e、从Contents入口得到Contents后的所有对象号，并依次将该对象号记录到该页内容对象号数组Con_objNo[]中；f、根据数组Con_objNo[]中每一个对象号，转到相应的对象位置，提取Filter后的解码名，并将stream与endstream之间的所有内容放入一个con_byte[]数组中；g、调用Java的iText软件包的PdfReader类中的Filter解码方法对Con_objNo[]数组中的对象的内容流进行解码；h、将Con_objNo[]数组中的所有对象解码后的字符串用指针连接起来，组成该页内容流解码后的字符串TextStr；i、重复以上工作，将各页内容流解码后的字符串用指针连接起来，组成单向链表，写入中间文件中。