CN101361063A

CN101361063A - 支持基于规则的文档内容挖掘的系统与方法

Info

Publication number: CN101361063A
Application number: CNA2007800014958A
Authority: CN
Inventors: 陈翌; 何余良
Original assignee: LONGSOU (BEIJING) TECHNOLOGY Co Ltd
Current assignee: LONGSOU (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2006-04-12
Filing date: 2007-04-10
Publication date: 2009-02-04
Anticipated expiration: 2027-04-10
Also published as: CN101055578A; CN101361063B; US20090265339A1; US8515939B2; WO2007115501A1

Abstract

一种用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘的系统，该系统接收包含结构化数据、或非结构化数据、或者两者混合数据的文件。然后，系统基于所述接收的文件来生成易处理的可扩展标记语言(pXML)文件。系统进一步基于一种或多种规则来从所述pXML文件提取内容，以及基于指定格式来生成语义XML文件。

Description

支持基于规则的文档内容挖掘的系统与方法

技术领域

本发明涉及数据管理。更具体地，本发明涉及一种从结构化或非结构化文档中提取内容的系统和方法。

背景技术

作为标准通用标记语言(SGML)子集的可扩展标记语言(XML)，是被万维网联盟(W3C)定义的一系列规范，用以支持信息的组织与交换。包含在良好结构化的XML文件中的信息可保证因特网间不同应用的可靠性与互通性。因此，通过允许与不同格式的数据进行交换，XML可以显著地降低与数据管理和交换相关联的成本。

XML也可用于定义特定工业的内容模型。一旦确定了内容模型，则不同的应用可以使用此内容模型来标记信息，以便可以简便、有效地共享信息。例如，XML广泛应用于如下领域，如：电子商务、信息密集服务业及通信领域。

遗憾的是，对于因特网尤其是Web上的大多数可用信息，它们或者是非结构化格式、或者是以非通用方式的结构化格式。结果是，许多公共可访问的文档不易于分享、管理和存储。这种问题随着便携设备的增多而进一步加剧，其中所述便携设备通常没有统一的显示机制。

因此，需要一种可以从文档中提取内容并在便携设备上显示该内容的系统与方法。

发明内容

本发明的一个实施方式提供了一种用于支持从结构化或非结构化数据中提取内容的基于规则的内容挖掘的系统。在此操作中，系统接收包含结构化数据或非结构化数据、或者两者混合的文件。系统接着基于所收文件来生成易处理的可扩展标记语言(pXML)文件。系统然后基于一种或多种规则从pXML文件提取内容，并且生成特定格式的语义XML文件。

在本发明的变型中，从pXML文件中提取内容包括对pXML文件应用规则引擎。

在另一变型中，规则引擎包含一种或多种从pXML文件分析并提取内容的映射对象。

在另一变型中，映射对象有映射对象名称、即插即用的开关、激活开关与启动次序。

在另一变型中，映射对象包含：一种或多种输入规则、一种或多种输出规则、以及一种或多种子映射对象和/或子规则。

在另一变型中，输入规则可以是基于文本的输入规则或者基于元素的输入规则。

在另一变型中，基于文本的输入规则可以是文本解析规则或标记语法规则。文本解析规则可以包含如下一种或多种规则：行规则、固定长度规则、正则表达式规则、超文本标签规则、文本匹配规则。标记语法规则包含如下一种或多种规则：顺序规则、块“或”规则、重复规则、模板对象规则、符号标签规则、数字标签规则、字符串规则、存在规则、不存在规则、词规则、词大写规则、空规则。

在另一变型中，基于元素的输入规则可以是基于初级或高级元素的输入规则。基于初级元素的输入规则包含如下一种或多种规则：组合规则、对比规则、速记规则、混合规则、拥有规则、执行规则、XML路径语言评价规则、其他规则。基于高级元素的输入规则可以包含以下一种或多种规则：语法序列规则、首尾序列规则、子映射对象规则。

在另一变型中，输出规则可以是如下一种或多种规则：“无指定”规则、“完整输入文本”规则、“输入”规则、“常值”规则、“子结果”规则、“最大子结果”规则、“平均子结果”规则、以及“表映射”规则。

在本发明的变型中，生成基于特定格式的语法XML文件包含，应用XLST文件或外部程序以及生成应用特定的XML文件。

附图说明

图1示出了根据本发明的一个实施方式的基于规则的文档内容挖掘系统的操作；

图2示出了根据本发明的一个实施方式的基于规则的文档内容挖掘系统的示例性框图；

图3呈现了流程图，其中示出了根据本发明的一个实施方式的支持基于规则的内容挖掘系统的示例性操作处理；以及

图4示出了根据本发明的一个实施方式的支持基于规则的内容挖掘的示例性计算机系统。

表1示出了根据本发明的一个实施方式的映射对象的示例；

表2示出了根据本发明的一个实施方式的示例的映射模板，该模板将HTML文档转换成Docbook XML文档。

具体实施方式

呈现如下描述旨在使本领域技术人员能够制造和使用本发明，并且在特定应用及其需求的环境中提供了如下描述。所公开的实施方式的各种修改对于本领域技术人员来说是易见的，在不脱离本发明范围的情况下，在此所定义的通用原则可以适用于其他实施方式与应用。因此，本发明并不局限于所示出的实施方式，而是与权利要求书的最宽泛的范围相一致。

通常，在此详述的数据结构和代码存储在计算机可读存储介质上，所述计算机可读存储介质可以是能够存储用于由计算机系统所使用的代码和/或数据的任何终端或介质。这包括但不仅限于，易失性存储器、非易失性存储器、如盘驱动、磁带、CD(压缩盘)、DVD(数字通用盘或者数字视频盘)等的磁性和光学存储设备，或者能够用于存储的其他现有的或未来开发的计算机可读存储介质。

概要

目前，非结构化文档包含网络上的大多数信息。即，大多数信息并未组织成允许从其内容识别和分离信息的上下文。在没有明显的人为干预下，文档和内容管理系统不能对非结构化信息进行分类处理。结果是，在自动处理或智能信息管理中，不能经济地使用大多数信息。

为了针对描述结构化数据提供标准，万维网联盟(W3C)已经开发了可扩展标记语言(XML)标准。XML支持标准化地描述结构化数据，并且允许软件开发者和内容作者来更容易地组织因特网上的数据。期望的是，XML标准不但可以满足因特网上的日益增长的需求，而且保证较高的数据可靠性和互通性。使用XML来定义文件类型可以支持更方便的表达以及更为结构化的信息组织。现在用户可以使用统一格式来组织和转换数据，这可以显著降低数据交换和管理的成本。

本发明的实施方式提供了一种支持基于规则的文档内容挖掘的系统。该系统用一组规则来在结构化或非结构化的文档中解析信息，并将文档内容转换成语义XML文件。通过使用基于规则的内容挖掘工具，该系统可以接受任何类型的文本内容(无论结构化的或非结构化的)，并将内容转换成语义的、结构化的数据，这些数据易于由不同的应用或设备来处理、管理或显示。这种内容挖掘系统允许有组织地并且无缝地交换不同类型和格式的数据，并且提高了文本内容的重用性。

图1示出了根据本发明的一个实施方式的基于规则的文档内容挖掘系统的操作。用户使用支持因特网的便携设备112(例如，智能电话)来向包含文档的网页发送HTTP请求。无线塔110从便携设备112接收无线信号，并且通过服务提供者的网络104转达此请求。网络104可以是有线或无线的、可以是公用或私有的。HTTP请求接着被转发至因特网102。

在接收HTTP请求后，Web服务器106利用所请求的文档进行响应。值得注意的是，通常文档可以包括任何类型的文本或非文本内容。例如，返回的文档可以包含PDF文件，WORDML文件、RTF文件、EXCEL文件、POWERPOINT文件、WORD文件、LATEX文件，或FRAMEMAKER文件。

在传统网络中，将返回的文档直接传送至便携设备112。因此，因为便携设备112的屏幕尺寸不适用于显示文档，而可能在便携设备112上遭遇乱码呈现文档的问题。值得注意的是，本发明的实施方式的应用不仅限于便携设备112，其他类型的计算机设备，例如移动设备114，也可从本发明受益。

本发明的一个实施方式提供了一种内容挖掘系统，该系统从不同类型的结构化或非结构化文档中提取信息，并产生可以被各种设备正确显示或被不同的应用处理的语义XML文档。在一个实施方式中，服务提供商的网络104将返回的文档传送至内容挖掘与转换集中器108。内容挖掘与转换集中器108分析所接收的文档内的文本内容并将所述内容转换成结构化的语义文档。

内容挖掘和转换集中器108可进一步使用XSL转换语言(XSLT)或其他外部程序以生成其他类型的文件，例如无线标记语言(WML)文件、XHTML移动简介(XHTML-MP)文件或压缩HTML(cHTML)文件，并将该文件发送至便携设备112。该文件可以包含文本和图形信息。基于规则的内容挖掘

图2示出了根据本发明的一个实施方式的基于规则的文档内容挖掘系统的示例性框图。在一个实施方式中，内容挖掘系统包括预处理器204、规则引擎206以及后处理器208。预处理器将输入文档202转换成基于一组预处理规则的易处理XML(pXML)文件。规则引擎206接着在pXML文件中执行文本挖掘和内容提取。随后，后处理器208将所提取的内容转换成基于给定格式的输出文件210。

值得注意的是，系统可以选择使用基于应用实际需求的三种功能块(预处理器204、规则引擎206、后处理器208)。如果使用该系统将输入文档重新格式化成适合的显示格式，则该系统只能用预处理器204和后处理器208产生特定格式的文件。如果使用该系统从输入文档提取内容并与另一种应用交换该内容，则该系统只能用预处理器204和规则引擎206。如果使用该系统从输入文档提取内容并将该文档重新格式化成适合的显示格式，则该系统可以用所有的三种块。

预处理

在一个实施方式中，预处理器204可以适应任何文本内容的文件作为其输入。例如，输入可以是超文本文件、PDF文件、MICROSOFTOFFICE文件、一段源代码、纯文本文件、ADOBE Maker交换格式(MIF)文件、LATEX文件、或者XML文件。值得注意的是，预处理器204可以用任何文件分析驱动器。该文件分析驱动器可以基于开放标准或专有文件格式。

在一个实施方式中，系统用特殊格式的驱动器分析输入文件。这些特殊格式的驱动器可以针对非结构化文件，例如Web文件、PDF文件、WORDMLW文件、RTF文件、EXCEL文件、POWERPOINT文件、WORD文件、LATEX文件和FRAMEMAKER文件。当预处理结构化的文件时，驱动器可以将文档内容转换成标准的语义文件。针对结构化文件的驱动器可以针对结构化的文件格式具有特定的界面程序，例如数据库系统的驱动程序。

通常，预处理器204生成一个pXML文件。该pXML文件格式定义如下。首先，pXML格式包含大量元素：XMLSTREAM、HEAD、DMETATAGS、DMETA、EMETATAGS、EMETA、DSTYLES、DSTYLE、DSTRUCTURE、BODY、SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE、LINK、FOOTNOTE、ENDNOTE、HEADER、FOOTER、ANCHOR、TAB、HR、MARKER、TABLE、TGROUP、TBODY、THEAD、TFOOT、ROW、CELL、COLUMN、COLUMN-DEF、LIST、LI、LABEL、BLOCKQUOTE、PRE、BREAK、FRAME、SVG、FIELD和INDEXITEM。

这些元素定义也被定义了如下属性：style、css-style、number、font、font-size、font-fixed、origfont、emphasis-bold、emphasis-italic、emphasis-underline、emphasis-superscript、emphasis-subscript、x、y、height、width、top、left、align、valign、leftindent、rightindent、spacebefore、spaceafter、textindent、border-left、border-right、border-top、border-bottom、top-padding、left-padding、right-padding、bottom-padding、rowspan、colspan、width-type和height-type。

具体地，这些元素定义如下：

(1)元素XMLSTREAM是根元素，元素XMLSTREAM具有元素HEAD和BODY作为其子元素，并且元素XMLSTREAM没有定义属性；

(2)元素HEAD描述文件的头信息，元素XMLSTREAM可作为元素HEAD的父元素，元素DMETATAGS、EMETATAGS和DSTRUCTURE可作为元素HEAD的子元素，并且元素HEAD没有定义属性；

(3)元素DMETATAGS描述文件的属性和meta标签，元素HEAD可作为元素DMETATAGS的父元素，元素META可以作为元素DMETATAGS的子元素；

(4)元素META描述文件的个体属性，元素DMETATAGS可以作为元素META的父元素、元素META不具有子元素，并且具有META名称和值；

(5)元素EMETATAGS描述在生成易处理的可扩展标记语言文件期间的环境属性集合，元素HEAD可以作为元素EMETATAGS的父元素，元素EMETA为元素EMETATAGS的子元素；

(6)元素EMETA描述在生成易处理的可扩展标记语言文件期间的个体环境参数，元素EMETATAGS可以作为元素EMETA的父元素，元素EMETA不具有子元素，并且具有EMETA名称和值；

(7)元素DSTYLES描述文件的样式属性，元素HEAD可以作为元素DSTYLES的父元素，元素STYLE为元素DSTYLES的子元素；

(8)元素STYLE描述文件的布局格式，元素DSTYLES为元素STYLE的父元素，以及元素STYLE可以具有如下属性：

name、font、font-size、font-fixed、align、valign、leftindent、rightindent、linespacing、spacebefore、spaceafter、emphasis、emphasis-bold、emphasis-italic、emphasis-underline、emphasis-superscript、emphasis-subscript；

(9)元素DESTRUCTURE描述PDF文件中的书签，元素HEAD可以作为元素DESTRUCTURE的父元素，元素OUTLINE可以作为元素DESTRUCTURE的其子元素；

(10)元素BODY描述文件主体，元素SMLSTREAM可以作为元素BODY的父元素，任何块元素可以作为元素BODY的子元素，包括元素SECTION、PAGE和BLOCK；

(11)元素SECTION描述Microsoft WORD

文件的分区，BODY可以作为元素SECTION的父元素，任意块元素可以作为元素SECTION的子元素，并且元素SECTION具有如下属性：

number、orientation、height、width、margin-left、margin-top、margin-right、margin-bottom、section-type、columns；

(12)元素PAGE描述多页文件中的信号页，元素BODY可以作为元素PAGE的父元素，并且任意块元素(包括，元素PARAGRAPH、IMAGE、TABLE、LIST、BLOCKQUOTE、PRE、ANCHOR、BREAK和FRAME)可以作为元素PAGE的子元素；其中元素PAGE还具有如下属性：

number、height、width、margin-left、margin-top、margin-right和margin-bottom；

(13)元素PARAGRAPH描述文件中的文本，元素BODY、CELL、LI、BLOCKQUOTE、SECTION和PAGE可以作为元素PARAGRAPH的父元素，#PCDATA、SPECIALTEXT、LINK、ANCHOR、IMAGE、TEXT和FLELD可以作为元素PARAGRAPH的子元素；并且元素PARAGRAPH具有如下属性：

front-related、paragraph-related、emphasis-related、number、style、x、y、height和width；

(14)元素SPECIALTEXT描述元素PARAGRAPH中的一种文本，所述文本的格式样式不同于元素PARAGRAPH的常规格式样式，元素PARAGRAPH父元素，元素#PCDATA、SPECIALTEXT、LINK、ANCHOR、IMAGE、TEXT和FIELD可以作为元素SPECIALTEXT的子元素，元素SPECIALTEXT具有如下属性：

font-related、emphasis-related、number、style、x、y、height和width；

(15)元素TEXT描述元素PARAGRAPH中的与元素PARAGRAPH具有相同格式样式的文本，元素PARAGRAPH可以作为元素TEXT的父元素，元素#PCDATA、SPECIALTEXT、LINK、ANCHOR、IMAGE、TEXT和FIELD可以作为元素TEXT的子元素，元素TEXT具有如下属性：

font-related、emphasis-related、number、style、x、y、height和width；

(16)元素IMAGE描述文件中的图像，元素BODY、PAGE、CELL、LI、BLOCKQUOTE、PRE和PARAGRAPH可以作为元素IMAGE的父元素，并且元素IMAGE具有如下属性：

herf：指示图像的相对路径名的图像文件名称；

format：指示图像格式；

width和height：分别指示图像的宽度和高度；

x和y：指示图像相对于页面的位置；

alt：指示描述超文本中图像的文本；

(17)元素LINK描述链接，包含文本描述，元素PARAGRAPH和SPECIALTEXT可以作为元素LINK的父元素，#PCDATA和SPECIALTEXT可以作为元素LINK的子元素，元素LINK具有属性href和alt；

(18)元素FOOTNOTE和ENDNOTE描述文件的脚注和尾注，其可置于元素PARAGRAPH中或文件末尾，元素BODY和PARAGRAPH可以作为元素FOOTNOTE和ENDNOTE的父元素，块元素可以作为元素FOOTNOTE和ENDNOTE的子元素，且元素FOOTNOTE和ENDNOTE具有如下属性：ref、reftype和label；

(19)元素HEADER和FOOTER描述文件的页眉和页脚，其可置于元素PARAGRAPH中或文件末尾，元素BODY可以作为元素HEADER和FOOTER的父元素，块元素可以作为元素HEADER和FOOTER的子元素，且元素HEADER和FOOTER具有如下属性：

number：指示HEADER或FOOTER元素所在的分区的编号；

headerType：指示页眉处于首页、尾页、奇数页或偶数页；以及

footerType：指示页脚处于首页，尾页，奇数页或偶数页；

(20)元素ANCHOR描述统一资源描述符(URI)，其可置于PARAGRAPH元素内部或外部，元素BODY、PAGE、CELL、LI、BLOCKQUOTE、PRE、PARAGRAPH和SPECIALTEXT可以作为元素ANCHOR的父元素，元素ANCHOR具有name和number属性，其中属性number指示ANCHOR元素在文件中的相对定位；

(21)元素TAB描述文件中的标签符；

(22)元素HR描述超文本文件；

(23)元素MARKER描述文件中的终止符，元素PARAGRAPH可以作为元素MARKER的父元素，元素MARKER具有指示元素MARKER定位的属性id和number；

(24)元素TABLE描述文件中的表，元素BODY、PAGE、SECTIONCELL、LI、BLOCKQUOTE和PRE可以作为元素TABLE的父元素，元素TGROUP、COLUMN、和ROW可以作为元素TABLE的子元素，并且元素TABLE具有用于指示元素MARKER定位的属性number；

(25)元素TGROUP、TBODY、THEAD和TFOOT描述文件中的表，并且具有属性cols用于指示元素TGROUP的行数；

(26)元素ROW是元素TABLE的子元素，描述表中的行，元素CELL可以作为元素ROW的子元素，且元素ROW具有如下属性：

rowtype：其中“header”的值指示该行是头行，“data”的值指示该行为普通行；

style：指示行的格式样式；

number：指示该行相对于文件的位置；

(27)元素CELL是元素ROW的子元素，描述表中的单元，元素PARAGRAPH、LIST、TABLE、BLOCKQUOTE、PRE、IMAGE和ANCHOR可以作为元素CELL的子元素，且元素CELL具有如下属性：

celltype：指示单元的类型，

其中如果celltype的值是“header”，则该单元为头单元，以及

其中如果celltype的值是“data”，则该单元为普通单元；

style：描述单元的格式样式；以及

number：指示单元相对于文件的定位；

(28)元素COLUNM是元素TABLE的子元素，描述表中的单一分栏，元素TABLE和TGRPOUP可以作为元素COLUNM的父元素，元素COLUNM不具有任何子元素，并且元素COLUNM具有如下属性：

column-id：指示表中栏的索引编号；

width：指示分栏的宽度。

(29)元素COLUMN-DEF定义表格中的分栏，元素TABLE可以作为元素COLUMN-DEF的父元素，元素COLUMN可以作为元素COLUMN-DEF的子元素，并且元素COLUMN-DEF具有指示分栏数量的属性cols；

(30)元素LIST描述文件中的列表，元素LI可以作为元素LIST的子元素，以及元素LIST具有如下属性：

type：指示列表的类型，以及该列表类型可以是“OL”、“UL”或“DL”的值，其中“OL”表示有序列表，“UL”表示无序、浮动列表，而“DL”表示无序、非浮动的列表；

number：指示列表在文件中的定位；以及

style：指示列表的格式样式；

(31)元素LI是元素LIST的子元素，其描述列表项，元素PARAGRAPH、LIST、TABLE、LI、BLOCKQUOTE、PRE、IMAGE和ANCHOR可以作为元素LI的子元素，并且元素LI具有如下属性：

level：指示列表的内嵌层级；

number：指示列表项在文件中的定位；

style：指示列表项的格式样式；

type：通常为空，或者当列表项所属于的列表类型是“DL”时为DT或DL；表示该列表项分别为头项或数据项；

(32)元素LABEL是LI项的子项，描述了Microsoft WORD

文档，元素PARAGRAPH和LI可以作为元素LABEL的父元素，元素#PCDATA可以作为元素LABEL的子元素；

(33)元素BLOCKQUOTE描述一个内嵌文本，块容器可以作为元素BLOCKQUOTE的父元素，块级元素可以作为元素BLOCKQUOTE的子元素，并且元素BLOCKQUOTE可以具有属性number用于描述内嵌文本相对于文件的位置；

(34)表示具有原始布局与格式的包装文本，块容器可以作为元素PRE的父元素，块级元素可以作为元素PRE的子元素，并且元素PRE具有属性number用于描述在文件中包装的文本的定位；

(35)元素BREAK描述文件中的分隔符，任何元素可以作为元素BREAK的父元素，元素BREAK不具有子元素且具有如下属性：

type：指示分隔符的类型，如页分隔、分栏分隔、或者行分隔；以及

number：指示文件中分隔符的定位；

(36)元素FRAME描述文件中的文本框架，元素BODY、SECTION、和PAGE可以作为元素FRAME的父元素，任何块元素可以作为元素FRAME的子元素，并且元素FRAME具有属性x、y、top、left、height、width和number；

(37)元素SVG描述PDF文件中的外部可缩放矢量图形(SVG)文件，元素PAGE可以作为元素SVG的父元素，元素SVG不具有子元素，并且元素SVG具有属性src，用于指示SVG文件的相对或绝对文件名；

(38)元素FIELD描述嵌套在文件中的一个域，在MicrosoftWORD

文件中通常存在这种情况，元素PARAGRAPH、TEXT、SPECIALTEXT可以作为元素FIELD的父元素，元素#PCDATA可以作为元素FIELD的子元素，并且元素FIELD具有描述域码的属性code；

(39)元素INDEXITEM描述Adobe FRAMEMAKER

制造商交换格式(MIF)文件中的索引项，元素PARAGRAPH、TEXT、SPECIALTEXT可以作为元素INDEXITEM的父元素，元素INLINE可以作为元素INDEXITEM的子元素，并且元素INDEXITEM具有如下属性：

primary：指示主索引项；

secondary：指示次索引项；以及

tertiary：指示第三索引项。

属性定义如下：

(1)属性style指示PARAGRAPH或SPECIALTEXT元素的格式风格；

(2)属性css-style描述超文本文件，其中如果超文本文件包括具有“style”属性的“paragraph”元素，其中所述“style”属性进一步包括层叠样式表(CSS)属性，则css-style属性逐字地包括超文本文件的CSS属性；

(3)属性number指示文件中元素的定位，并且包含不小于1的值；

(4)属性font、font-size、font-fixed和origfont描述与字体相关的属性，其中font属性指定字体名称，font-size属性指定MicrosoftWORD

文件或PDF文件中的绝对字体尺寸、或者超文本文件中的相对字体尺寸，font-fixed属性是布尔变量，其中“true”值指示文件中的固定宽度的字体，以及其中origfont属性指示文件中的原始字体；

(5)属性emphasis、emphasis-bold、emphasis-italic、emphasis-underline、emphasis-superscript、emphasis-subscript包含布尔变量，指示字体的格式样式，其中：

emphasis-bold指示字体是粗体；

emphasis-italic指示字体是斜体；

emphasis-underline指示字体是具有下划线的字体；

emphasis-superscript指示字体是上标；

emphasis-subscript指示字体是下标；

(6)属性x、y，height、width、top和left描述文件的特定格式样式，其中x和y指示页面中的坐标，该坐标可以是绝对或相对值；height和width指示文本或图形对象的高度和宽度；top和left指示文本或图形距离页边的距离；

(7)属性align、valign、leftindent、rightindent、spacebefore、spaceafter和textindent描述段落的格式样式，其中：

align指示水平对齐方式，以及其值为“left”、“center”、“right”、“justify”或者“blank”，分别指示左端对齐、居中对齐、右端对齐、两端对齐或者空白；

valign指示竖直对齐方式，以及其值为“top”、“middle”、“bottom”或者“blank”，分别表示顶端对齐、居中对齐、底端对齐或者空白；

leftident指示段落的左缩进量；

rightindent指示段落的右缩进量；

linespacing指示两行的间距，并且具有表示单倍行距的默认值“1”；

spacebefore指示段前空间量；

spaceafter指示段后空间量；

textindent指示段落的首行缩进量；

(8)属性border-left、border-right、border-top、border-bottom包括数值或布尔值，分别描述文本块或表格单元格有左、右、顶或者底边界，其中每个属性可以进一步指定对应边界的颜色；

(9)属性top-padding、left-padding、right-padding、bottom-padding包括整数值，并且分别指示在顶、左、右或者底边界和单元格内容之间填充的颜色；

(10)属性rowspan和colspan包括数字值，分别指示表格的行跨度和列跨度；

(11)属性width-type和height-type描述Microsoft WORD

文件中的表格，并且具有如下值：

“auto”：指示文本对象的宽度或者高度是自动调整的；

“percent”：指示文本对象的宽度或者高度值是百分比值；

“points”：指示文本对象的宽度或者高度值是以“点”来测量的值；

“fixed”：指示文本对象的宽度或者高度是固定的。

值得注意的是，上述定义仅仅是本发明的一个实施方式。其他pXML定义的变型也是可能的。

在此操作中，文件分析驱动器识别输入文档中的组件，诸如段落、表格、图像、链接、页面和框架，并将这些组件转换成相应的pXML元素，诸如PARAGRAPH、TABLE、IMAGE、LINK、PAGE和FRAME的。

规则引擎

在系统使用文件分析驱动器对所输入文档执行预处理并生成pXML文件后，该系统应用规则引擎从此pXML文件提取内容。在一个实施方式中，规则引擎包括映射模板，该映射模板对应于输入文档或生成的pXML文件。系统使用映射模板中的映射规则来分析pXML文件的内容并生成符合给定标准的语义文档。

每个映射规则包含至少一个映射对象。规则引擎使用映射对象来分析文档、提取内容，并且以XML呈现提取的内容。也就是说，映射对象通常会将文档转化成基于XML的语义的、清晰定义的规则。映射模板可以具有一种或多种映射对象。基于输出的XML文件格式的标签来定义每种映射对象。

在一个实施方式中，映射对象可以包含输入规则、输出规则以及子映射对象。

使用映射对象的输入规则以便在输入文件中搜索特定的内容，其可以是pXML文件。这种过程可被看作输入选择的过程，与文字处理程序中搜索特定内容的过程相似。基于输入规则，规则引擎从文件中标识特定的文本，并标记该已被标识文本。在一个实施方式中，输入规则可以是多种标准的布尔结合。规则引擎可以使用模式识别技术判断何种文本与该规则相匹配。

使用输出规则创建XML元素作为映射对象的输出。由输出规则创建的结果包括XML元素的标签名称、属性、内容。

子映射对象与子规则通常用于以分层方式中处理所选中的输入内容。

在一个实施方式中，映射对象具有如下属性和功能。

每种映射对象都有由规则引擎用于追踪与调用映射对象的名称。每种映射对象的名称在映射模板中是唯一的。

映射对象有即插即用的开关。通常，映射对象不能自动启动。当相应的映射模板开启或当映射对象被其他的映射对象调用时，该映射对象被启动。因此，即插即用开关的默认状态为“关”，表示当相应的映射模板被启动或当映射对象被其他映射对象调用时，映射对象才被启用。

映射对象有激活开关。当规则引擎激活所有映射对象时，只有已打开其激活开关的映射对象才被激活。激活开关默认状态为“关”。

每种映射对象都被指定激活次序。当规则引擎激活所有映射对象时，映射对象基于其激活次序被调用，直到每个映射对象的输入规则应用成功。

输入规则

输入规则对映射对象十分重要，因为输入规则确定映射对象如何分析输入文本或数据。如果输入内容是文本流或文本文档，则输入规则的应用可视为文本选择处理。如果输入内容是XML文件或数据流，则输入规则的应用可视为元素选择处理。因此，基于输入格式，输入规则可以分为两种类型。第一种类型包括针对文本内容的基于文本的输入规则，如XML文件中的文本文档和#PCDATA。基于文本的输入规则可以位于文本文件中的特定的文本内容或者一段具体的文本内容中。第二种类型包括针对结构化的数据内容的基于元素的输入规则，如源于WORD、PDF、FRAMEMAKER或HTML文件生成的pXML文件。在一个实施方式中，规则引擎首先使用基于元素的输入规则标识相匹配的元素，然后使用基于文本的输入规则分析所定位的元素。

基于文本的输入规则用于分析来自文本文档或元素的文本。基于文本的输入规则可以包括文本遍历、文本解析、和/或标记语法规则。基于文本的输入规则也可以划分为文本解析规则和标记语法规则。

文本解析规则还包括行规则、固定长度规则、正则表达式规则、超文本标签规则和文本匹配规则等。这些规则定义如下：

行规则用于选择输入文本内容中指定行的内容。

固定长度规则用于选择输入文本内容中指定的、固定长度的内容。

正则表达式规则用于基于正则表达式选择文本内容。

超文本标签规则用于提取在输入文本内容中由匹配超文本标签标记的内容。

文本匹配规则用于基于起始字符串和终止字符串来提取特定的内容。

标记语法规则也可称为词语法规则，并且使用语法分析来分析输入文本内容。在一个实施方式中，标记语法规则可以包括：顺序规则、块“或”规则、重复规则、模板对象规则、符号标签规则、数字标签规则、字符串规则、存在规则、不存在规则、词规则、词大写规则以及空规则。这些规则定义如下。

顺序规则是标记语法规则中的默认规则。系统使用顺序规则来选择当前文本位置邻近的标记。有效的顺序规则通常包含可在输入文本内容的指定行内找到匹配的子规则。顺序规则可包含映射对象或其他标记语法规则作为子规则。顺序规则也可以是子规则。

块“或”规则是交换规则。块“或”规则的子规则也可以是其他规则的子规则。

当子规则具有一个或多个成功匹配时，重复规则返回“真”。重复规则仅可具有一个子规则，并且可以是其他规则的子规则。

模板对象规则是针对提取输入文本内容的用于封装其他映射对象的子规则。

在标识了特定符号后，符号标签规则返回“真”。当调用该规则时，规则引擎将特定字符指定作为该规则的参数。符号标签规则没有子规则，但可以是其他规则的子规则。

在标识了数字标记后，数字标签规则返回“真”。数字标记通常为数字，并且可以是正、负、十进制、二进制、十六进制、八进制、有限或无限。默认为无限。通常，数字标签规则不具有子规则，但可作为其他映射对象的子规则。

当标识了指定的字符串后，字符串规则返回“真”。其参数为指定字符串。字符串规则不具有子规则，但可以是其他规则的子规则。

当匹配了指定标签列中的一个时，存在规则返回“真”。注意，当只有一个标签匹配时，规则引擎使用符号标签规则。存在规则不具有子规则，但可以是其他规则的子规则。

当输入文本内容中不具有标签匹配于指定的任一标签字符串时，不存在规则返回“真”。不存在规则不具有子规则，但可以是其他规则的子规则。

词规则和词大写规则用于提取词。通常，系统没有指定将要提取的词。词规则和词大写规则间的区别在于，词大写规则是大小写敏感的。词规则和词大写规则不具有子规则，但可以是其他规则的子规则。

空规则用于提取任何元素。所有情况下都返回真。

基于元素的输入规则可以按照其功能进一步分类为：基于初级元素的输入规则和基于高级元素的输入规则。基于初级元素的输入规则用于确定针对当前选择的XML元素是否存在匹配。基于高级元素的输入规则不仅用于确定针对当前元素是否存在匹配，而且用于标识针对系列元素的匹配，包括当前元素的孩子元素、子元素、或文本节点的孩子节点。

基于初级元素的输入规则包含以下规则：

(1)组合类规则。组合类规则使用布尔逻辑来组合其子规则。组合类规则可包含诸如“与”、“或”和“非”的布尔算子。

(2)对比类规则。对比类规则用于确定对象是否满足指定的条件，如“包含”、“字符串相等”、“数字相等”、“小于”、“大于”、“大于或等于”、“小于或等于”、“真”、“假”、“大写”、“小写”、“开始于”等。

(3)速记规则。速记类规则用于匹配输入元素的特定属性或名称。速记规则的条件包括“格式包含”、“格式等于”、“名称等于”等。

(4)混合规则。混合类规则包括诸如“任意”、“存在”、“越界”等条件。在“任意”条件下，规则可以由任意元素返回“真”。“存在”条件示出当前元素是否包含由规则定义的对象。“越界”条件用于确定对象的插入点是否处于指定元素的范围之内。

(5)拥有规则。拥有类规则包括诸如“包含文本”、“包含子元素”的条件。在当前元素包含指定文本时，“包含文本”条件返回“真”。当当前元素包含任何子元素时，“包含子元素”条件返回“真”。

(6)执行规则。执行类规则用于调用其他映射对象的规则，包括“执行规则”和“后代执行规则”。

(7)XML路径语言评价规则。XML路径语言评价规则用于确定XPATH值。规则引擎激活该规则以在当前元素中评价XPATH表达式，并返回XPATH表达式的值。

(8)混杂规则。混杂类规则包括节点类型规则、首个兄弟节点规则和最后兄弟节点规则。节点类型规则确定节点是否是文本、XML元素或CDATA区等。首个兄弟节点规则和最后兄弟节点规则确定当前元素或节点在兄弟节点集合中是否是第一个或最后一个节点或元素。

基于高级元素的输入规则包括如下规则：

(1)语法顺序规则。语法顺序规则用于顺序地执行一系列XML输入元素。一组元素形成序列，从而依次在语法上形成层级关系。这些元素可以是当前元素的孩子元素、孩子节点或兄弟节点。

(2)首尾序列规则。首尾序列规则用于执行一系列的相邻元素。该规则与语法序列规则的区别在于，该规则仅关心开始和结束元素的执行顺序，不关心中间元素的执行顺序，而语法序列规则根据指定顺序执行所有元素。

(3)子映射对象规则。子映射对象规则指定一种或多种映射对象作为当前对象的子映射对象，并按照指定的顺序执行这些子映射对象。

输出规则

在基于映射对象处理了文本内容后，系统按照特定的格式对输出文本内容使用输出规则。映射对象包括系统产生的XML元素的输出标签名、输出值和输出属性。输出标签名定义了系统产生的基于输出规则的XML元素的标签名称。标签名可以是常量或者是原始元素的标签名。输出值定义了输出XML元素的内容，这是文本分析的结果。输出属性指定了XML元素的属性。每个属性可具有一种或多种相关联的规则。也就是说，产生的XML元素的属性可以是常量、指定文本或XML元素。

映射对象的输出规则具有如下规则：

(1)“无指定”规则表示输出元素没有输出值，即输出元素没有任何文本内容。

(2)“完整输入文本”规则表示输出元素的值是基于输入规则提取的输入内容。如果输入内容是文本，则该文本将被拷贝至输出元素；如果输入内容是XML元素，则该元素的文本内容将被拷贝至输出元素。

(3)“输入”规则允许系统基于按照特定方法从输入内容提取的内容的来设置输出元素的内容。例如，输出元素的内容可以是一段输入文本、输入文本的相应属性、或执行XPATH表达式的结果。

(4)“常值”规则表示输出元素的值是固定的文本字符串。

(5)“子结果”规则表示输出元素的值是当前映射对象的子映射对象。

(6)“最大子结果”规则表示当前映射对象的输出结果是当前映射对象的所有子映射对象的输出XML元素的最大值。

(7)“平均子结构”规则表示当前映射对象的输出结果是当前映射对象的所有子映射对象的输出XML元素的平均值。

(8)“表映射”规则允许系统在输出元素与输入内容之间建立对应的表。例如，在“男”和“女”的输入元素的值以及为“M”和“F”的输出元素值之间建立对应关系。

系统运行

图3呈现了流程图，其中示出了根据本发明的一个实施方式的支持基于规则的内容挖掘系统的操作的示例性处理。在此操作中，系统可接收非结构化文件302和结构化的文件304。非结构化的文件302由非结构化文件驱动器306处理。相应地，结构化的文件304由结构化文件驱动器308处理。例如，非结构化文件302可以是PDF、WORD、RTF、POWERPOINT、HTML或MIF文件。

在一个实施方式中，非结构化文件驱动器306和结构化文件驱动器308产生pXML文件作为文件分析的结果。pXML数据310接着被传递至规则引擎312。例如，pXML数据310可以包含与输入文件相对应的元素，例如元素SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE和LINK。规则引擎312包括大量映射对象。映射对象的输入规则用于对pXML元素内容执行文本匹配，并提取由映射规则指定的文本内容。规则引擎312进一步使用输出规则来确定基于pXML数据310的输出文本内容的格式。

由规则引擎312产生的提取的XML数据314接着被发送至后处理器316，该后处理器316基于指定的XSLT文件320生成应用特定的XML数据318。值得注意的是，在一个实施方式中，规则引擎312和后处理器316两者都使用映射模板。

在一个实施方式中，规则引擎312使用模式识别技术标识输入文档中的特定内容，例如章、节、段落或关键词。标识这些内容后，规则引擎312创建相应的输出XML元素。后处理器316接着产生基于映射模板的输出文件或数据流。映射对象的输出可以包括元素和相应的父元素、祖先元素、孩子元素和兄弟元素。

映射对象是映射模板的基本组件，用于将一个自由格式的、非结构化或半结构化的文档转换成XML文件。映射对象从非结构化的文本内容提取有意义的内容，并生成有语义的XML文件。通常，映射对象依赖于源文件内容的转换，并基于映射对象中指定定义来确定输出XML元素的名称。例如，映射对象可以用于定位文本中的日期。由映射对象生成的输出元素可由<Date></Date>来命名。

表1

表1示出了名称为“header_paragraph”的映射对象的示例性实例。该映射对象的输入内容是XML元素，并且输入规则的类型是“XML”。输入规则具有称为“NAME_EQUALS”和“STRING_EQUALS”的子规则。输出规则是：

<OutputAttribute outputname＝″number″outputtype＝″input″

inputtype＝″attribute″inputname＝″number″/>.

子映射对象定义如下：

<Children xmlchildrenpasstype＝″currentelement″

childsettype＝″alternate″>

<OBJECT ref＝″PARA_BODY″minOccurs＝″0″

maxOccurs＝″unbounded″/>

</Children>

映射模板可视为映射对象的集合。每个映射对象产生至少一个输出元素。因此，在输出XML文件中，输出元素由映射对象生成，其中XML文件具有一个根元素。因而，输出XML文件有类似如下的格式：

<body>

<para>Si Ku Quan Shu-12/17/02-

<Bookurl>www.books.com.cn/skqs.html</Bookurl>announced

today that...

</para>

<para>...

</para>

</body>

</PressRelease>

映射对象中的输入规则用于从输入文档中搜索特定的内容。这种内容搜索被称为输入选择。输入选择类似于使用词处理器从文档中选择特定内容的过程。该过程包括打开文档、搜索特定语句、选择这些语句的内容等。在一个实施方式中，可选择整个语句的内容。系统也可以定义映射规则并采用模式识别技术和布尔组合来选择语句中的部分内容或关键词。

映射对象的输出规则确定映射对象如何创建输出XML元素。例如，输出XML元素可以如下：

....some text...some child elements...

</Release>

映射对象的输出规则确定如何构建输出XML元素，包括输出标签名、元素属性、输出文本和CDATA节点。

映射对象还包括子映射对象和子规则在输入选择以进一步处理从输入选择过程获取内容后，映射对象可调用子映射对象。例如，当PARAGRAPH被映射对象选择后，子映射对象和子规则可以被调用以处理PARAGRAPH元素、文本节点和其他内部内嵌元素中的内容。当处理的文档转换成pXML文件、映射对象被配置为“可以执行孩子XML元素或拷贝所有的文本节点”时，映射对象遍历所选择元素的子节点，包括元素和文本节点。每个子节点被映射对象遍历以找到输入规则的首次匹配。文本节点通常来自源文本并直接放置到输出文档中。

表2

表2示出了根据本发明的一个实施方式的映射模板的示例性实例，该模板将HTML文档转换成Docbook XML文档。映射模板中的元素<TransformationRules>包含如下：

(1)预处理器中的HTML驱动器，HtmlDriverJ。

(2)文件后缀名。具体地，输入后缀扩展名是“.html，.htm”，以及输出后缀扩展名是“xml”。

(3)处理内容的规则包括：

<OutputParameters＝″Tables＝False|Lists＝True|Graphics

＝True|FormattedText＝True|BlankParas＝True|PageBreaks

＝False|Links＝True|CopyImages＝True″

DebugMode＝″False″/>

(4)文件编码规则，其指定为UTF-16编码。

(5)输出格式，包括：

<PostProcessingRule driver＝″MAPDriver″

extensions＝″″

OutputExtension＝″xml″OutputParameters＝″

Package＝docbook|Template＝docbook.PostGrammar″

ebugMode＝″False″/>

图4示出了根据本发明的一个实施方式的支持基于规则内容挖掘的示例性计算机系统。计算机系统402包括：处理器404、内存406、存储设备408。另外，键盘410、指示设备412、显示器414与计算机系统402耦合。

存储设备408存储文档内容挖掘程序416、以及应用程序420和422。在一个实施方式中，文档内容挖掘程序416还包括规则引擎418。在此操作中，计算机系统402从存储设备408载入文档内容挖掘程序416到内存406。处理器404执行来自内存406的指示，并在输入文档中执行基于规则的内容挖掘。

仅仅出于示意和说明的目的而呈现了本发明的实施方式的上述说明。并非旨在穷尽或者将本发明限制为所公开的形式。相应地，许多调整或变型对本领域技术人员是明显的。另外，上述公开无意限制本发明。由所附权利要求书来限定本发明的范围。

Claims

1.一种用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘的方法，所述方法包括：

接收包含结构化数据、或非结构化数据、或者两者混合数据的文件；

基于所述接收的文件来生成易处理的可扩展标记语言(pXML)文件；

基于一种或多种规则来从所述pXML文件提取内容；以及

基于指定格式来生成语义XML文件。

2.根据权利要求1所述的方法，其中从所述pXML文件提取内容包括：针对该pXML文件应用规则引擎。

3.根据权利要求2所述的方法，其中所述规则引擎包括一个或多个映射对象，用以从所述pXML文件分析和提取内容。

4.根据权利要求3所述的方法，其中所述映射对象具有：

映射对象名称；

即插即用开关；

激活开关；以及

激活顺序。

5.根据权利要求3所述的方法，其中所述映射对象包括：

一个或多个输入规则；

一个或多个输出规则；以及

一个或多个子映射对象和/或子规则。

6.根据权利要求5所述的方法，其中所述输入规则可以是基于文本的输入规则或是基于元素的输入规则。

7.根据权利要求6所述的方法，

其中所述基于文本的输入规则可以是文本分析规则或标签语法规则；

其中所述文本分析规则可以包括以下一个或多个：

行规则、固定长度规则、正则表达式规则、超文本标签规则、文本匹配规则；以及

其中所述标签语法规则可以包括以下一个或多个：

顺序规则、块“或”规则、重复规则、模板对象规则、符号标签规则、数字标签规则、字符串规则、存在规则，不存在规则、词规则、词大写规则和空规则。

8.根据权利要求6所述的方法，

其中所述基于元素的输入规则可以是基于初级元素的输入规则或基于高级元素的输入规则；

其中基于初级元素的输入规则可以包括以下一个或多个：

组合规则、对比规则、速记规则、混合规则、属于规则、执行规则、XML路径语言评价规则以及混杂类型规则；以及其中基于高级元素的输入规则可以包括以下一个或多个：

语法序列规则、首尾序列规则以及子映射对象规则。

9.根据权利要求5所述的方法，其中所述输出规则可以是以下一个或多个：

“无指定”规则、“完整输入文本”规则、“输入”规则、“常值”规则、“子结果”规则、“最大子结果”规则、“平均子结果”规则以及“表映射”规则。

10.根据权利要求1所述的方法，其中基于指定格式生成语义的XML文件包括：应用XLST文件或外部程序文件并生成应用特定的XML文件。

11.一种计算机系统，用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘，该计算机系统包括：

处理器；

存储器；

接收机构，配置以接收包含结构化数据或非结构化数据、或者两者混合的文件；

预处理器，配置以基于所述接收的文件生成易处理的可扩展标记语言(pXML)文件；

规则引擎，配置以基于一种或多种规则来从所述pXML文件中提取内容；以及

后处理器，配置以基于指定格式生成语义XML文件。

12.根据权利要求11所述的计算机系统，其中所述规则引擎包括一个或多个映射对象，用以从pXML文件分析和提取内容。

13.根据权利要求12所述的计算机系统，其中所述映射对象具有：

映射对象名称；

即插即用开关；

激活开关；以及

激活顺序。

14.根据权利要求12所述的计算机系统，其中所述映射对象包括：

一种或多种输入规则；

一种或多种输出规则；以及

一种或多种子映射对象和/或子规则。

15.根据权利要求14所述的计算机系统，其中所述输入规则可以是基于文本的输入规则或基于元素的输入规则。

16.根据权利要求15所述的计算机系统，

其中文本分析规则包括以下一个或多个：

行规则、固定长度规则、正则表达式规则、超文本标签规则

以及文本匹配规则；以及

其中标签语法规则可以包括以下一个或多个：

顺序规则、块“或”规则、重复规则、模板对象规则、符号标签规则、数字标签规则、字符串规则、存在规则，不存在规则、词规则、词大写规则以及空规则。

17.根据权利要求15所述的计算机系统，

其中基于初级元素输入规则可以包括以下一个或多个：

组合规则、对比规则、速记规则、混合规则、属于规则、执行规则、XML路径语言评价规则和其他类型规则；以及其中基于高级元素的输入规则可以包括以下一个或多个：

语法序列规则、首尾序列规则以及子映射对象规则。

18.根据权利要求14所述的计算机系统，其中所述输出规则可以是以下一个或多个：

“无指定”规则、“完整输入”文本规则、“输入”规则、“常值”规则、“子结果”规则、“最大子结果”规则、“平均子结果”规则以及“表映射”规则。

19.根据权利要求11所述的计算机系统，其中当基于所述指定格式生成语义XML文件时，所述后处理器配置以应用XLST文件或外部程序文件来生成应用特定的XML文件。

20.一种用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘的装置，所述装置包括：

接收机构，配置以接收包括结构化数据或非结构化数据或两者混合的文件；

第一文件生成机构，配置以基于所述接收的文件来生成易处理的可扩展标记语言(pXML)文件；

基于规则的内容挖掘机构，配置以基于一种或多种规则从所述pXML文件中提取内容；以及

第二文件生成机构，配置以基于指定格式来生成语义XML文件的文件。