CN1244877C

CN1244877C - 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置

Info

Publication number: CN1244877C
Application number: CNB031486614A
Authority: CN
Inventors: 内山匡; 宫本胜
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-06-28
Filing date: 2003-06-18
Publication date: 2006-03-08
Anticipated expiration: 2023-06-18
Also published as: EP1686499A2; DE60314806D1; US20040044963A1; KR100572576B1; CN1469276A; EP1376408B1; EP1686499A8; US7685157B2; US20050066271A1; KR20040002791A; EP1376408A3; DE60314806T2; EP1376408A2; US7730104B2; EP1686499A3; DE60333238D1; EP1686499B1

Abstract

一种自结构化文件提取信息之方法，包括如下步骤：将包括标记标识符的部分树标识符赋与所选择部分树，该标记标识符包括对应于所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值；若该标记的上述至少1个文件格式属性包括多个文件格式属性，则在上述标记标识符中按给定顺序排列上述文件格式属性名；从更新后树结构文件中所存在的部分树的部分树标识符系列特定出部分树，该部分树具有同上述所选择部分树的部分树标识符一样的部分树标识符。

Description

结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置

技术领域

本发明一般涉及自HTML等结构化文件提取信息之方法，尤其是涉及自每天更新的结构化文件特定并提取出事先选择的期望部分之信息提取方法。本发明还涉及可容易地在结构化文件中选择期望部分之用户接口。

背景技术

存在着这样的需求：只想从每天更新的HTML等结构化文件中选择某一部分。譬如，用户通过只对所熟悉网站的惹人注目之部分进行剪辑汇集中就可以容易地做到仅测览所需信息。又，当被剪辑部分之信息源每天更新时，则又需求自更新文件特定所选择部分而再次剪辑汇集。

为此，据涉及WWW信息提取系统的日本专利第2867986号公报所载，事先对表示所选择部分的开始点及结束点的信息加以保存，根据该信息来从更新文件特定开始点及结束点，将夹于两者之间的部分作为特定部分提取出来。譬如，预先在存储器保存对应于选择部分的开始点及结束点的文本，当从文件提取选择部分时，只要根据所保存文本在HTML文件中特定开始点及结束点继而提取出被特定部分即可。

又据webMethods公司提出的系统(http：//www.w3.org/TR/NOTE-widl)和Luca Iocchi提出的系统(Luca Iocchi：TheWeb-OEM approachto Web information，Journal of Network and Computer Applications，Vol.22，pp.259-269(1999))，提出了这样一种方法：将HTML文件变换成树结构，对相应于事先选择部分的部分树之信息加以保存，从更新文件之中特定同所保存部分树相对应的部分。在此，该部分树之信息包括一字符序列，用作选择部分的标识符。以标记名作标记的标识符，树结构中同一阶层内标记名被赋与相应的数值索引。将组对于数值索引的标记名嵌套状链接，形成字符序列，以表现自整个树的根至所选择部分的部分树根之结构。譬如就图1之例而言，假设”doc”是整个树结构的根，则用于指向所选择的”当地新闻”部分之标识符可表现为：doc.table[0].table[0]。

然而，上述已有的涉及WWW信息提取系统的日本专利第2867986号公报所载方法，由于是根据选择部分的开始点及结束点的信息线索来提取选择部分，所以自然要求该信息是文件更新后仍然留下的信息。但是，难以判断哪些信息更新前后不变。尤其是就设计完全由作者单方面决定的因特网上主页而言，例外很多。故，上述方法存在着应用领域有限的问题。

譬如，上述WWW信息提取系统，以对应于开始点及结束点的文本为线索时，这些文本本身可能会如图2所示那样变更，这样，该方法就无用。

又，根据该方法，当如图3A所示提取出所选择部分时，则如图3B所示，构成不了作为树结构的部分树。故，难以将该提取部分再利用于其它结构化文件。

又，前述webMethods公司或Luca Iocchi提出的基于选择部分的部分树之标识符的方法，由于其是以更新前后文件结构不变为前提，所以当变更前后文件结构有所改变时，事先选择部分树的标识符同更新后的标识符不匹配。

譬如，当具有同一标记的文件块被插入于文件的选择部分所处的树结构的阶层时，在部分树的标识符中标记的数值索引移位。譬如在图1之例中，在选择部分上部插入table标记包络的”广告2”所相关文本，以更新文件。其结果，则所选择”当地新闻”对应的table标记名的标记标识符号的数值索引就从table[0]变成table[1]。就常常插入或删除标题广告、紧急新闻等的网站的主页而言，进行这种形式上的细微变更之可能性很大，况且用户欲选择的也多是信息频繁更新的网站的主页。故如果因这种细微变更而造成选择部分提取精度下降时，则需要指出精度下降。

还有，若忘记关闭自选择部分开始文件前面的在部分选择时本不该存在的标记时，则在形式上看，该标记被作为选择部分的母节点保留下来。譬如在图1之更新例中，忘记关闭选择部分上部的包络”广告1”的table标记。结果，本应正确地表示为doc.table[0].table[0]这一标识符变成doc.table[0].table[0].table[1]。而这表示存在着作为选择部分”当地新闻”的母节点的table标记。由此，更新前后部分树的标识符不匹配。就目前普遍应用的WWW测览器而言，容许忘记关闭标记，页制作者更新页时常常不注意标记是否关闭。

因为这种具有同一标记的文件块的插入以及忘记关闭标记现象，会引发图1的文件更新例的麻烦。即指向选择部分的部分树的标识符从doc.table[0].table[0]变成doc.table[0].table[0].table[1]。

还有，在前述webMethods公司或Luca Iocchi提出的方法中还存在着如是问题：选择HTML等结构化文件中之一部分时，需要具备标记和文件结构方面的知识以及技术。

发明内容

本发明目的就在于解决上述已有技术中所存在的不足及缺点造成的某一或某些问题。

具体而言，本发明目的在于提供一种即便文件更新也照样可在精度无所降低的情况下提取出选择部分的自结构化文件提取信息之方法与装置并计算机程序及其存储介质。

本发明目的还在于提供一种可使得用户以容易直观掌握的方式来选择HTML等结构化文件中之一部分的自结构化文件提取信息之方法与装置并计算机程序及其存储介质。

本发明的发明目的是这样实现的：一种识别结构化文件的一部分的方法，其中结构化文件根据预定的规则被变换为树结构，并且用户事先从该结构化文件中选择的一个所选择部分对应于作为所述树结构的一部分的所选择部分树，所述方法包括如下步骤：将部分树标识符赋予上述所选择部分树，该部分树标识符包括标记标识符，该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值；若该标记的上述至少1个文件格式属性包括多个文件格式属性，则在上述标记标识符中按给定顺序排列上述文件格式属性名；在存储器中存储被赋予所选择部分树的部分树标识符；在该结构化文件更新后接收该结构化文件；产生在所接收的结构化文件中存在的部分树的部分树标识符的列表；以及从上述部分树标识符的列表中识别一个部分树，该部分树的部分树标识符与存储器中存储的被赋予所选择部分树的部分树标识符相同。

本发明目的还可以这样实现的：将一标记标识符用作部分树标识符，该标记标识符包括标记名、该标记的至少1个文件格式属性名、以及至少1个该文件格式属性值。靠这一部分树标识符，即便具有同所选择部分的部分树一样标记的文件块被插入同所选择部分一样的阶层，只要标记的文件格式属性不同，就可不以依赖于开始及结束点的方式来维系部分提取精度不降低。

若该标记的上述至少1个文件格式属性包括多个文件格式属性，则在上述标记标识符中按给定顺序排列上述文件格式属性名；

从更新后树结构文件中所存在的部分树的部分树标识符系列特定出部分树，该部分树具有同上述所选择部分树的部分树标识符一样的部分树标识符。

还可生成数值索引，其表示上述树结构内同一阶层中标记标识符序号；把标记标识符与数值索引组对；自整个树结构根至部分树根嵌套状链接多个上述对子，以形成部分树标识符。据此，即便同所选择部分树根相对应的标记与文件格式属性之组合可被用于文件中其它标记的场合，也可以对所选择部分作唯一特定。

进一步，在特定部分树过程中，若被对照出的部分树多个，则依次进入下一较高层的母节点，递归式重复对照标识符。据此，即便出现所选择部分之前头有标记忘记关闭的情况，也可维系部分提取精度不降低。

本发明目的还可以这样实现：一种自结构化文件提取信息的装置，其中包括：树结构变换单元——根据预定的规则将结构化文件变换成树结构；和部分树标识符生成单元——将部分树标识符赋予上述树结构的部分树，该部分树标识符包括标记标识符，该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值。

本发明目的还可以这样实现：一种结构化文件部分选择提取方法，该结构化文件包括内容文件和用于定义如何显示该内容文件的定义，所述结构化文件具有存储在存储器中的对应树结构，所述结构化文件和对应树结构通过预定的规则相互关联，所述方法包括如下步骤：通过根据上述定义在屏幕上显示上述内容文件来显示该结构化文件；在屏幕上检出用户指示的内容文件位置；检出同用户在屏幕上指示的位置相对应的树结构的末尾节点；通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点；通过促使用户选择屏幕上的内容文件的一个对应部分，促使用户从该一连串节点中选择一节点；以及选择提取同用户所选节点相对应的结构化文件中之一部分。

本发明目的还可以这样实现：一种结构化文件部分选择提取装置，该结构化文件包括内容文件和用于定义如何显示该内容文件的定义，所述结构化文件具有存储在存储器中的对应树结构，所述结构化文件和对应树结构通过预定的规则相互关联，所述装置包括：显示控制单元——被配置用于通过根据该定义在屏幕上显示该内容文件来显示该结构化文件；输入单元——被配置用于在屏幕上检测用户指示的内容文件位置；节点检测单元——被配置用于检测同用户在屏幕上指示的位置相对应的树结构的末尾节点；选择确定单元——被配置用于通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点，并通过促使用户选择屏幕上的内容文件的一个对应部分，促使用户从该一连串节点中选择一节点；和部分选择单元——被配置用于选择提取同用户所选节点相对应的结构化文件中之一部分。

另外，本发明其它目的、特征及优点可通过以下结合附图对细节的描述得以清楚理解。

附图说明

图1是已有技术示意图。

图2是以开始及结束点的文本为线索进行文件部分选择提取之例的示意图。

图3A及3B是以开始及结束点的文本为线索提取HTML文件的对应部分之例的示意图。

图4是本发明原理示意图。

图5是根据本发明实施例的表示具备同一标记与同一文件格式属性者有多个之情形的图。

图6是根据本发明实施例1的自结构化文件提取信息之系统结构示意图。

图7是根据本发明实施例1的提供用于文件选择的显示页之例的示意图。

图8是根据本发明实施例1的部分信息存储单元所存储信息之例的示意图。

图9是根据本发明实施例1的通过文件结构解析生成的树结构数据之例的示意图。

图10是根据本发明实施例1的部分信息存储单元之内容示意图。

图11是根据本发明实施例1的要素系列之例示意图。

图12是根据本发明实施例1的被变换的树数据结构之例示意图。

图13是根据本发明实施例1的自结构化文件提取信息之方法的处理流程图。

图14是根据本发明实施例2的自结构化文件提取信息之系统结构示意图。

图15是根据本发明实施例2的选择部分的部分树标识符生成示意图。

图16是根据本发明实施例2的部分树数据生成示意图。

图17是根据本发明实施例2的自结构化文件提取信息之方法的处理流程图。

图18是本发明实施例3的自结构化文件提取信息之系统结构框图。

图19是根据本发明实施例3的自结构化文件提取信息之方法的处理流程图。

图20是根据本发明的用户接口原理示意图。

图21是根据本发明的用户接口原理结构示意图。

图22是根据本发明实施例的装置结构框图。

图23是根据本发明一实施例的整个处理流程图。

图24是根据本发明一实施例的测览器上作部分选择之例示意图。

图25是根据本发明一实施例的树结构生成单元处理流程图。

图26是根据本发明一实施例的选择部分标示单元处理流程图。

图27是根据本发明一实施例的树结构与选择部分显示的对应之例示意图。

图28是根据本发明一实施例的系统整体结构示意图。

图29是同HTML源对应的树结构、对应的例览器之例示意图。

具体实施方式

下面结合附图对本发明实施例作以说明。

图4是本发明原理示意图。

根据本发明的自结构化文件提取信息之方法可为：将文件变换为树结构，生成对应于文件某部分的部分树的标识符，据此来事先选择结构化文件中任意部分，从被更新文件特定出选择部分。

如图4所示，本方法包括如下步骤。

步骤S1：以对应于部分树根的标记名、标记的某一或某些文件格式属性名、文件格式属性值之组合为标记的标识符，以该标记的标识符为对应的部分树的标识符。

步骤S2：在标记的标识符具备多个文件格式属性之场合，按文件属性名顺序(如字母顺序)排列文件属性，将标记的标识符规范化。

步骤S3：据变换成树结构的文件中所存在的部分树的标识符系列，将具有同已选择部分树的标识符一样的部分树特定为选择部分。

又如图5所示，该文件中对应于所选择部分树根的标记名与文件格式属性之组合被用于多个标记的场合，生成数值索引，表示一系列标记的标识符属于树结构内同一阶层。于是，把标记标识符与数值索引组对，将这些对子自整个树结构根至所选择部分树根嵌套状链接，据此形成该部分树之标识符。

又，有时需要从变换成树结构的文件中所存在的部分树的标识符系列来特定具有同己选择部分树一样的标识符之部分树。对于部分树的标识符之对照，只以部分树根的标识符进行对照。当被对照的所选择部分树的候选者有多个时，通过进行该标记标识符所关连数值索引对照来筛选候选者。若根据数值索引筛选候选者后仍然剩有多个候选者时，再回到母标记递归式地重复对照，当对照结果只剩一个候选部分树时，将该候选部分树特定为所选择部分树。

第1实施例

图6是根据本发明实施例1的自结构化文件提取信息之系统结构框图。

根据该图所示系统，即便具有同选择部分的部分树一样的标记的文件块被插入选择部分所属同一阶层时，只要标记的文件格式属性不同，就可以不依赖于所选择部分开始及结束点的方式来维系选择部分的提取精度不降低。

图6所示系统包括：接受来自用户的对结构化文件中某部分作选择的指令的部分选择单元1；存储所选择部分之信息的部分信息存储单元2；以标记及其文件格式属性来识别树结构中部分树的文件结构解析单元3；以及响应用户请求而返送同选择部分相对应的文件部分的部分特定单元4。

部分选择单元1包括文件获取单元11、部分指定单元12以及文件结构化单元13。

文件获取单元11，当从部分指定单元12接收到基于文件标识符即URL(Uniform Resource Locator)的文件获取请求时，从因特网上获取相应文件而返送之。

部分指定单元12，利用一URL向文件获取单元11提出文件获取请求，以获取相应文件。接着，部分指定单元12请求文件结构化单元13对该文件加以结构化，以获取变换成树结构的文件。进一步，如图7所示，部分指定单元12还提供便于用户特定该文件中之一部分的用户接口。从特定部分区的坐标等生成相应的部分树的标识符，并将该标识符连同URL一道存储于图8所示的部分信息存储单元2。

文件结构化单元13请求文件结构解析单元3对部分指定单元12传递来的文件加以结构化。于是，文件结构化单元13接收被变换成树结构的文件，作为表现图9所示树结构母子关系的数据结构。譬如，以要素ID、标签、子节点系列、部分树标识符来表示构成树结构的标记或文本要素。作为数据结构获取该等系列。

部分信息存储单元2从部分指定单元12获取URL和部分树的标识符，设置部分文件ID，用以识别这一对参数(URL和部分部分树标识符)。这一参数及其文件部分ID(识别数据)被加以保存，见图10。于是返送部分文件ID给部分指定单元12。

文件结构解析单元3包括树结构变换单元31及部分树标识符生成单元32。

树结构变换单元31从文件结构化单元13或文件结构化单元43接收结构化文件并文件结构化请求。树结构变换单元31将文件变换成以文件中存在的标记及文本为要素的树结构，并将变换后的文件返送至部分树标识符生成单元32。

部分树标识符生成单元32生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识将。该标记标识符号包括标记名和文件格式属性名及文件格式属性值。以图9为例，第一个table标记被赋与一标识符”table_border＝”0”cellpadding＝”1””，其包括标记名”table”和文件格式属性名及文件格式属性值”table border＝0 &cellpadding＝1”。在存在多个文件格式属性场合，按文件属性名顺序排列文件属性，将标记的标识符规范化。将如此获取的标记标识符作为以该标记为根的部分树的标识符，使同树结构的要素对应。将图9所示的被赋与部分树的标识符的树结构的数据返送至文件结构化单元13或文件结构化单元43。

部分特定单元4包括文件获取单元41和部分树标识符特定单元42以及文件结构化单元43。

文件获取单元41从接收基于文件标识符即URL的文件获取请求。响应所接受请求；文件获取单元41从因特网上获取相应文件，将该文件返送至部分树标识符特定单元42。

部分树标识符特定单元42，从用户接收连同部分文件ID一道发来的部分获取请求，将部分文件ID送至部分信息存储单元2，以获取相应URL及部分树标识符。于是，部分树标识符特定单元42将该URL送至文件获取单元41，获取相应的文件。其请求文件结构化单元43对所获取文件加以结构化，获取被变换成树结构的图11所示要素系列。部分树标识符特定单元42从所获取要素系列获取对应于部分树标识符的标记，将该标记范围内的部分树所包络的文件作为部分文件返送至用户。

文件结构化单元43请求文件结构解析单元3对部分树标识符特定单元42传递来的文件加以结构化。然后文件结构化单元43接收被变换成树结构的文件，作为体现图12所示树结构母子关系的数据结构。譬如，以要素ID、标签、子节点系列、部分树标识符来表示构成树结构的标记和文本要素，作为数据结构获取该等系列。

下面描述上述系统之动作。

下述动作由三部分构成：A——部分选择、B——部分特定、M——文件结构化。以下对各个步骤附以A、B、M加以说明。

首先描述A——部分选择之处理过程。

步骤A10：按用户的URL指令，文件获取单元11从因特网上获取URL所相应的文件。部分指定单元12将所获取文件传递至文件结构化单元13，发出文件结构化请求而进入M10。

步骤M10：树结构变换单元31从文件结构化单元13获取结构化文件，将文件变换成以文件中存在的标记及文本为要素的树结构，并返送至部分树标识符生成单元32，进入M20。

步骤M20：部分树标识符生成单元32生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图9为例，table标记被赋与一标识符”table_border＝”0”cellpadding＝”1””，其包括标记名”table”和文件格式属性名及其值”border＝0& cellpadding＝1”。在存在多个文件格式属性场合，按文件属性名顺序排列文件属性，将标记的标识符规范化。将如此获取的标记标识符作为部分树的标识符，使同树结构的要素对应。将图9所示的被赋与部分树的标识符的树结构的数据返送至文件结构化单元13。

步骤A20：部分指定单元12，从图7所示的便于用户容易作选择的用户接口获取用户欲选择的部分，进入步骤A30。

步骤A30：部分指定单元12从图8所示选择区的坐标等获取选择部分相应的部分树的标识符，将所获取部分树标识符与文件之URL存储于部分信息存储单元2，获取识别这一对存储参数的部分文件ID。

接着描述B——部分特定之处理过程。

步骤B10：部分树标识符特定单元42从用户接收连同部分文件ID一道发来的部分获取请求，将部分文件ID送至部分信息存储单元2，获取相应URL及部分树标识符，于是进入步骤B20。

步骤B20：部分树标识符特定单元42通过文件获取单元41获取相应于上述所获取URL的文件，其将所获取文件送至文件结构化单元43，发出文件文件结构化请求，进入步骤M10。

步骤M10：树结构变换单元31从文件结构化单元43获取结构化文件，根据文件标记及文本将文件变换成树结构。树结构变换单元31将该树结构运送至部分树标识符生成单元32，进入M20。

步骤M20：部分树标识符生成单元32生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图9为例，table标记被赋与一标识符”table_border＝”0”cellpadding＝“1””，其包括标记名”table”和文件格式属性名及其值”border＝0& cellpadding＝1”。在存在多个文件格式属性场合，按文件属性名顺序排列文件属性，将标记的标识符规范化。将如此获取的标记标识符作为部分树的标识符，使同树结构的要素对应。将图9所示的被赋与部分树的标识符的树结构的数据返送至文件结构化单元43。其后进入步骤B30。

步骤B30：部分树标识符特定单元42从被变换成树结构的图11所示要素系列检索对应于所获取部分树标识符的标记。若不存在相应的部分树的标识符则就此结束处理；若存在则进入步骤B40。

步骤B40：部分树标识符特定单元42将同所获取部分树标识符相应的部分树所包络的文件作为部分文件返送至用户。

第2实施例

图14是本发明实施例2的自结构化文件提取信息之系统结构框图。

根据该图所示系统，即便在文件中存在多个同选择部分树根相对应的标记与文件格式属性之组合的场合，也可以对选择部分作唯一特定。

在本实施例2中，除了文件结构解析单元3中部分树标识符生成单元32a而外，其它皆同于上述实施例1，故同一部分不加赘述。

部分树标识符生成单元32a生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图15为例，第一个table标记被赋与一标识符”table_border＝”0”cellpadding＝”1””，其包括标记名”table”和文件格式属性名及其值”border＝0&cellpadding＝1”。在存在多个文件格式属性场合，按文件属性名顺序排列文件属性，将标记的标识符规范化。

生成数值索引，其表示树结构内同一阶层中标记标识符的序号。将该标记标识符同数值索引组对，把这些对于自整个树结构根至部分树根嵌套状链接，形成图15所示部分树之标识符。将被赋与这样的部分村标识符的图16所示树结构数据返送至文件结构化单元13或文件结构化单元43。

以下只描述步骤M20a及M30a，因其它步骤均同上述实施例1的一样。

步骤M20a：部分树标识符生成单元32a生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图15为例，第一个table标记被赋与一标识符”table_border＝”0& cellpadding＝“1””，其包括标记名”table”和文件格式属性名及文件格式属性值”border＝”0”cellpadding＝1”。在存在多个文件格式属性场合，按文件属性名顺序进行排列，将标记的标识符规范化。而后进入步骤M30a。

步骤M30a：部分树标识符生成单元32a生成数值索引，其表示树结构内同一阶层中标记标识符的序号。将该标记标识符同数值索引组对，把这些对于自整个树结构根至部分树根嵌套状链接，形成图15所示部分树之标识符。将被赋与这样的部分树标识符的图16所示树结构数据返送至文件结构化单元13或文件结构化单元43。而后进入步骤A20或步骤B30。

第3实施例

根据该图所示系统，即便出现选择部分之前头有标记忘记关闭的情况，也可维系选择部分提取精度不降低。

在此，除了部分树标识符特定单元42a而外，其它皆同于上述实施例1，故其它部分不加赘述。

部分树标识符特定单元42a，从用户接收连同部分文件ID一道发来的部分获取请求，将部分文件ID送至部分信息存储单元2，以获取相应URL及部分树标识符。于是，将该URL送至文件获取单元41，获取相应的文件。部分树标识符特定单元42a请求文件结构化单元43对所获取文件加以结构化，据此获取被变换成树结构的图16所示要素系列。

为了从所获取要素的部分树标识符系列特定出自部分信息存储单元2获取的部分树标识符，只以标识符末尾标记标识符进行对照。就doc.table_border＝1&cellpadding＝1[0].table_border＝0&cellpadding＝1[1]这一部分树标识符而言，其末尾的标记标识符即为最靠右的tableborder＝0&cellpadding＝1。当被对照的部分树的候选者有多个时，通过进行该标记标识符的数值索引对照来筛选候选者。

若通过标记标识符的数值索引筛选候选者后仍然剩有多个候选者时，再回到母标记，递归式地重复对照。其结果，当只剩一个候选部分树时，将该候选部分树特定为所选择部分树。将该特定出的部分树标识符所相应的部分树包络的部分文件运送至用户。

图19是根据本发明实施例3的自结构化文件提取信息之方法的处理流程图。以下只描述步骤B30a至B90a，因其它步骤均同上述实施例1的一样。

步骤B30a：部分树标识符特定单元42，为了从所获取的变换成树结构的图16所示要素系列特定出自部分信息存储单元2获取的部分树标识符，将标识符末尾标记标识符设为对照对象。譬如就”doc.table_border＝1&cellpadding＝1[0].table_border＝0&cellpadding＝1[1]”这一部分树标识符而言，其末尾的标记标识符即为最靠右的table_border＝0&cellpadding＝1。设置完毕即进入步骤B40a。

步骤B40a：对作为当前对照对象的标记标识符进行对照。当被对照的部分树的候选者有多个时进入步骤B50a；而若只有一个时则进入

步骤B60a；无候选者则结束。

步骤B50a：通过进行该标记标识符的数值索引对照来筛选候选者。当被对照的部分树的候选者仍有多个时进入步骤B80a；而若只有一个时则进入步骤B60a；无候选者则结束。

步骤B60a：因被对照的候选部分树只有一个，故将该候选部分树特定为所选择部分树，而后进入步骤B70a。

步骤B70：部分树标识符特定单元42a将同所获取部分标识符相应的部分树包络的部分文件返送至用户。

步骤B80：因即便利用标记标识符的索引数值来筛选候选者也仍剩有多个候选者，故将对照对象向上移动一个阶层。譬如就”doc.Table_border＝1&cellpadding＝1[0].table_border＝0&cellpadding＝1[1]”而言，对照了末尾标记标识符”table_border＝0&cellpadding＝1”后下个对照对象就变成”table_border＝1&cellpadding＝1[0]”(母标记标识符)。然后进入步骤B90a。

步骤B90：当在步骤80a递归式地将对照对象向上移动一个阶层，其结果使得最上层标记成为对照对象之后再也不存在对照对象之场合，则结束。否则返回步骤B40a。

须指出的是，本发明也可以将上述各实施例之方法编制成计算机程序，将之安装于用做信息提取装置的计算机，亦或是通过网络传播之。

又，所编制的计算机程序也可以预先存放于同用做信息提取装置的计算机相连接的硬盘装置、软盘、或CD-ROM等可携带存储介质中，在实施本发明之际装入。

图20是一种涉及可使得用户以容易直观掌握的方式来选择HTML等结构化文件中之一部分的用户接口的本发明之原理示意图。

本发明的结构化文件之部分选择及提取方法，是自被选择的HTML等结构化文件提取部分信息之方法，包括如下步骤：

步骤1——检出同用户在有文件被显示的屏幕上选择的位置对应的树结构的末尾节点；

步骤2——使用户从以一连串节点为要素的序列中选择节点，该一连串节点是从上述末尾节点开始逐一检出上层节点而得到的；

步骤3——选择同用户所选节点相对应的结构化文件中之一部分。

图21是一种涉及上述用户接口的本发明之原理结构示意图。

根据本发明的结构化文件部分选择提取装置，是一种自被选择的HTML等结构化文件提取部分信息之装置，其包括如下单元：

节点检出单元101——用于检出同用户在有文件被显示的屏幕上选择的位置对应的树结构的末尾节点；和

选择指示单元102——使用户从以一连串节点为要素的序列中选择节点，该一连串节点是从上述末尾节点开始逐一检出上层节点而得到的；以及

部分选择单元103——选择同用户所选节点相对应的结构化文件中之一部分。

图22是根据本发明一实施例的装置结构框图。

图22所示结构化文件部分选择提取装置100包括带选择部分标示单元111的显示控制单元110、输入单元120、树结构生成单元130、以及显示部分保存单元140；并同显示装置10及输入装置20连接。

显示装置10显示测览器所处理的HTML文本及图像。

输入装置20输入用户通过按键操作等选择的信息。该按键操作包括区域的扩大(+)、尺寸缩小(-)、删除(clear)、选择(select)等。

显示控制单元110的选择部分标示单元111，根据用户按键操作来逐一显示树结构内各层目标。用户所选期望部分譬如被作为HTML文本保存于显示部分保存单元140。

输入单元120自输入装置20接收用户输入(按键操作输入)，将输入信息送至树结构生成单元130及选择部分标示单元111。

树结构生成单元130从构成HTML整个树结构的目标检出处于用户鼠标单击位置的目标而存放于目标序列中。

图23是根据本发明一实施例的选择提取方法的处理流程图。

于步骤S110，显示作为处理对象的HTML文件于用户终端测览器窗口。于步骤S120，用户在屏幕上鼠标单击欲选择部分。于步骤S130，树结构生成单元130从构成HTML树结构的目标提取出处于鼠标单击位置的目标。于是，如图24所示，被提取出的目标所对应的矩形区被标示在屏幕上显示的文件上。

此时，若用户选择该标示部分，则将该标示部分作为HTML文本保存于显示部分保存单元140(步骤S160)，而后删除文件上的标示(步骤S180)。若用户不选择该标示部分，用户可通过按键(此时按键业已被显示)操作来使该区域扩大(+)、缩小(-)、被删除(clear)或选择(select)等(步骤S170)。通过用户按键操作，可逐一显示树结构内上层或下层目标。当期望部分被标示于屏幕时，通过选择按钮”select”选择标示部分(步骤S150)。所选择部分被作为HTML文本保存于显示部分保存单元140(步骤S160)。

上述处理可以在浏览器上执行。此时，对作为处理对象的原HTML附加Java Script等记述的原语(Script)，将之读入浏览器。

下面描述树结构生成单元130的处理。

图25是根据本发明一实施例的树结构生成单元处理流程图。

首先进行目标序列初始化(步骤S131)。检出处于鼠标单击位置的目标(步骤S132)，存放于序列中(步骤S133)。这里，目标对应于HTML文件部分，就树结构而言是对应于各节点。另外在屏幕上还存在与之一一对应的区域。拿图29之例来说，树结构总共由13个节点构成。若被检出目标中有母目标时(步骤S134之Yes)，该母目标也作为处于鼠标单击位置的目标保存于上述序列中(步骤S133)。通过在所有目标阶层进行该项处理，可以得到处于鼠标单击位置的目标序列a。以图29为例，鼠标单击”apple”时，”k，j，i，h，f，e，d，a”等各目标均存放于序列a中。

接着进行该序列中各要素检查(步骤S135)。即，对于屏幕上无法区别的诸目标(因某目标中含有的文本或图像、某目标所相应的文本或区域等同其它目标的一样，故无法区别)，选择其中最上层者。

只要存在下个要素，就判断一下该下个要素所含文本是否不同(步骤S137)。若不同，则将其存放入序列b(步骤S138)。接着再判断一下存在下个要素否(步骤S136)。若不存在下个要素则将目标存放于序列b(步骤S139)。就此，处理结束。

这样，最终可得到由处于鼠标单击位置并且屏幕上可相互区别的目标构成的序列b。

下面以图29为例具体加以阐述。在”k”和”j”之下都含有同一文本”apple”，故将其中位于上层的”j”存放于序列b。在”i”和”h”之下都含有同一文本”apple”及”orange”，故将其中位于上层的”h”存放于序列b。则最终存放于序列b中的是目标”j”，”h”，”a”。

下面描述选择部分标示单元111。

图26是根据本发明一实施例的选择部分标示单元111处理流程图。

首先设置作为显示对象的目标(步骤S141)。该设置体现为：首次显示——显示”当前所选择序列b之要素”；扩大显示——显示”序列b中下个较高层要素”；尺寸缩小显示——显示”序列b中下个较低层要素”。

在首次显示中，提取对应于目标序列b中最下层目标之矩形(步骤S142)，譬如图24所示那样将之重叠于屏幕之上而显示(步骤S143)。操作图24所示扩大按键”+”时，选择对应于当前所选择部分的目标的下个较高层目标，其结果，新选择目标的矩形重叠于屏幕之上而被显示。同理，操作尺寸缩小按钮”-”时，选择上个较低层目标。以图29为例，对应于存放于序列b中的目标，重叠显示如图27所示。

最后描述系统整体结构。

图28是根据本发明一实施例的系统结构示意图。

图28所示系统包括用户终端100(结构化文件部分选择提取装置)、中继服务器200、以及存储作为处理对象的HTML文件的服务器300。

为便于就作为处理对象的HTML一边于屏幕显示”http：//www.foo.com/doc.html”一边在屏幕上作上述操作，设中继节点200http：//www.myserv.corn/cgi-bin/get.cgi？http：//foo.com/doc.html。

下述括号()中数字同图28中括号()中数字对应。

(1)首先，用户以处理对象HTML的URL为自变量从用户终端100启动中继服务器200的CGI。

(2)中继服务器200以URL发送请求给服务器300。

(3)服务器300传递HTML文件给中继服务器200。

(4)中继服务器200在从服务器300获取的HTML文件的末尾附加处理原语(job script)。

(5)中继服务器200将附加了部分文件选择及提取功能的HTML文件发送至用户终端100。

这样，用户终端100就可以处理附加了部分文件选择及提取功能的HTML文件。

须指出的是，也可以将上述实施例之结构化文件部分选择提取装置之构成要素计算机程序化，将之安装于用做结构化文件部分选择提取装置的计算机，亦或是通过网络传播之。

又，所编制的计算机程序也可以预先存放于同用做结构化文件部分选择提取装置的计算机相连接的硬盘装置、软盘、或CD-ROM等可携带存储介质中，在实施本发明之际装入。

本发明并非仅限于上述实施例，在不脱离本发明总的构思情况下可以有变形和修改。

本申请是基于先后于2002年6月28日和同年7月12日于日本提出的申请号为2002-190621号及2002-204641号的在先申请，在此参照了其全部内容。

Claims

1.一种识别结构化文件的一部分的方法，其中结构化文件根据预定的规则被变换为树结构，并且用户事先从该结构化文件中选择的一个所选择部分对应于作为所述树结构的一部分的所选择部分树，所述方法包括如下步骤：

将部分树标识符赋予上述所选择部分树，该部分树标识符包括标记标识符，该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值；

在存储器中存储被赋予所选择部分树的部分树标识符；

在该结构化文件更新后接收该结构化文件；

产生在所接收的结构化文件中存在的部分树的部分树标识符的列表；以及

从上述部分树标识符的列表中识别一个部分树，该部分树的部分树标识符与存储器中存储的被赋予所选择部分树的部分树标识符相同。

2.按权利要求1所述的方法，其特征在于，上述结构化文件中多个标记所具有的标记名及上述至少1个文件格式属性名同上述所选择部分树的一样；本方法还包括如下步骤：

生成数值索引，其表示上述树结构内同一阶层中标记标识符序号；

把标记标识符与数值索引组对，自树结构根至所选择部分树根嵌套状链接多个上述标记标识符与数值索引之对子，以形成上述部分树标识符。

3.按权利要求2所述的方法，其特征在于，上述识别部分树的步骤还包括如下步骤：

对照步骤——只参照上述部分树标识符末尾的标记标识符，来对照上述部分树的部分树标识符与上述所选择部分树的部分树标识符；

筛选步骤——若上述对照步骤后仍然剩有多个上述部分树标识符候选者，则参照上述部分树标识符的数值索引筛选候选者；

递归式重复对照步骤——若上述筛选步骤后仍然剩有多个上述部分树标识符候选者，则依次进入下一较高层的用于对照的标记，递归式地对照上述部分树的部分树标识符与上述所选择部分树的部分树标识符；

识别步骤——当递归式重复对照步骤后只剩一个部分树时，将该部分树识别为上述所选择部分树。

4.按权利要求1所述的方法，其特征在于，还包括如下步骤：

检出同用户在显示有上述结构化文件的屏幕上选择的位置相对应的树结构的末尾节点；

使用户从一连串节点中选一节点，该一连串节点是从上述末尾节点开始逐一检出较高层节点而得到的；

选择同用户所选节点相对应的结构化文件中之一部分，以作为上述所选择部分。

5.一种自结构化文件提取信息的装置，其中包括：

树结构变换单元——根据预定的规则将结构化文件变换成树结构；和

部分树标识符生成单元——将部分树标识符赋予上述树结构的部分树，该部分树标识符包括标记标识符，该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值。

6.按权利要求5所述的装置，其特征在于，若上述标记的至少1个文件格式属性包括多个文件格式属性，则上述部分树标识符生成单元在上述标记标识符中按给定顺序排列上述文件格式属性名。

7.按权利要求5所述的装置，其特征在于，上述结构化文件中多个标记所具有的标记名及上述至少1个文件格式属性名同上述所选择部分树的一样；上述部分树标识符生成单元生成数值索引，其表示上述树结构内同一阶层中标记标识符序号；把标记标识符与数值索引组对，自树结构根至所选择部分树根嵌套状链接多个上述标记标识符与数值索引之对子，以形成上述部分树标识符。

8.按权利要求5所述的装置，其特征在于，还包括如下各单元：

节点检出单元——检出同用户在显示有文件的屏幕上选择的位置相对应的树结构的末尾节点；和

选择指示单元——使用户从一连串节点中选一节点，该一连串节点是从上述末尾节点开始逐一检出较高节点而得到的；以及

部分选择单元——选择同用户所选节点相对应的结构化文件中之一部分，以作为上述所选择部分。

9.一种结构化文件部分选择提取方法，该结构化文件包括内容文件和用于定义如何显示该内容文件的定义，所述结构化文件具有存储在存储器中的对应树结构，所述结构化文件和对应树结构通过预定的规则相互关联，所述方法包括如下步骤：

通过根据上述定义在屏幕上显示上述内容文件来显示该结构化文件；

在屏幕上检出用户指示的内容文件位置；

检出同用户在屏幕上指示的位置相对应的树结构的末尾节点；

通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点；

通过促使用户选择屏幕上的内容文件的一个对应部分，促使用户从该一连串节点中选择一节点；以及

选择提取同用户所选节点相对应的结构化文件中之一部分。

10.按权利要求9所述的方法，其中，上述促使步骤包括如下步骤：

在上述屏幕上标示同上述一节点相对应的结构化文件之一部分的区域；

促使用户通过改变节点选择来选择期望区域；

确定同上述选择期望区域相对应的节点作用户所选节点；

在上述选择步骤，选择同上述用户所选节点相对应的结构化文件中之一部分。

11.按权利要求10所述的方法，其中，上述确定步骤还包括以下步骤：当上述多个节点对应于上述选择期望区域时，从该多个节点中选择最高层节点作为上述用户所选节点。

12.按权利要求10所述的方法，其中，上述确定步骤还包括如下步骤：当上述多个节点均包括同一文本及图像数据时，从该多个节点中选择最高层节点作上述用户所选节点。

13.按权利要求9所述的方法，其中还包括如下步骤：

发送被用户指定的URL所指示的结构化文件至中继服务器；

在上述中继服务器，将含文件部分选择及提取功能的原语附加于上述结构化文件；

由上述中继服务器将附加了原语的上述结构化文件发送至用户终端；

在该用户终端，利用上述附加原语执行权利要求9中的各步骤。

14.一种结构化文件部分选择提取装置，该结构化文件包括内容文件和用于定义如何显示该内容文件的定义，所述结构化文件具有存储在存储器中的对应树结构，所述结构化文件和对应树结构通过预定的规则相互关联，所述装置包括：

显示控制单元——被配置用于通过根据该定义在屏幕上显示该内容文件来显示该结构化文件；

输入单元——被配置用于在屏幕上检测用户指示的内容文件位置；

节点检测单元——被配置用于检测同用户在屏幕上指示的位置相对应的树结构的末尾节点；

选择确定单元——被配置用于通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点，并通过促使用户选择屏幕上的内容文件的一个对应部分，促使用户从该一连串节点中选择一节点；和

部分选择单元——被配置用于选择提取同用户所选节点相对应的结构化文件中之一部分。

15.按权利要求14所述的装置，其中，上述选择确定单元在上述屏幕上标示同上述一节点相对应的结构化文件之一部分的区域，使用户通过改变节点选择来选择期望区域，确定同上述选择期望区域相对应的节点作用户所选节点；上述部分选择单元选择同上述用户所选节点相对应的结构化文件中之一部分。

16.按权利要求15所述的装置，其中，上述选择确定单元，在当上述多个节点对应于上述选择期望区域时，从该多个节点中选择最高层节点作上述用户所选节点。

17.按权利要求15所述的装置，其中，上述选择确定单元，在当上述多个节点均包括同一文本及图像数据时，从该多个节点中选择最高层节点作上述用户所选节点。

18.按权利要求14所述的装置，其中还包括如下各单元：

发送被用户指定的URL所指示的结构化文件至中继服务器的单元；

在上述中继服务器将含文件部分选择及提取功能的原语附加于上述结构化文件的单元；和

由上述中继服务器将附加了原语的上述结构化文件发送至用户终端的单元；

上述显示控制单元、上述输入单元、上述节点检出单元、上述选择确定单元及上述部分选择单元在上述用户终端利用上述附加原语进行处理。