CN1244877C - 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置 - Google Patents

结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置 Download PDF

Info

Publication number
CN1244877C
CN1244877C CNB031486614A CN03148661A CN1244877C CN 1244877 C CN1244877 C CN 1244877C CN B031486614 A CNB031486614 A CN B031486614A CN 03148661 A CN03148661 A CN 03148661A CN 1244877 C CN1244877 C CN 1244877C
Authority
CN
China
Prior art keywords
mentioned
tree
identifier
file
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB031486614A
Other languages
English (en)
Other versions
CN1469276A (zh
Inventor
内山匡
宫本胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002190621A external-priority patent/JP3937944B2/ja
Priority claimed from JP2002204641A external-priority patent/JP2004046642A/ja
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN1469276A publication Critical patent/CN1469276A/zh
Application granted granted Critical
Publication of CN1244877C publication Critical patent/CN1244877C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Abstract

一种自结构化文件提取信息之方法,包括如下步骤:将包括标记标识符的部分树标识符赋与所选择部分树,该标记标识符包括对应于所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值;若该标记的上述至少1个文件格式属性包括多个文件格式属性,则在上述标记标识符中按给定顺序排列上述文件格式属性名;从更新后树结构文件中所存在的部分树的部分树标识符系列特定出部分树,该部分树具有同上述所选择部分树的部分树标识符一样的部分树标识符。

Description

结构化文件的信息提取方法、部分识别方法、 部分选择提取方法及装置
技术领域
本发明一般涉及自HTML等结构化文件提取信息之方法,尤其是涉及自每天更新的结构化文件特定并提取出事先选择的期望部分之信息提取方法。本发明还涉及可容易地在结构化文件中选择期望部分之用户接口。
背景技术
存在着这样的需求:只想从每天更新的HTML等结构化文件中选择某一部分。譬如,用户通过只对所熟悉网站的惹人注目之部分进行剪辑汇集中就可以容易地做到仅测览所需信息。又,当被剪辑部分之信息源每天更新时,则又需求自更新文件特定所选择部分而再次剪辑汇集。
为此,据涉及WWW信息提取系统的日本专利第2867986号公报所载,事先对表示所选择部分的开始点及结束点的信息加以保存,根据该信息来从更新文件特定开始点及结束点,将夹于两者之间的部分作为特定部分提取出来。譬如,预先在存储器保存对应于选择部分的开始点及结束点的文本,当从文件提取选择部分时,只要根据所保存文本在HTML文件中特定开始点及结束点继而提取出被特定部分即可。
又据webMethods公司提出的系统(http://www.w3.org/TR/NOTE-widl)和Luca Iocchi提出的系统(Luca Iocchi:TheWeb-OEM approachto Web information,Journal of Network and Computer Applications,Vol.22,pp.259-269(1999)),提出了这样一种方法:将HTML文件变换成树结构,对相应于事先选择部分的部分树之信息加以保存,从更新文件之中特定同所保存部分树相对应的部分。在此,该部分树之信息包括一字符序列,用作选择部分的标识符。以标记名作标记的标识符,树结构中同一阶层内标记名被赋与相应的数值索引。将组对于数值索引的标记名嵌套状链接,形成字符序列,以表现自整个树的根至所选择部分的部分树根之结构。譬如就图1之例而言,假设”doc”是整个树结构的根,则用于指向所选择的”当地新闻”部分之标识符可表现为:doc.table[0].table[0]。
然而,上述已有的涉及WWW信息提取系统的日本专利第2867986号公报所载方法,由于是根据选择部分的开始点及结束点的信息线索来提取选择部分,所以自然要求该信息是文件更新后仍然留下的信息。但是,难以判断哪些信息更新前后不变。尤其是就设计完全由作者单方面决定的因特网上主页而言,例外很多。故,上述方法存在着应用领域有限的问题。
譬如,上述WWW信息提取系统,以对应于开始点及结束点的文本为线索时,这些文本本身可能会如图2所示那样变更,这样,该方法就无用。
又,根据该方法,当如图3A所示提取出所选择部分时,则如图3B所示,构成不了作为树结构的部分树。故,难以将该提取部分再利用于其它结构化文件。
又,前述webMethods公司或Luca Iocchi提出的基于选择部分的部分树之标识符的方法,由于其是以更新前后文件结构不变为前提,所以当变更前后文件结构有所改变时,事先选择部分树的标识符同更新后的标识符不匹配。
譬如,当具有同一标记的文件块被插入于文件的选择部分所处的树结构的阶层时,在部分树的标识符中标记的数值索引移位。譬如在图1之例中,在选择部分上部插入table标记包络的”广告2”所相关文本,以更新文件。其结果,则所选择”当地新闻”对应的table标记名的标记标识符号的数值索引就从table[0]变成table[1]。就常常插入或删除标题广告、紧急新闻等的网站的主页而言,进行这种形式上的细微变更之可能性很大,况且用户欲选择的也多是信息频繁更新的网站的主页。故如果因这种细微变更而造成选择部分提取精度下降时,则需要指出精度下降。
还有,若忘记关闭自选择部分开始文件前面的在部分选择时本不该存在的标记时,则在形式上看,该标记被作为选择部分的母节点保留下来。譬如在图1之更新例中,忘记关闭选择部分上部的包络”广告1”的table标记。结果,本应正确地表示为doc.table[0].table[0]这一标识符变成doc.table[0].table[0].table[1]。而这表示存在着作为选择部分”当地新闻”的母节点的table标记。由此,更新前后部分树的标识符不匹配。就目前普遍应用的WWW测览器而言,容许忘记关闭标记,页制作者更新页时常常不注意标记是否关闭。
因为这种具有同一标记的文件块的插入以及忘记关闭标记现象,会引发图1的文件更新例的麻烦。即指向选择部分的部分树的标识符从doc.table[0].table[0]变成doc.table[0].table[0].table[1]。
还有,在前述webMethods公司或Luca Iocchi提出的方法中还存在着如是问题:选择HTML等结构化文件中之一部分时,需要具备标记和文件结构方面的知识以及技术。
发明内容
本发明目的就在于解决上述已有技术中所存在的不足及缺点造成的某一或某些问题。
具体而言,本发明目的在于提供一种即便文件更新也照样可在精度无所降低的情况下提取出选择部分的自结构化文件提取信息之方法与装置并计算机程序及其存储介质。
本发明目的还在于提供一种可使得用户以容易直观掌握的方式来选择HTML等结构化文件中之一部分的自结构化文件提取信息之方法与装置并计算机程序及其存储介质。
本发明的发明目的是这样实现的:一种识别结构化文件的一部分的方法,其中结构化文件根据预定的规则被变换为树结构,并且用户事先从该结构化文件中选择的一个所选择部分对应于作为所述树结构的一部分的所选择部分树,所述方法包括如下步骤:将部分树标识符赋予上述所选择部分树,该部分树标识符包括标记标识符,该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值;若该标记的上述至少1个文件格式属性包括多个文件格式属性,则在上述标记标识符中按给定顺序排列上述文件格式属性名;在存储器中存储被赋予所选择部分树的部分树标识符;在该结构化文件更新后接收该结构化文件;产生在所接收的结构化文件中存在的部分树的部分树标识符的列表;以及从上述部分树标识符的列表中识别一个部分树,该部分树的部分树标识符与存储器中存储的被赋予所选择部分树的部分树标识符相同。
本发明目的还可以这样实现的:将一标记标识符用作部分树标识符,该标记标识符包括标记名、该标记的至少1个文件格式属性名、以及至少1个该文件格式属性值。靠这一部分树标识符,即便具有同所选择部分的部分树一样标记的文件块被插入同所选择部分一样的阶层,只要标记的文件格式属性不同,就可不以依赖于开始及结束点的方式来维系部分提取精度不降低。
若该标记的上述至少1个文件格式属性包括多个文件格式属性,则在上述标记标识符中按给定顺序排列上述文件格式属性名;
从更新后树结构文件中所存在的部分树的部分树标识符系列特定出部分树,该部分树具有同上述所选择部分树的部分树标识符一样的部分树标识符。
还可生成数值索引,其表示上述树结构内同一阶层中标记标识符序号;把标记标识符与数值索引组对;自整个树结构根至部分树根嵌套状链接多个上述对子,以形成部分树标识符。据此,即便同所选择部分树根相对应的标记与文件格式属性之组合可被用于文件中其它标记的场合,也可以对所选择部分作唯一特定。
进一步,在特定部分树过程中,若被对照出的部分树多个,则依次进入下一较高层的母节点,递归式重复对照标识符。据此,即便出现所选择部分之前头有标记忘记关闭的情况,也可维系部分提取精度不降低。
本发明目的还可以这样实现:一种自结构化文件提取信息的装置,其中包括:树结构变换单元——根据预定的规则将结构化文件变换成树结构;和部分树标识符生成单元——将部分树标识符赋予上述树结构的部分树,该部分树标识符包括标记标识符,该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值。
本发明目的还可以这样实现:一种结构化文件部分选择提取方法,该结构化文件包括内容文件和用于定义如何显示该内容文件的定义,所述结构化文件具有存储在存储器中的对应树结构,所述结构化文件和对应树结构通过预定的规则相互关联,所述方法包括如下步骤:通过根据上述定义在屏幕上显示上述内容文件来显示该结构化文件;在屏幕上检出用户指示的内容文件位置;检出同用户在屏幕上指示的位置相对应的树结构的末尾节点;通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点;通过促使用户选择屏幕上的内容文件的一个对应部分,促使用户从该一连串节点中选择一节点;以及选择提取同用户所选节点相对应的结构化文件中之一部分。
本发明目的还可以这样实现:一种结构化文件部分选择提取装置,该结构化文件包括内容文件和用于定义如何显示该内容文件的定义,所述结构化文件具有存储在存储器中的对应树结构,所述结构化文件和对应树结构通过预定的规则相互关联,所述装置包括:显示控制单元——被配置用于通过根据该定义在屏幕上显示该内容文件来显示该结构化文件;输入单元——被配置用于在屏幕上检测用户指示的内容文件位置;节点检测单元——被配置用于检测同用户在屏幕上指示的位置相对应的树结构的末尾节点;选择确定单元——被配置用于通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点,并通过促使用户选择屏幕上的内容文件的一个对应部分,促使用户从该一连串节点中选择一节点;和部分选择单元——被配置用于选择提取同用户所选节点相对应的结构化文件中之一部分。
另外,本发明其它目的、特征及优点可通过以下结合附图对细节的描述得以清楚理解。
附图说明
图1是已有技术示意图。
图2是以开始及结束点的文本为线索进行文件部分选择提取之例的示意图。
图3A及3B是以开始及结束点的文本为线索提取HTML文件的对应部分之例的示意图。
图4是本发明原理示意图。
图5是根据本发明实施例的表示具备同一标记与同一文件格式属性者有多个之情形的图。
图6是根据本发明实施例1的自结构化文件提取信息之系统结构示意图。
图7是根据本发明实施例1的提供用于文件选择的显示页之例的示意图。
图8是根据本发明实施例1的部分信息存储单元所存储信息之例的示意图。
图9是根据本发明实施例1的通过文件结构解析生成的树结构数据之例的示意图。
图10是根据本发明实施例1的部分信息存储单元之内容示意图。
图11是根据本发明实施例1的要素系列之例示意图。
图12是根据本发明实施例1的被变换的树数据结构之例示意图。
图13是根据本发明实施例1的自结构化文件提取信息之方法的处理流程图。
图14是根据本发明实施例2的自结构化文件提取信息之系统结构示意图。
图15是根据本发明实施例2的选择部分的部分树标识符生成示意图。
图16是根据本发明实施例2的部分树数据生成示意图。
图17是根据本发明实施例2的自结构化文件提取信息之方法的处理流程图。
图18是本发明实施例3的自结构化文件提取信息之系统结构框图。
图19是根据本发明实施例3的自结构化文件提取信息之方法的处理流程图。
图20是根据本发明的用户接口原理示意图。
图21是根据本发明的用户接口原理结构示意图。
图22是根据本发明实施例的装置结构框图。
图23是根据本发明一实施例的整个处理流程图。
图24是根据本发明一实施例的测览器上作部分选择之例示意图。
图25是根据本发明一实施例的树结构生成单元处理流程图。
图26是根据本发明一实施例的选择部分标示单元处理流程图。
图27是根据本发明一实施例的树结构与选择部分显示的对应之例示意图。
图28是根据本发明一实施例的系统整体结构示意图。
图29是同HTML源对应的树结构、对应的例览器之例示意图。
具体实施方式
下面结合附图对本发明实施例作以说明。
图4是本发明原理示意图。
根据本发明的自结构化文件提取信息之方法可为:将文件变换为树结构,生成对应于文件某部分的部分树的标识符,据此来事先选择结构化文件中任意部分,从被更新文件特定出选择部分。
如图4所示,本方法包括如下步骤。
步骤S1:以对应于部分树根的标记名、标记的某一或某些文件格式属性名、文件格式属性值之组合为标记的标识符,以该标记的标识符为对应的部分树的标识符。
步骤S2:在标记的标识符具备多个文件格式属性之场合,按文件属性名顺序(如字母顺序)排列文件属性,将标记的标识符规范化。
步骤S3:据变换成树结构的文件中所存在的部分树的标识符系列,将具有同已选择部分树的标识符一样的部分树特定为选择部分。
又如图5所示,该文件中对应于所选择部分树根的标记名与文件格式属性之组合被用于多个标记的场合,生成数值索引,表示一系列标记的标识符属于树结构内同一阶层。于是,把标记标识符与数值索引组对,将这些对子自整个树结构根至所选择部分树根嵌套状链接,据此形成该部分树之标识符。
又,有时需要从变换成树结构的文件中所存在的部分树的标识符系列来特定具有同己选择部分树一样的标识符之部分树。对于部分树的标识符之对照,只以部分树根的标识符进行对照。当被对照的所选择部分树的候选者有多个时,通过进行该标记标识符所关连数值索引对照来筛选候选者。若根据数值索引筛选候选者后仍然剩有多个候选者时,再回到母标记递归式地重复对照,当对照结果只剩一个候选部分树时,将该候选部分树特定为所选择部分树。
第1实施例
图6是根据本发明实施例1的自结构化文件提取信息之系统结构框图。
根据该图所示系统,即便具有同选择部分的部分树一样的标记的文件块被插入选择部分所属同一阶层时,只要标记的文件格式属性不同,就可以不依赖于所选择部分开始及结束点的方式来维系选择部分的提取精度不降低。
图6所示系统包括:接受来自用户的对结构化文件中某部分作选择的指令的部分选择单元1;存储所选择部分之信息的部分信息存储单元2;以标记及其文件格式属性来识别树结构中部分树的文件结构解析单元3;以及响应用户请求而返送同选择部分相对应的文件部分的部分特定单元4。
部分选择单元1包括文件获取单元11、部分指定单元12以及文件结构化单元13。
文件获取单元11,当从部分指定单元12接收到基于文件标识符即URL(Uniform Resource Locator)的文件获取请求时,从因特网上获取相应文件而返送之。
部分指定单元12,利用一URL向文件获取单元11提出文件获取请求,以获取相应文件。接着,部分指定单元12请求文件结构化单元13对该文件加以结构化,以获取变换成树结构的文件。进一步,如图7所示,部分指定单元12还提供便于用户特定该文件中之一部分的用户接口。从特定部分区的坐标等生成相应的部分树的标识符,并将该标识符连同URL一道存储于图8所示的部分信息存储单元2。
文件结构化单元13请求文件结构解析单元3对部分指定单元12传递来的文件加以结构化。于是,文件结构化单元13接收被变换成树结构的文件,作为表现图9所示树结构母子关系的数据结构。譬如,以要素ID、标签、子节点系列、部分树标识符来表示构成树结构的标记或文本要素。作为数据结构获取该等系列。
部分信息存储单元2从部分指定单元12获取URL和部分树的标识符,设置部分文件ID,用以识别这一对参数(URL和部分部分树标识符)。这一参数及其文件部分ID(识别数据)被加以保存,见图10。于是返送部分文件ID给部分指定单元12。
文件结构解析单元3包括树结构变换单元31及部分树标识符生成单元32。
树结构变换单元31从文件结构化单元13或文件结构化单元43接收结构化文件并文件结构化请求。树结构变换单元31将文件变换成以文件中存在的标记及文本为要素的树结构,并将变换后的文件返送至部分树标识符生成单元32。
部分树标识符生成单元32生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识将。该标记标识符号包括标记名和文件格式属性名及文件格式属性值。以图9为例,第一个table标记被赋与一标识符”table_border=”0”cellpadding=”1””,其包括标记名”table”和文件格式属性名及文件格式属性值”table border=0 &cellpadding=1”。在存在多个文件格式属性场合,按文件属性名顺序排列文件属性,将标记的标识符规范化。将如此获取的标记标识符作为以该标记为根的部分树的标识符,使同树结构的要素对应。将图9所示的被赋与部分树的标识符的树结构的数据返送至文件结构化单元13或文件结构化单元43。
部分特定单元4包括文件获取单元41和部分树标识符特定单元42以及文件结构化单元43。
文件获取单元41从接收基于文件标识符即URL的文件获取请求。响应所接受请求;文件获取单元41从因特网上获取相应文件,将该文件返送至部分树标识符特定单元42。
部分树标识符特定单元42,从用户接收连同部分文件ID一道发来的部分获取请求,将部分文件ID送至部分信息存储单元2,以获取相应URL及部分树标识符。于是,部分树标识符特定单元42将该URL送至文件获取单元41,获取相应的文件。其请求文件结构化单元43对所获取文件加以结构化,获取被变换成树结构的图11所示要素系列。部分树标识符特定单元42从所获取要素系列获取对应于部分树标识符的标记,将该标记范围内的部分树所包络的文件作为部分文件返送至用户。
文件结构化单元43请求文件结构解析单元3对部分树标识符特定单元42传递来的文件加以结构化。然后文件结构化单元43接收被变换成树结构的文件,作为体现图12所示树结构母子关系的数据结构。譬如,以要素ID、标签、子节点系列、部分树标识符来表示构成树结构的标记和文本要素,作为数据结构获取该等系列。
下面描述上述系统之动作。
图13是根据本发明实施例1的自结构化文件提取信息之方法的处理流程图。
下述动作由三部分构成:A——部分选择、B——部分特定、M——文件结构化。以下对各个步骤附以A、B、M加以说明。
首先描述A——部分选择之处理过程。
步骤A10:按用户的URL指令,文件获取单元11从因特网上获取URL所相应的文件。部分指定单元12将所获取文件传递至文件结构化单元13,发出文件结构化请求而进入M10。
步骤M10:树结构变换单元31从文件结构化单元13获取结构化文件,将文件变换成以文件中存在的标记及文本为要素的树结构,并返送至部分树标识符生成单元32,进入M20。
步骤M20:部分树标识符生成单元32生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图9为例,table标记被赋与一标识符”table_border=”0”cellpadding=”1””,其包括标记名”table”和文件格式属性名及其值”border=0& cellpadding=1”。在存在多个文件格式属性场合,按文件属性名顺序排列文件属性,将标记的标识符规范化。将如此获取的标记标识符作为部分树的标识符,使同树结构的要素对应。将图9所示的被赋与部分树的标识符的树结构的数据返送至文件结构化单元13。
步骤A20:部分指定单元12,从图7所示的便于用户容易作选择的用户接口获取用户欲选择的部分,进入步骤A30。
步骤A30:部分指定单元12从图8所示选择区的坐标等获取选择部分相应的部分树的标识符,将所获取部分树标识符与文件之URL存储于部分信息存储单元2,获取识别这一对存储参数的部分文件ID。
接着描述B——部分特定之处理过程。
步骤B10:部分树标识符特定单元42从用户接收连同部分文件ID一道发来的部分获取请求,将部分文件ID送至部分信息存储单元2,获取相应URL及部分树标识符,于是进入步骤B20。
步骤B20:部分树标识符特定单元42通过文件获取单元41获取相应于上述所获取URL的文件,其将所获取文件送至文件结构化单元43,发出文件文件结构化请求,进入步骤M10。
步骤M10:树结构变换单元31从文件结构化单元43获取结构化文件,根据文件标记及文本将文件变换成树结构。树结构变换单元31将该树结构运送至部分树标识符生成单元32,进入M20。
步骤M20:部分树标识符生成单元32生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图9为例,table标记被赋与一标识符”table_border=”0”cellpadding=“1””,其包括标记名”table”和文件格式属性名及其值”border=0& cellpadding=1”。在存在多个文件格式属性场合,按文件属性名顺序排列文件属性,将标记的标识符规范化。将如此获取的标记标识符作为部分树的标识符,使同树结构的要素对应。将图9所示的被赋与部分树的标识符的树结构的数据返送至文件结构化单元43。其后进入步骤B30。
步骤B30:部分树标识符特定单元42从被变换成树结构的图11所示要素系列检索对应于所获取部分树标识符的标记。若不存在相应的部分树的标识符则就此结束处理;若存在则进入步骤B40。
步骤B40:部分树标识符特定单元42将同所获取部分树标识符相应的部分树所包络的文件作为部分文件返送至用户。
第2实施例
图14是本发明实施例2的自结构化文件提取信息之系统结构框图。
根据该图所示系统,即便在文件中存在多个同选择部分树根相对应的标记与文件格式属性之组合的场合,也可以对选择部分作唯一特定。
在本实施例2中,除了文件结构解析单元3中部分树标识符生成单元32a而外,其它皆同于上述实施例1,故同一部分不加赘述。
部分树标识符生成单元32a生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图15为例,第一个table标记被赋与一标识符”table_border=”0”cellpadding=”1””,其包括标记名”table”和文件格式属性名及其值”border=0&cellpadding=1”。在存在多个文件格式属性场合,按文件属性名顺序排列文件属性,将标记的标识符规范化。
生成数值索引,其表示树结构内同一阶层中标记标识符的序号。将该标记标识符同数值索引组对,把这些对于自整个树结构根至部分树根嵌套状链接,形成图15所示部分树之标识符。将被赋与这样的部分村标识符的图16所示树结构数据返送至文件结构化单元13或文件结构化单元43。
图17是根据本发明实施例2的自结构化文件提取信息之方法的处理流程图。
以下只描述步骤M20a及M30a,因其它步骤均同上述实施例1的一样。
步骤M20a:部分树标识符生成单元32a生成构成在树结构变换单元31变换成树结构的文件的标记所对应的标记标识符。该标记标识符包括标记名和文件格式属性名及文件格式属性值。以图15为例,第一个table标记被赋与一标识符”table_border=”0& cellpadding=“1””,其包括标记名”table”和文件格式属性名及文件格式属性值”border=”0”cellpadding=1”。在存在多个文件格式属性场合,按文件属性名顺序进行排列,将标记的标识符规范化。而后进入步骤M30a。
步骤M30a:部分树标识符生成单元32a生成数值索引,其表示树结构内同一阶层中标记标识符的序号。将该标记标识符同数值索引组对,把这些对于自整个树结构根至部分树根嵌套状链接,形成图15所示部分树之标识符。将被赋与这样的部分树标识符的图16所示树结构数据返送至文件结构化单元13或文件结构化单元43。而后进入步骤A20或步骤B30。
第3实施例
图18是本发明实施例3的自结构化文件提取信息之系统结构框图。
根据该图所示系统,即便出现选择部分之前头有标记忘记关闭的情况,也可维系选择部分提取精度不降低。
在此,除了部分树标识符特定单元42a而外,其它皆同于上述实施例1,故其它部分不加赘述。
部分树标识符特定单元42a,从用户接收连同部分文件ID一道发来的部分获取请求,将部分文件ID送至部分信息存储单元2,以获取相应URL及部分树标识符。于是,将该URL送至文件获取单元41,获取相应的文件。部分树标识符特定单元42a请求文件结构化单元43对所获取文件加以结构化,据此获取被变换成树结构的图16所示要素系列。
为了从所获取要素的部分树标识符系列特定出自部分信息存储单元2获取的部分树标识符,只以标识符末尾标记标识符进行对照。就doc.table_border=1&cellpadding=1[0].table_border=0&cellpadding=1[1]这一部分树标识符而言,其末尾的标记标识符即为最靠右的tableborder=0&cellpadding=1。当被对照的部分树的候选者有多个时,通过进行该标记标识符的数值索引对照来筛选候选者。
若通过标记标识符的数值索引筛选候选者后仍然剩有多个候选者时,再回到母标记,递归式地重复对照。其结果,当只剩一个候选部分树时,将该候选部分树特定为所选择部分树。将该特定出的部分树标识符所相应的部分树包络的部分文件运送至用户。
图19是根据本发明实施例3的自结构化文件提取信息之方法的处理流程图。以下只描述步骤B30a至B90a,因其它步骤均同上述实施例1的一样。
步骤B30a:部分树标识符特定单元42,为了从所获取的变换成树结构的图16所示要素系列特定出自部分信息存储单元2获取的部分树标识符,将标识符末尾标记标识符设为对照对象。譬如就”doc.table_border=1&cellpadding=1[0].table_border=0&cellpadding=1[1]”这一部分树标识符而言,其末尾的标记标识符即为最靠右的table_border=0&cellpadding=1。设置完毕即进入步骤B40a。
步骤B40a:对作为当前对照对象的标记标识符进行对照。当被对照的部分树的候选者有多个时进入步骤B50a;而若只有一个时则进入
步骤B60a;无候选者则结束。
步骤B50a:通过进行该标记标识符的数值索引对照来筛选候选者。当被对照的部分树的候选者仍有多个时进入步骤B80a;而若只有一个时则进入步骤B60a;无候选者则结束。
步骤B60a:因被对照的候选部分树只有一个,故将该候选部分树特定为所选择部分树,而后进入步骤B70a。
步骤B70:部分树标识符特定单元42a将同所获取部分标识符相应的部分树包络的部分文件返送至用户。
步骤B80:因即便利用标记标识符的索引数值来筛选候选者也仍剩有多个候选者,故将对照对象向上移动一个阶层。譬如就”doc.Table_border=1&cellpadding=1[0].table_border=0&cellpadding=1[1]”而言,对照了末尾标记标识符”table_border=0&cellpadding=1”后下个对照对象就变成”table_border=1&cellpadding=1[0]”(母标记标识符)。然后进入步骤B90a。
步骤B90:当在步骤80a递归式地将对照对象向上移动一个阶层,其结果使得最上层标记成为对照对象之后再也不存在对照对象之场合,则结束。否则返回步骤B40a。
须指出的是,本发明也可以将上述各实施例之方法编制成计算机程序,将之安装于用做信息提取装置的计算机,亦或是通过网络传播之。
又,所编制的计算机程序也可以预先存放于同用做信息提取装置的计算机相连接的硬盘装置、软盘、或CD-ROM等可携带存储介质中,在实施本发明之际装入。
图20是一种涉及可使得用户以容易直观掌握的方式来选择HTML等结构化文件中之一部分的用户接口的本发明之原理示意图。
本发明的结构化文件之部分选择及提取方法,是自被选择的HTML等结构化文件提取部分信息之方法,包括如下步骤:
步骤1——检出同用户在有文件被显示的屏幕上选择的位置对应的树结构的末尾节点;
步骤2——使用户从以一连串节点为要素的序列中选择节点,该一连串节点是从上述末尾节点开始逐一检出上层节点而得到的;
步骤3——选择同用户所选节点相对应的结构化文件中之一部分。
图21是一种涉及上述用户接口的本发明之原理结构示意图。
根据本发明的结构化文件部分选择提取装置,是一种自被选择的HTML等结构化文件提取部分信息之装置,其包括如下单元:
节点检出单元101——用于检出同用户在有文件被显示的屏幕上选择的位置对应的树结构的末尾节点;和
选择指示单元102——使用户从以一连串节点为要素的序列中选择节点,该一连串节点是从上述末尾节点开始逐一检出上层节点而得到的;以及
部分选择单元103——选择同用户所选节点相对应的结构化文件中之一部分。
图22是根据本发明一实施例的装置结构框图。
图22所示结构化文件部分选择提取装置100包括带选择部分标示单元111的显示控制单元110、输入单元120、树结构生成单元130、以及显示部分保存单元140;并同显示装置10及输入装置20连接。
显示装置10显示测览器所处理的HTML文本及图像。
输入装置20输入用户通过按键操作等选择的信息。该按键操作包括区域的扩大(+)、尺寸缩小(-)、删除(clear)、选择(select)等。
显示控制单元110的选择部分标示单元111,根据用户按键操作来逐一显示树结构内各层目标。用户所选期望部分譬如被作为HTML文本保存于显示部分保存单元140。
输入单元120自输入装置20接收用户输入(按键操作输入),将输入信息送至树结构生成单元130及选择部分标示单元111。
树结构生成单元130从构成HTML整个树结构的目标检出处于用户鼠标单击位置的目标而存放于目标序列中。
图23是根据本发明一实施例的选择提取方法的处理流程图。
于步骤S110,显示作为处理对象的HTML文件于用户终端测览器窗口。于步骤S120,用户在屏幕上鼠标单击欲选择部分。于步骤S130,树结构生成单元130从构成HTML树结构的目标提取出处于鼠标单击位置的目标。于是,如图24所示,被提取出的目标所对应的矩形区被标示在屏幕上显示的文件上。
此时,若用户选择该标示部分,则将该标示部分作为HTML文本保存于显示部分保存单元140(步骤S160),而后删除文件上的标示(步骤S180)。若用户不选择该标示部分,用户可通过按键(此时按键业已被显示)操作来使该区域扩大(+)、缩小(-)、被删除(clear)或选择(select)等(步骤S170)。通过用户按键操作,可逐一显示树结构内上层或下层目标。当期望部分被标示于屏幕时,通过选择按钮”select”选择标示部分(步骤S150)。所选择部分被作为HTML文本保存于显示部分保存单元140(步骤S160)。
上述处理可以在浏览器上执行。此时,对作为处理对象的原HTML附加Java Script等记述的原语(Script),将之读入浏览器。
下面描述树结构生成单元130的处理。
图25是根据本发明一实施例的树结构生成单元处理流程图。
首先进行目标序列初始化(步骤S131)。检出处于鼠标单击位置的目标(步骤S132),存放于序列中(步骤S133)。这里,目标对应于HTML文件部分,就树结构而言是对应于各节点。另外在屏幕上还存在与之一一对应的区域。拿图29之例来说,树结构总共由13个节点构成。若被检出目标中有母目标时(步骤S134之Yes),该母目标也作为处于鼠标单击位置的目标保存于上述序列中(步骤S133)。通过在所有目标阶层进行该项处理,可以得到处于鼠标单击位置的目标序列a。以图29为例,鼠标单击”apple”时,”k,j,i,h,f,e,d,a”等各目标均存放于序列a中。
接着进行该序列中各要素检查(步骤S135)。即,对于屏幕上无法区别的诸目标(因某目标中含有的文本或图像、某目标所相应的文本或区域等同其它目标的一样,故无法区别),选择其中最上层者。
只要存在下个要素,就判断一下该下个要素所含文本是否不同(步骤S137)。若不同,则将其存放入序列b(步骤S138)。接着再判断一下存在下个要素否(步骤S136)。若不存在下个要素则将目标存放于序列b(步骤S139)。就此,处理结束。
这样,最终可得到由处于鼠标单击位置并且屏幕上可相互区别的目标构成的序列b。
下面以图29为例具体加以阐述。在”k”和”j”之下都含有同一文本”apple”,故将其中位于上层的”j”存放于序列b。在”i”和”h”之下都含有同一文本”apple”及”orange”,故将其中位于上层的”h”存放于序列b。则最终存放于序列b中的是目标”j”,”h”,”a”。
下面描述选择部分标示单元111。
图26是根据本发明一实施例的选择部分标示单元111处理流程图。
首先设置作为显示对象的目标(步骤S141)。该设置体现为:首次显示——显示”当前所选择序列b之要素”;扩大显示——显示”序列b中下个较高层要素”;尺寸缩小显示——显示”序列b中下个较低层要素”。
在首次显示中,提取对应于目标序列b中最下层目标之矩形(步骤S142),譬如图24所示那样将之重叠于屏幕之上而显示(步骤S143)。操作图24所示扩大按键”+”时,选择对应于当前所选择部分的目标的下个较高层目标,其结果,新选择目标的矩形重叠于屏幕之上而被显示。同理,操作尺寸缩小按钮”-”时,选择上个较低层目标。以图29为例,对应于存放于序列b中的目标,重叠显示如图27所示。
最后描述系统整体结构。
图28是根据本发明一实施例的系统结构示意图。
图28所示系统包括用户终端100(结构化文件部分选择提取装置)、中继服务器200、以及存储作为处理对象的HTML文件的服务器300。
为便于就作为处理对象的HTML一边于屏幕显示”http://www.foo.com/doc.html”一边在屏幕上作上述操作,设中继节点200http://www.myserv.corn/cgi-bin/get.cgi?http://foo.com/doc.html。
下述括号()中数字同图28中括号()中数字对应。
(1)首先,用户以处理对象HTML的URL为自变量从用户终端100启动中继服务器200的CGI。
(2)中继服务器200以URL发送请求给服务器300。
(3)服务器300传递HTML文件给中继服务器200。
(4)中继服务器200在从服务器300获取的HTML文件的末尾附加处理原语(job script)。
(5)中继服务器200将附加了部分文件选择及提取功能的HTML文件发送至用户终端100。
这样,用户终端100就可以处理附加了部分文件选择及提取功能的HTML文件。
须指出的是,也可以将上述实施例之结构化文件部分选择提取装置之构成要素计算机程序化,将之安装于用做结构化文件部分选择提取装置的计算机,亦或是通过网络传播之。
又,所编制的计算机程序也可以预先存放于同用做结构化文件部分选择提取装置的计算机相连接的硬盘装置、软盘、或CD-ROM等可携带存储介质中,在实施本发明之际装入。
本发明并非仅限于上述实施例,在不脱离本发明总的构思情况下可以有变形和修改。
本申请是基于先后于2002年6月28日和同年7月12日于日本提出的申请号为2002-190621号及2002-204641号的在先申请,在此参照了其全部内容。

Claims (18)

1.一种识别结构化文件的一部分的方法,其中结构化文件根据预定的规则被变换为树结构,并且用户事先从该结构化文件中选择的一个所选择部分对应于作为所述树结构的一部分的所选择部分树,所述方法包括如下步骤:
将部分树标识符赋予上述所选择部分树,该部分树标识符包括标记标识符,该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值;
若该标记的上述至少1个文件格式属性包括多个文件格式属性,则在上述标记标识符中按给定顺序排列上述文件格式属性名;
在存储器中存储被赋予所选择部分树的部分树标识符;
在该结构化文件更新后接收该结构化文件;
产生在所接收的结构化文件中存在的部分树的部分树标识符的列表;以及
从上述部分树标识符的列表中识别一个部分树,该部分树的部分树标识符与存储器中存储的被赋予所选择部分树的部分树标识符相同。
2.按权利要求1所述的方法,其特征在于,上述结构化文件中多个标记所具有的标记名及上述至少1个文件格式属性名同上述所选择部分树的一样;本方法还包括如下步骤:
生成数值索引,其表示上述树结构内同一阶层中标记标识符序号;
把标记标识符与数值索引组对,自树结构根至所选择部分树根嵌套状链接多个上述标记标识符与数值索引之对子,以形成上述部分树标识符。
3.按权利要求2所述的方法,其特征在于,上述识别部分树的步骤还包括如下步骤:
对照步骤——只参照上述部分树标识符末尾的标记标识符,来对照上述部分树的部分树标识符与上述所选择部分树的部分树标识符;
筛选步骤——若上述对照步骤后仍然剩有多个上述部分树标识符候选者,则参照上述部分树标识符的数值索引筛选候选者;
递归式重复对照步骤——若上述筛选步骤后仍然剩有多个上述部分树标识符候选者,则依次进入下一较高层的用于对照的标记,递归式地对照上述部分树的部分树标识符与上述所选择部分树的部分树标识符;
识别步骤——当递归式重复对照步骤后只剩一个部分树时,将该部分树识别为上述所选择部分树。
4.按权利要求1所述的方法,其特征在于,还包括如下步骤:
检出同用户在显示有上述结构化文件的屏幕上选择的位置相对应的树结构的末尾节点;
使用户从一连串节点中选一节点,该一连串节点是从上述末尾节点开始逐一检出较高层节点而得到的;
选择同用户所选节点相对应的结构化文件中之一部分,以作为上述所选择部分。
5.一种自结构化文件提取信息的装置,其中包括:
树结构变换单元——根据预定的规则将结构化文件变换成树结构;和
部分树标识符生成单元——将部分树标识符赋予上述树结构的部分树,该部分树标识符包括标记标识符,该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值。
6.按权利要求5所述的装置,其特征在于,若上述标记的至少1个文件格式属性包括多个文件格式属性,则上述部分树标识符生成单元在上述标记标识符中按给定顺序排列上述文件格式属性名。
7.按权利要求5所述的装置,其特征在于,上述结构化文件中多个标记所具有的标记名及上述至少1个文件格式属性名同上述所选择部分树的一样;上述部分树标识符生成单元生成数值索引,其表示上述树结构内同一阶层中标记标识符序号;把标记标识符与数值索引组对,自树结构根至所选择部分树根嵌套状链接多个上述标记标识符与数值索引之对子,以形成上述部分树标识符。
8.按权利要求5所述的装置,其特征在于,还包括如下各单元:
节点检出单元——检出同用户在显示有文件的屏幕上选择的位置相对应的树结构的末尾节点;和
选择指示单元——使用户从一连串节点中选一节点,该一连串节点是从上述末尾节点开始逐一检出较高节点而得到的;以及
部分选择单元——选择同用户所选节点相对应的结构化文件中之一部分,以作为上述所选择部分。
9.一种结构化文件部分选择提取方法,该结构化文件包括内容文件和用于定义如何显示该内容文件的定义,所述结构化文件具有存储在存储器中的对应树结构,所述结构化文件和对应树结构通过预定的规则相互关联,所述方法包括如下步骤:
通过根据上述定义在屏幕上显示上述内容文件来显示该结构化文件;
在屏幕上检出用户指示的内容文件位置;
检出同用户在屏幕上指示的位置相对应的树结构的末尾节点;
通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点;
通过促使用户选择屏幕上的内容文件的一个对应部分,促使用户从该一连串节点中选择一节点;以及
选择提取同用户所选节点相对应的结构化文件中之一部分。
10.按权利要求9所述的方法,其中,上述促使步骤包括如下步骤:
在上述屏幕上标示同上述一节点相对应的结构化文件之一部分的区域;
促使用户通过改变节点选择来选择期望区域;
确定同上述选择期望区域相对应的节点作用户所选节点;
在上述选择步骤,选择同上述用户所选节点相对应的结构化文件中之一部分。
11.按权利要求10所述的方法,其中,上述确定步骤还包括以下步骤:当上述多个节点对应于上述选择期望区域时,从该多个节点中选择最高层节点作为上述用户所选节点。
12.按权利要求10所述的方法,其中,上述确定步骤还包括如下步骤:当上述多个节点均包括同一文本及图像数据时,从该多个节点中选择最高层节点作上述用户所选节点。
13.按权利要求9所述的方法,其中还包括如下步骤:
发送被用户指定的URL所指示的结构化文件至中继服务器;
在上述中继服务器,将含文件部分选择及提取功能的原语附加于上述结构化文件;
由上述中继服务器将附加了原语的上述结构化文件发送至用户终端;
在该用户终端,利用上述附加原语执行权利要求9中的各步骤。
14.一种结构化文件部分选择提取装置,该结构化文件包括内容文件和用于定义如何显示该内容文件的定义,所述结构化文件具有存储在存储器中的对应树结构,所述结构化文件和对应树结构通过预定的规则相互关联,所述装置包括:
显示控制单元——被配置用于通过根据该定义在屏幕上显示该内容文件来显示该结构化文件;
输入单元——被配置用于在屏幕上检测用户指示的内容文件位置;
节点检测单元——被配置用于检测同用户在屏幕上指示的位置相对应的树结构的末尾节点;
选择确定单元——被配置用于通过从末尾节点开始逐一检出较高层节点而得到存储器中存储的结构化文件的一连串节点,并通过促使用户选择屏幕上的内容文件的一个对应部分,促使用户从该一连串节点中选择一节点;和
部分选择单元——被配置用于选择提取同用户所选节点相对应的结构化文件中之一部分。
15.按权利要求14所述的装置,其中,上述选择确定单元在上述屏幕上标示同上述一节点相对应的结构化文件之一部分的区域,使用户通过改变节点选择来选择期望区域,确定同上述选择期望区域相对应的节点作用户所选节点;上述部分选择单元选择同上述用户所选节点相对应的结构化文件中之一部分。
16.按权利要求15所述的装置,其中,上述选择确定单元,在当上述多个节点对应于上述选择期望区域时,从该多个节点中选择最高层节点作上述用户所选节点。
17.按权利要求15所述的装置,其中,上述选择确定单元,在当上述多个节点均包括同一文本及图像数据时,从该多个节点中选择最高层节点作上述用户所选节点。
18.按权利要求14所述的装置,其中还包括如下各单元:
发送被用户指定的URL所指示的结构化文件至中继服务器的单元;
在上述中继服务器将含文件部分选择及提取功能的原语附加于上述结构化文件的单元;和
由上述中继服务器将附加了原语的上述结构化文件发送至用户终端的单元;
上述显示控制单元、上述输入单元、上述节点检出单元、上述选择确定单元及上述部分选择单元在上述用户终端利用上述附加原语进行处理。
CNB031486614A 2002-06-28 2003-06-18 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置 Expired - Lifetime CN1244877C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP190621/2002 2002-06-28
JP2002190621A JP3937944B2 (ja) 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
JP2002204641A JP2004046642A (ja) 2002-07-12 2002-07-12 構造化文書の部分指定・抽出方法及び装置及び構造化文書の部分指定・抽出プログラム及び構造化文書の部分指定・抽出プログラムを格納した記憶媒体
JP204641/2002 2002-07-12

Publications (2)

Publication Number Publication Date
CN1469276A CN1469276A (zh) 2004-01-21
CN1244877C true CN1244877C (zh) 2006-03-08

Family

ID=29718460

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031486614A Expired - Lifetime CN1244877C (zh) 2002-06-28 2003-06-18 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置

Country Status (5)

Country Link
US (2) US7685157B2 (zh)
EP (2) EP1686499B1 (zh)
KR (1) KR100572576B1 (zh)
CN (1) CN1244877C (zh)
DE (2) DE60314806T2 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60314806T2 (de) * 2002-06-28 2008-03-13 Nippon Telegraph And Telephone Corp. Extrahierung von Information aus strukturierten Dokumenten
WO2004068320A2 (en) * 2003-01-27 2004-08-12 Vincent Wen-Jeng Lue Method and apparatus for adapting web contents to different display area dimensions
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
GB2411017A (en) * 2004-02-13 2005-08-17 Satellite Information Services Updating mark-up language documents from contained instructions
US8762381B2 (en) 2004-05-21 2014-06-24 Ca, Inc. Storing multipart XML documents
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
ATE467190T1 (de) * 2005-01-14 2010-05-15 Thefind Inc Verfahren und system zur informationsextraktion
CN100395755C (zh) * 2006-02-23 2008-06-18 无锡永中科技有限公司 计算机中建立树状文件结构的方法
US20070266309A1 (en) * 2006-05-12 2007-11-15 Royston Sellman Document transfer between document editing software applications
US9460064B2 (en) * 2006-05-18 2016-10-04 Oracle International Corporation Efficient piece-wise updates of binary encoded XML data
CN101094194B (zh) * 2006-06-19 2010-06-23 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法
JP4146479B2 (ja) * 2006-09-28 2008-09-10 株式会社東芝 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
JP2008108096A (ja) * 2006-10-26 2008-05-08 Sony Corp コンテンツ共有システム、コンテンツ管理サーバ、クライアント機器、コンテンツ管理方法およびコンテンツ取得方法
US8291310B2 (en) * 2007-08-29 2012-10-16 Oracle International Corporation Delta-saving in XML-based documents
KR100902674B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 문서 탐색 서비스 제공 방법 및 시스템
US20090138500A1 (en) * 2007-10-12 2009-05-28 Yuan Zhiqiang Method of compact display combined with property-table-view for a complex relational data structure
US8515727B2 (en) * 2008-03-19 2013-08-20 International Business Machines Corporation Automatic logic model build process with autonomous quality checking
CN101571859B (zh) * 2008-04-28 2013-01-02 国际商业机器公司 用于对文档进行标注的方法和设备
JP2010165272A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理方法、情報処理装置、及びプログラム
WO2011041465A1 (en) * 2009-09-30 2011-04-07 Tracking.Net Enhanced website tracking system and method
US8255372B2 (en) 2010-01-18 2012-08-28 Oracle International Corporation Efficient validation of binary XML data
US9633332B2 (en) 2010-07-13 2017-04-25 Hewlett Packard Enterprise Development Lp Generating machine-understandable representations of content
US8291311B2 (en) * 2011-03-07 2012-10-16 Showcase-TV Inc. Web display program conversion system, web display program conversion method and program for converting web display program
US10756759B2 (en) 2011-09-02 2020-08-25 Oracle International Corporation Column domain dictionary compression
US8935267B2 (en) * 2012-06-19 2015-01-13 Marklogic Corporation Apparatus and method for executing different query language queries on tree structured data using pre-computed indices of selective document paths
JP5841260B2 (ja) 2012-09-11 2016-01-13 日本電信電話株式会社 コンテンツ表示装置、コンテンツ表示システム、コンテンツ表示方法及びコンテンツ表示プログラム
US8812523B2 (en) 2012-09-28 2014-08-19 Oracle International Corporation Predicate result cache
US9740765B2 (en) 2012-10-08 2017-08-22 International Business Machines Corporation Building nomenclature in a set of documents while building associative document trees
US9208254B2 (en) * 2012-12-10 2015-12-08 Microsoft Technology Licensing, Llc Query and index over documents
US10454752B2 (en) 2015-11-02 2019-10-22 Servicenow, Inc. System and method for processing alerts indicative of conditions of a computing infrastructure
JP2019066917A (ja) * 2017-09-28 2019-04-25 京セラドキュメントソリューションズ株式会社 電子機器、及び翻訳支援方法
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
WO2021030513A1 (en) * 2019-08-13 2021-02-18 Arbi, Inc. Systems and methods for document processing
US11194833B2 (en) * 2019-10-28 2021-12-07 Charbel Gerges El Gemayel Interchange data format system and method
CN110956019B (zh) * 2019-11-27 2021-10-26 北大方正集团有限公司 列表处理系统、方法、装置、计算机可读存储介质
CN111857737A (zh) * 2020-07-28 2020-10-30 苏州华望信息科技有限公司 基于SysML模型语义web系统的动静态资源分离方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713821B2 (ja) 1991-03-08 1995-02-15 日本電気株式会社 編集装置
JPH0652161A (ja) * 1992-08-03 1994-02-25 Fuji Xerox Co Ltd 文書処理方法及び文書処理装置
JP2896634B2 (ja) * 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
US6546406B1 (en) * 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
US6456308B1 (en) * 1996-08-08 2002-09-24 Agranat Systems, Inc. Embedded web server
US6061697A (en) * 1996-09-11 2000-05-09 Fujitsu Limited SGML type document managing apparatus and managing method
US5974572A (en) * 1996-10-15 1999-10-26 Mercury Interactive Corporation Software system and methods for generating a load test using a server access log
JPH10171800A (ja) 1996-12-05 1998-06-26 Canon Inc 文書処理方法及びその装置
JP2867986B2 (ja) 1996-12-25 1999-03-10 日本電気株式会社 Www情報抽出システム
JPH1185690A (ja) 1997-09-08 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 有効情報提供方法及び有効情報提供システム
US6628304B2 (en) * 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6635089B1 (en) * 1999-01-13 2003-10-21 International Business Machines Corporation Method for producing composite XML document object model trees using dynamic data retrievals
JP4280360B2 (ja) 1999-06-04 2009-06-17 キヤノン株式会社 撮像装置及びその制御方法及び記憶媒体
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
JP2001282773A (ja) 2000-03-29 2001-10-12 Hitachi Software Eng Co Ltd 構造化文書編集装置及び、構造化文書編集方法及び記録媒体
US7702995B2 (en) * 2000-04-24 2010-04-20 TVWorks, LLC. Method and system for transforming content for execution on multiple platforms
AU2001256612A1 (en) * 2000-05-16 2001-11-26 Garrett O'carroll A document processing system and method
WO2001090873A1 (en) * 2000-05-22 2001-11-29 2Roam, Inc. System and method for generating a wireless web page
US6732153B1 (en) * 2000-05-23 2004-05-04 Verizon Laboratories Inc. Unified message parser apparatus and system for real-time event correlation
US20020029229A1 (en) * 2000-06-30 2002-03-07 Jakopac David E. Systems and methods for data compression
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
WO2002027555A1 (en) * 2000-09-25 2002-04-04 Databites, Inc. System and method for automatic retrieval of structured online documents
JP2002190621A (ja) 2000-10-12 2002-07-05 Sharp Corp 半導体発光素子およびその製造方法
JP2002123418A (ja) 2000-10-13 2002-04-26 Nec Corp データ更新方法及びデータ更新装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6961909B2 (en) * 2001-01-05 2005-11-01 Hewlett-Packard Development Company, L.P. System for displaying a hierarchical directory
JP2002204641A (ja) 2001-01-10 2002-07-23 Shimano Inc スピニングリールのドラグ機構
US6704723B1 (en) * 2001-06-20 2004-03-09 Microstrategy, Incorporated Method and system for providing business intelligence information over a computer network via extensible markup language
US6799184B2 (en) * 2001-06-21 2004-09-28 Sybase, Inc. Relational database system providing XML query support
US20030220914A1 (en) * 2002-05-23 2003-11-27 Mindflash Technologies, Inc. Method for managing data in a network
DE60314806T2 (de) * 2002-06-28 2008-03-13 Nippon Telegraph And Telephone Corp. Extrahierung von Information aus strukturierten Dokumenten
US20050125419A1 (en) * 2002-09-03 2005-06-09 Fujitsu Limited Search processing system, its search server, client, search processing method, program, and recording medium
US7644361B2 (en) * 2002-12-23 2010-01-05 Canon Kabushiki Kaisha Method of using recommendations to visually create new views of data across heterogeneous sources
WO2004068320A2 (en) * 2003-01-27 2004-08-12 Vincent Wen-Jeng Lue Method and apparatus for adapting web contents to different display area dimensions
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text

Also Published As

Publication number Publication date
EP1686499A2 (en) 2006-08-02
DE60314806D1 (de) 2007-08-23
US20040044963A1 (en) 2004-03-04
KR100572576B1 (ko) 2006-04-24
CN1469276A (zh) 2004-01-21
EP1376408B1 (en) 2007-07-11
EP1686499A8 (en) 2006-11-08
US7685157B2 (en) 2010-03-23
US20050066271A1 (en) 2005-03-24
KR20040002791A (ko) 2004-01-07
EP1376408A3 (en) 2005-10-12
DE60314806T2 (de) 2008-03-13
EP1376408A2 (en) 2004-01-02
US7730104B2 (en) 2010-06-01
EP1686499A3 (en) 2007-12-12
DE60333238D1 (de) 2010-08-12
EP1686499B1 (en) 2010-06-30

Similar Documents

Publication Publication Date Title
CN1244877C (zh) 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置
CN1120432C (zh) 产生显示控制信息的方法和计算机
CN1667609A (zh) 文档信息管理系统和文档信息管理方法
CN1934569A (zh) 集成有用户注释的搜索系统和方法
CN1315017A (zh) 包含内部引用的两种版本数据表格之间的差别提取
CN1519751A (zh) 生成结构模式候选对象的方法、系统和程序
CN1269897A (zh) 用于选择数据集的方法和/或系统
CN1755679A (zh) 用于引用电子表格公式内动态数据的方法和实现
CN1841362A (zh) 用于处理电子表格的方法和系统
CN1323423A (zh) 在超文本文档等之间导航用的多目标链接
CN1811702A (zh) 开发门户应用和自动部署门户应用的系统和方法
CN1337026A (zh) 用于表达频道化数据的系统和方法
CN1314634A (zh) 文档转换方法、文档转换器、以及文档显示系统
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1829987A (zh) 用于标签系统的词语数据库扩展
CN1530860A (zh) 使用全局唯一标识符的数据搜索系统和数据搜索方法
CN1509442A (zh) 因特网和/或网站内容的自动管理
CN1495609A (zh) 在计算机生成文档中提供语境感测工具和帮助内容
CN1959642A (zh) 信息处理方法、信息处理设备和信息处理系统
CN1607501A (zh) 标记构架
CN1808377A (zh) 由非专属语言驱动的通用序列图生成器
CN1627297A (zh) 管理用标记语言写的数据的方法及其设备
US20110191381A1 (en) Interactive System for Extracting Data from a Website
CN101405696A (zh) 用于生成健壮的软件签名的方法
JP2001051821A (ja) 表示情報確定方法及び装置、表示情報確定のためのソフトウエア・プロダクトを格納した記憶媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20060308