JP3937944B2 - 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP3937944B2
JP3937944B2 JP2002190621A JP2002190621A JP3937944B2 JP 3937944 B2 JP3937944 B2 JP 3937944B2 JP 2002190621 A JP2002190621 A JP 2002190621A JP 2002190621 A JP2002190621 A JP 2002190621A JP 3937944 B2 JP3937944 B2 JP 3937944B2
Authority
JP
Japan
Prior art keywords
subtree
identifier
document
partial
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002190621A
Other languages
English (en)
Other versions
JP2004038263A (ja
Inventor
勝 宮本
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2002190621A priority Critical patent/JP3937944B2/ja
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to EP03253818A priority patent/EP1376408B1/en
Priority to EP06010490A priority patent/EP1686499B1/en
Priority to DE60333238T priority patent/DE60333238D1/de
Priority to DE60314806T priority patent/DE60314806T2/de
Priority to US10/463,521 priority patent/US7685157B2/en
Priority to CNB031486614A priority patent/CN1244877C/zh
Priority to KR1020030042628A priority patent/KR100572576B1/ko
Publication of JP2004038263A publication Critical patent/JP2004038263A/ja
Priority to US10/982,865 priority patent/US7730104B2/en
Application granted granted Critical
Publication of JP3937944B2 publication Critical patent/JP3937944B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、日々更新されるHTML等の構造化文書から、事前に所望の部分を指定し、将来更新された文書から、指定した部分を特定するための、構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
日々更新されるHTML等の構造化文書から、一部分だけを指定したいというニーズがある。例えば、ユーザが馴染みのウェブサイトの注目している部分だけを集めて、スクラップすることで、必要な情報だけを容易に一覧することができる。また、そのスクラップされた部分の情報源が日々更新される場合、更新された文書から指定した部分を特定し、再度スクラップすることが求められる。
【0003】
このために、WWW情報抽出システムに関する「特願平8−356218」では、事前に指定した部分の開始箇所と終了箇所を保存しておき、更新された文書から開始箇所と終了箇所を特定し、両者に挟まれた部分を特定部分として抽出する方法が提案されている。
【0004】
また、webMethods社が提案するシステム(http://www.w3.org/TR/NOTE-widl)や、Luca Iocchi が提案するシステム(Luca Iocchi:The Web-OEM approach to Web information extraction, Journal of Network and Computer Applications, Vol.22, pp.259-269 (1999)) では、HTMLを木構造に変換し、事前に指定した部分に対応する部分木の情報を保存しておき、更新された文書の中から保存してある部分木の情報に対応する部分を特定する方法を提案している。なお、この部分木の情報とは、タグ名をタグの識別子とし、木構造内の同一階層におけるタグ名の数値索引を付与した文字列を、木構造の根から指定した部分の部分木の根まで入れ子状に連鎖させた文字列を、当該部分の識別子としている。図17(a)の例では、“doc ”を木構造の根とした場合、指定した「社会ニュース」の部分を参照するための識別子は、doc.table[0].table[0] のように表現される。
【発明が解決しようとする課題】
しかしながら、上記従来のWWW情報抽出システムに関する「特願平8−356218」の方法では、事前に登録している部分の開始、終了箇所をもとに特定部分を抽出しているため、文書が更新されても位置がずれないような開始、終了箇所が存在しない場合には適用できない。
【0005】
また、更新後も位置がずれないような開始、終了箇所が存在したとしても、どの部分が更新後も位置がずれない部分かを判断することが困難である。更新される部分の上下にはタイトルや区切り線が存在する確率が高いという知識を利用したとしても、デザインが作者の一存で決められているインターネット上のホームページでは、例外が多く存在する。このため、この方法の適用領域は、限定されてしまうという問題がある。
【0006】
また、webMethods社やLuca Iocchi が提案する指定部分の部分木の識別子に基づく方法は、更新前後で文書の構造が変わらないことを前提にしている。このため、更新前後で文書の構造が若干変化することで、事前に指定した部分木の識別子の整合性がとれなくなるという問題がある。
【0007】
例えば、文書の指定部分と木構造の同一階層に同じタグの文書ブロックが挿入されると、部分木の識別子に含まれるタグの数値索引がずれる。図17の例では、(a)から(b)に文書が更新されるときに、指定部分の上部にtable タグで囲まれた「広告2」に関する文書が挿入されることで、指定している社会ニュースのtable タグのタグ名によるタグ識別子の数値索引が、table[0]からtable[1]にずれてしまう。バナー広告や、緊急ニュースの挿入、削除が行われるサイトのトップページでは、このようなフォーマットの微細な変更が行われる可能性が高い。しかも、ユーザが指定したいのは、情報が頻繁に更新されるこのようなサイトのトップページが多く、微細な変更による指定部分の抽出精度の低下は問題である。
【0008】
また、指定部分より文書の前方に、部分指定時には存在しなかったタグの閉じ忘れが存在する場合、見かけ上、指定部分の親のノードとして閉じ忘れたタグが存在してしまう。図17の例では(a)から(b)に文書が更新されるときに、指定部分の上部の「広告1」を囲むtable タグを閉じ忘れた場合、doc.table[0].table[0] という指定部分の情報が、doc.table[0].table[0].table[1]のように、社会ニュースの親ノードにこのtable タグに該当するノードが挿入されてしまう。これにより、更新前後における指定部分の部分木の識別子がずれてしまう。現在一般的に普及しているWWWブラウザは、タグの閉じ忘れを許容して表示する場合が多く、ページ制作者は、タグの閉じ忘れの存在に気付かないで情報をアップデートすることが頻繁に行われている。
【0009】
上記の、同一タグの文書ブロックが指定部分と同じ階層に挿入されること、タグの閉じ忘れにより、図17の例では、(a)から(b)に文書が更新されるときに、指定部分を参照する部分木の識別子が、doc.table[0].table[0]から、doc.table[0].table[0].table[1]に変わってしまう。
本発明は、上記の点に鑑みなされたもので、同一タグの文書ブロックが指定部分と同じ階層に挿入された場合や、タグの閉じ忘れが存在する場合でも、指定部分の開始、終了箇所に依存しない方法で、指定部分の抽出精度を低下させないことが可能な構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0011】
本発明(請求項1)は、構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木の識別子を生成する情報抽出装置における、構造化文書からの情報抽出方法であって
部分指定手段が、
木構造に変換された更新前の文書について、部分木識別子生成手段に部分木識別子を生成させる第1の手順と、
指定した部分文書に対応する部分木の部分木識別子を当該部分文書の部分文書IDとともに部分情報記憶手段に格納する手順と、
部分特定手段が、
部分情報記憶手段から、特定すべき部分文書の部分文書IDに基づき対応する部分木識別子を取得する手順と、
木構造に変換された更新後の文書について、部分木識別子生成手段に部分木識別子を生成させる第2の手順と、
更新された文書に存在する部分木の部分木識別子のリストを生成する手順と、
部分木識別子のリストから、部分情報記憶手段から取得した部分木識別子と同一の部分木識別子を持つ部分木を、指定部分として特定する手順と、
を有し、
部分木識別子を生成させる第1及び第2の手順は、
部分木識別子生成手段が、
木構造に変換された文書について、部分木の根に対応するタグ名、タグの書式属性名、書式属性の値の組み合わせをタグ識別子とする手順(ステップ1)と、
該タグ識別子に書式属性が複数存在する場合は、書式属性名の順番で書式属性を整列させてタグ識別子を正規化する手順(ステップ2)と、
タグ識別子と木構造の同一階層における当該タグ識別子の順番を示す数値索引の組を生成する手順と、
タグ識別子と数値索引の組を、木構造の根から当該部分木の根まで入れ子状に連鎖させた文字列を、当該部分木の部分木識別子として生成する手順とからなり、
指定部部分として特定する手順は、
部分木特定手段が、
部分木識別子の照合を、最初に該部分木識別子の末端の当該部分木の根に対応するタグ識別子だけで照合を行う手順と、
照合された部分木の候補が複数ある場合に、次に該タグ識別子の数値索引の照合を行うことで候補を絞る手順と、
タグ識別子の数値索引により候補を絞っても複数の候補が残っている場合に、最後に親のタグに遡って再帰的に照合を繰り返す手順と、
いずれかの照合を取った結果、候補の部分木が一つしかなくなった時点で、該候補を指定した部分木として特定する手順(ステップ3)とからなる
【0012】
本発明(請求項2)は、構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木の識別子を生成する情報抽出装置であって
部分木識別子を生成する部分木識別子生成手段と、
木構造に変換された更新前の文書について、部分木識別子生成手段に部分木識別子を生成させる手段と、指定した部分文書に対応する部分木の部分木識別子を当該部分文書の部分文書IDとともに部分情報記憶手段に格納する手段と、
を有する部分指定手段と、
部分情報記憶手段から、特定すべき部分文書の部分文書IDに基づき対応する部分木識別子を取得する手段と、木構造に変換された更新後の文書について、部分木識別子生成手段に部分木識別子を生成させる手段と、更新された文書に存在する部分木の部分木識別子のリストを生成する手段と、該部分木識別子のリストから、部分情報記憶手段から取得した部分木識別子と同一の部分木識別子を持つ部分木を、指定部分として特定する手段と、を有する部分特定手段と、からなり、
部分木識別子生成手段は、
木構造に変換された文書について、部分木の根に対応するタグ名、タグの書式属性名、書式属性の値の組み合わせをタグ識別子とする手段と、
該タグ識別子に書式属性が複数存在する場合は、書式属性名の順番で書式属性を整列させてタグ識別子を正規化する手段と、
タグ識別子と木構造の同一階層における当該タグ識別子の順番を示す数値索引の組を生成する手段と、
タグ識別子と数値索引の組を、木構造の根から当該部分木の根まで入れ子状に連鎖させた文字列を、当該部分木の部分木識別子として生成する手段と、を有し、
部分木特定手段は、
部分木識別子の照合を、最初に該部分木識別子の末端の当該部分木の根に対応するタグ識別子だけで照合を行う手段と、
照合された部分木の候補が複数ある場合に、次に該タグ識別子の数値索引の照合を行うことで候補を絞る手段と、
タグ識別子の数値索引により候補を絞っても複数の候補が残っている場合に、最後に親のタグに遡って再帰的に照合を繰り返す手段と、
いずれかの照合を取った結果、候補の部分木が一つしかなくなった時点で、該候補を指定した部分木として特定する手段と、を有する。
【0014】
本発明(請求項3)は、構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木識別木を生成する処理をコンピュータに実行させる、情報抽出プログラムであって、
コンピュータを請求項2記載の各手段として機能させる情報抽出プログラムである。
【0017】
本発明(請求項4)は、請求項3に記載の情報抽出プログラムを格納したコンピュータ読み取り可能な記憶媒体である
【0020】
上記のように、本発明では、「部分木の識別子=タグの識別子」となっている。従来の方法と比較すると、従来は、「タグの識別子=タグ名」であるのに対し、本発明では、「タグの識別子=タグ名+書式属性名と値(複数可)」となる。つまり、従来、タグの識別子をタグ名にしていたものを、本発明では、タグ名と書式属性名とその値の組合せで表現するということである。
【0021】
これにより、指定部分の部分木の根に対応するタグと同一のタグの文書ブロックが、指定文と同じ階層に挿入されても、タグの書式属性が異なれば、開始、終了箇所に依存しない方法で、指定部分の抽出精度を低下させないことが可能となる。
【0022】
さらに、本発明は、「部分木の識別子=(タグの識別子+数値索引)←(文書全体の根から部分木の根まで入れ子状に連鎖)」となっている。
【0023】
これにより、指定した部分木の根に対応するタグと書式属性の組合せが、特定対象文書中に複数存在する場合でも、指定部分を一意に特定することが可能となる。
【0024】
また、従来は、文書全体の中の絶対的な位置をもとに指定した部分を特定するのに対し、本発明では、指定部分とその周辺部分と相対的な位置関係をもとに指定した部分を特定する。これにより、指定部分の前方にタグの閉じ忘れが存在した場合でも、指定部分の抽出精度を低下させないことが可能となる。
【0025】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態について説明する。
【0026】
本発明は、構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木の識別子を生成する際に、部分木の根に対応するタグ名、タグの書式属性名、書式属性の値の組合せをタグの識別子とし、これを部分木の識別子とし、タグの識別子に書式属性が複数存在する場合は、書式属性名の順番で書式属性を整列させてタグの識別子を正規化し、木構造に変換された文書に存在する部分木の識別子のリストから事前に取得した部分木の識別子と同一の部分木の識別子を持つ部分木を、指定部分として特定する。
【0027】
さらに、指定した部分木の根に対応するタグと書式属性の組合せが、図2のように、特定対象文書中に複数存在刷る場合に、特に、タグの識別子と木構造の内の同一階層におけるタグの識別子の順番を示す数値索引の組を生成し、タグ識別子と数値索引の組を、木構造の根から指定した部分木の根まで入れ子状に連鎖させた文字列を、当該部分木の識別子とする。
【0028】
また、木構造に変換された文書に存在する部分木の識別子のリストから、事前に取得した部分木の識別子と同一の識別子を持つ部分木を特定する際に、特に、部分木の識別子の照合を、部分木の根に対応するタグの識別子だけで照合を行い、照合された部分木の候補が複数ある場合に、当該タグ識別子の数値索引の照合を行うことで、候補を絞り、タグ識別子の数値索引により候補を絞っても、複数の候補が残っている場合に、親のタグに遡って再帰的に照合を繰り返し、照合を取った結果、候補の部分木が一つしかない場合に、この候補を指定した部分木として特定する。
【0029】
【実施例】
以下、図面と共に本発明の実施例を説明する。
【0030】
[第1の実施例]
図3は、本発明の第1の実施例の構造化文書から情報抽出するシステムの構成を示す。
【0031】
同図に示すシステムは、指定部分の部分木の根に対応するタグと同一のタグの文書ブロックが指定部分と同じ階層に挿入されても、タグの書式属性が異なれば、開始・終了箇所に依存しない方法で、指定部分の抽出精度を低下させない。
【0032】
同図に示すシステムは、ユーザから構造化文書の任意部分の指定を受け付ける部分指定部1、指定した部分の情報を記憶する部分情報記憶部2、タグとその書式属性で木構造の部分木を識別する文書構造解析部3、部分特定要求に対して、対応する部分文書を返す部分特定部4から構成される。
【0033】
部分指定部1は、文書取得部11、部分指定部12、文書構造化部13から構成される。
【0034】
部分取得部11は、部分指摘部12から文書の識別子であるURLによる文書取得要求を受けると、インターネットから該当する文書を取得し、返す。
【0035】
部分指定部12は、文書取得部11に任意のURLと共に、文書取得要求を出し、対応する文書を取得する。次に、取得した文書を構造化するよう文書構造化部13に要求し、木構造に変換された文書を取得する。さらに、図4に示すように、取得した文書の部分を、容易に指定できるようなユーザインタフェースを提供する。指定部分の領域の座標等から対応する部分木の識別子を取得し、URLと共に、図5に示すように部分情報記憶部2に記録する。
【0036】
文書構造化部13は、部分指定部12から渡された文書を構造化するように文書構造解析部3に依頼する。そして、図6に示すように、木構造に変換された文書を、木構造の親子関係を表現したデータ構造として受信する。例えば、木構造を構成するタグあるいは、テキストの要素を、要素ID、ラベル、子ノードのリスト、部分木識別子で表示し、これらのリストを取得する。
【0037】
部分情報記憶部2は、図7に示すように、部分指摘部12からURLと部分木識別子を取得し、このペアが識別可能なIDを部分文書IDとして割り当て、記憶し、部分文書IDを返す。
【0038】
文書構造解析部3は、木構造変換部31、部分木識別子生成部32から構成される。
【0039】
木構造変換部31は、文書構造化部13あるいは、文書構造化部43より構造化文書と共に文書構造化要求を受けると、文書中に存在するタグとテキストを要素として木構造に文書を変換し、部分木識別子生成部32に渡す。
【0040】
部分木識別子生成部32は、木構造変換部31で木構造に変換された文書を構成するタグに対応するタグ識別子を、タグ名と書式属性名と書式属性値の組合せにより生成する。図6の1番目のtable タグの例では、table タグと、書式属性と値である「border="0" cellpadding="1"」を組み合わせたもの(table_border=0&cellpadding=1) をタグ識別子とする。また、書式属性が複数ある場合は、書式属性名の順番で書式属性を整列させてタグの識別子を正規化する。このタグ識別子を、当該タグを根とする部分木の識別子とし、木構造の要素に対応付ける。こうして部分木の識別子が付与された図6のような木構造のデータを、文書構造化部13あるいは、文書構造部43へ返す。
【0041】
部分特定部4は、文書取得部41、部分木識別子特定部42、文書構造化部43からなる。
【0042】
文書取得部41は、部分木識別子特定部42から文書の識別子であるURLによる文書取得要求を受けると、インターネットから該当する文書を取得し、返す。
【0043】
部分木識別子特定部42は、ユーザから部分文書IDと共に、部分取得要求を受け付け、部分情報記憶部2に部分文書IDを渡し、対応するURLと部分木識別子を取得する。文書取得部41にそのURLを渡し、該当する文書を取得する。取得した文書を構造化するよう文書構造化部43に要求し、木構造に変換された図8のような要素リストを取得する。取得した要素リストから部分木識別子に該当するタグを取得し、そのタグの配下に存在する部分木の範囲の文書を、部分文書としてユーザに返す。
【0044】
文書構造化部43は、部分木識別子特定部42から渡された文書を構造化するように文書構造解析部3に依頼する。そして、木構造に変換された文書を、図9に示すような木構造の親子関係を表現したデータ構造として受信する。例えば、木構造を構成するタグあるいはテキストの要素を、要素ID、ラベル、子ノードのリスト、部分木識別子で表現し、これらのリストを取得する。
【0045】
次に、上記の構成における動作を説明する。
【0046】
図10は、本発明の第1の実施例の構造化文書からの情報抽出方法のフローチャートである。
【0047】
以下の動作では、A:部分指定、B:部分特定、M:文書構造化の3つから構成される。以下の各ステップには、これらのA,B,Mを付与して説明する。
【0048】
まず、A:部分指定のフローについて説明する。
【0049】
ステップ−A10)ユーザのURLの指示に従い、部分指定部12が文書取得部11にURLに対応する文書をインターネットから取得する。部分指定部12が取得した文書を文書構造化部13に渡し、文書の構造化要求を出し、M10に移行する。
【0050】
ステップ−M10)木構造変換部31が、文書構造化部13より構造化文書を受け取り、文書中に存在するタグとテキストを要素として木構造に文書を変換し、部分木識別子生成部32に渡し、M20に移行する。
【0051】
ステップ−M20)部分木識別子生成部32が、木構造変換部31で木構造に変換された文書を構成するタグに対応するタグ識別子を、タグ名と書式属性名と書式属性の値の組合せにより生成する。図6の例では、table タグと、その書式属性とその値である「border="0",cellpadding="1"」を組み合わせたもの(table_border=0&cellpadding=1) をタグ識別子とする。また、書式属性が複数ある場合は、書式属性名で順番で書式属性を整列させてタグの識別子を正規化する。このタグ識別子を、部分木識別子とし、木構造の要素に対応付ける。こうして部分木識別子が付与された図5のような木構造データを文書構造化部13に返す。
【0052】
ステップ−A20)部分指定部12が、文書の部分を、図4に示すような容易に指定できるようなユーザインタフェースら、ユーザが指定したい部分を取得し、ステップ−A30に移行する。
【0053】
ステップ−A30)部分指定部12が、指定部分に対応する部分木識別子を図5に示す指定部分の領域の座標等から取得する。取得した部分木識別子と、文書に対応するURLを、部分情報記憶部2に追加し、この対を識別する部分文書IDを取得する。
【0054】
次に、ステップ−B:部分特定のフローについて説明する。
【0055】
ステップ−B10)部分木識別子特定部42が、ユーザから部分文書IDと共に、部分取得要求を受け付ける。部分情報記憶部2に部分文書IDを渡し、対応するURLと部分木識別子を取得し、ステップ−B20に移行する。
【0056】
ステップ−B20)部分木識別子特定部42が、取得したURLに対応する文書を、文書取得部41を介して取得する。部分木識別子特定部42が、取得した文書を文書構造化部43に渡し、文書の構造化要求を発行し、M10に移行する。
【0057】
ステップ−M10)木構造変換部31が、文書構造化部43より構造化文書を受け取り、文書中に存在するタグとテキストによる木構造に文書を変換し、部分木識別子生成部32に渡し、M20に移行する。
【0058】
ステップ−M20)部分木識別子生成部32が、木構造変換部31で木構造に変換された文書を構成するタグに対応するタグ識別子を、タグ名と書式属性名と書式属性の値の組合せにより生成する。図6の例では、table タグと、その書式属性とその値である「border="0"cellpadding="1" 」を組み合わせたもの(table_border=0&cellpadding=1) をタグ識別子とする。また、書式属性が複数ある場合は、書式属性名で順番で書式属性を整列させてタブの識別子を正規化する。このタグ識別子を、部分木識別子とし、木構造の要素に対応付ける。こうして、部分木識別子が付与された図6のような木構造のデータを、文書構造化部43に返す。その後ステップ−B30へ移行する。
【0059】
ステップ−B30)部分木識別子特定部42が、取得した木構造に変換された図8のような要素リストから、取得した部分木識別子に該当するタグを探し、該当する部分木識別子が存在しなかったらそのまま終了し、存在したらステップ−B40に移行する。
【0060】
ステップ−B40)部分識別子特定部42が、取得した部分識別子に対応する部分木の範囲の文書を、部分文書としてユーザに返す。
【0061】
[第2の実施例]
図11は、本発明の第2の実施例の構造化文書からの情報を抽出するシステムの構成図である。
【0062】
同図に示すシステムは、指定した部分木の根に対応するタグと書式属性の組合せが、特定対象文書中に複数存在する場合でも、指定部分を一意に特定することが可能な構成を示す。
【0063】
文書構造解析部3の、部分木識別子生成部32’以外は、前述の第1の実施例と同様であるので、説明を省略する。
【0064】
部分木識別子生成部32’は、木構造変換部31で木構造に変換された文書を構成するタグに対応するタグ識別子を、タグ名と書式属性名と書式属性の値の組合せにより生成する。図6の1番目のtable タグの例では、table タグと、書式属性と値である「border="0" cellpadding="1"」を組み合わせたもの(table_border=0&ceppladding=1) をタグ識別子とする。また、書式属性が複数ある場合は、書式属性名の順番で書式属性を整列させてタグの識別子を正規化する。
このタグの識別子と木構造内の同一階層におけるタグの識別子の順番を示す数値索引の組を生成し、この組を、木構造の根から指定した部分木の根まで入れ子状に連鎖させた文字列を、図12に示すような当該部分木識別子とし、木構造の要素に対応付ける。こうして、部分木の識別子が付与された図13のような木構造データを、文書構造化部13、あるいは、文書構造化部43に返す。
【0065】
図14は、本発明の第2の実施例の構造化文書からの情報抽出方法のフローチャートである。
【0066】
以下において、M20’以外は、前述の第1の実施例と同様であるため、説明を省略する。
【0067】
ステップ−M20’)部分木識別子生成部32’が、木構造変換部31で木構造に変換された文書を構成するタグに対応するタグ識別子を、タグ名と書式属性名と書式属性の値の組合せにより生成する。図6の1番目のtable タグの例では、table タグと、書式属性と値である「border"0"cellpadding="1"」を組み合わせたもの(table_border=0&cellpadding=1) をタグ識別子とする。また、書式属性が複数ある場合は、書式属性名の順番で書式属性を整列させてタグの識別子を正規化し、M30’に移行する。
【0068】
ステップ−M30’)部分木識別子生成部32’が生成したタグの識別子と木構造内の同一階層におけるタグの識別子の順番を示す数値索引の組を生成し、この組を、木構造の根から指定した部分木の根まで入れ子状に連鎖させた文字列を、図12に示すような当該部分木の識別子とし、木構造の要素に対応付ける。こうして部分木の識別子が付与された図13のような木構造のデータを、文書構造化部13あるいは、文書構造化部43へ返し、ステップ−A20あるは、ステップ−B30に移行する。
【0069】
[第3の実施例]
図15は、本発明の第3の実施例の構造化文書からの情報を抽出するシステムの構成図である。
【0070】
同図に示すシステムは、指定部分の前方にタグの閉じ忘れが存在した場合でも、指定部分の抽出精度を低下させないことが可能な構成を示す。
【0071】
部分木識別子特定部42’以外は、前述の第1の実施例と同様であるため、説明を省略する。
【0072】
部分木識別子特定部42’は、ユーザから部分文書IDと共に、部分取得要求を受け付け、部分情報記憶部2に部分文書IDを渡し、対応するURLと部分木識別子を取得する。文書取得部41にそのURLを渡し、該当する文書を取得する。取得した文書を構造化するよう文書構造化部43に要求し、木構造に変換された図13のような要素リストを取得する。
【0073】
取得した要素の部分木識別子のリストから、部分情報記憶部2から取得した部分木識別子を特定するために、識別子の末端のタグ識別子だけで照合を行う。例えば、「doc.table _border=1&cellpadding=1[0].table _border=0&cellpadding=1[1] 」という部分木識別子の末端のタグ識別子とは、最も右端の「tableborder=0&cellpadding=1 」に相当する。照合された部分木の候補が複数ある場合、当該タグ識別子の数値索引の照合をとることで候補を絞る。
【0074】
また、タグ識別子の数値索引により候補を絞っても、複数の候補が残っている場合に、親のタグにさかのぼって再帰的に照合を繰り返す。その結果、候補の部分木が一つしかない場合に、この部分木を指定した部分木として特定する。特定した部分木識別子に対応する部分木の範囲の文書を、部分文書としてユーザに返す。
【0075】
図16は、本発明の第3の実施例の構造化文書からの情報抽出方法のフローチャートである。ステップ−B30’からステップ−B90’以外は、前述の第1の実施例と同様であるため、説明を省略する。
【0076】
ステップ−B30’)部分木識別子特定部42が、取得した木構造に変換された図13のような要素リストから、部分情報記憶部2から取得した部分木識別子を特定するために、識別子の末端のタグ識別子を、照合対象として設定する。例えば、「doc.table _border=1&cellpadding=1[0].table _boder=0&cellpadding=1[1]」という部分木識別子の末端のタグ識別子とは、最も右端の「table _border=0&cellpadding=1」に相当する。設定後、ステップ−B40’に移行する。
ステップ−B40’)現在照合対象となっているタグ識別子同士の照合を行い、照合された部分木の候補が複数ある場合に、ステップ−B50’に移行し、一つに決まったらステップ−B60’へ進み、候補がない場合は終了する。
【0077】
ステップ−B50’)照合された部分木の候補が複数ある場合に、当該タグ識別子の数値索引の照合を行うことで、候補を絞る。さらに照合された候補が複数ある場合に、ステップ−B80’に移行し、一つに決まったら、ステップ−B60’に移行し、候補がない場合には終了する。
【0078】
ステップ−B60’)照合された部分木の候補が一つにきまったらその部分木を指定した部分木として特定し、ステップ−B70’へ移行する。
【0079】
ステップ−B70’)部分木識別子特定部42が、取得した部分識別子に対応する部分木の範囲の文書を、部分文書としてユーザに返す。
【0080】
ステップ−B80’)タグ識別子の数値索引により候補を絞っても、複数の候補が残っている場合に、照合対象を上位にずらす。「doc.table _border=1&cellpadding=1[0]. table_border=0&cellpadding=1[1] 」において、まず、末端のタグ識別子「table _border=0&cellpadding=1」を評価したら、その次に、その親のタグ識別子である「table _border=1&cellpadding=1[0] 」を照合対象とする。その後、ステップ−B90’に移行する。
【0081】
ステップ−B90’)ステップ−B80’で再帰的に照合対象を上位にずらした結果、最上位のタグを照合対象とした後に、もうこれ以上照合する対象が存在しない場合に終了し、そうでない場合は、ステップ−B40’に戻る。
【0082】
なお、本発明は、上記の各実施例の方法をプログラムとして構築し、情報抽出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることも可能である。
【0083】
また、構築されたプログラムを情報抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【0084】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0085】
【発明の効果】
上述のように、本発明によれば、構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木の識別子を生成する段階において、特に、部分木の根に対応するタグ名、タグの書式属性名、書式属性の値の組合せをタグの識別子とし、これを部分木の識別子とし、タグの識別子に書式属性が複数存在する場合は、書式属性名の順番で書式属性を整列させてタグの識別子を正規化し、木構造に変換された文書に存在する部分木の識別子のリストから、事前に取得した部分木の識別子と同一の部分木の識別子を持つ部分木を、指定部分として特定する。これにより、指定部分の部分木の根に対応するタグと同一のタグの文書ブロックが、指定部分と同じ階層に挿入されても、タグの書式属性が異なれば、開始、終了箇所に依存しない方法で、指定部分の抽出精度を低下させないことが可能となる。
【0086】
また、指定した部分木の根に対応するタグと書式属性の組合せが、特定対象文書中に複数存在する場合に、特に、タグの識別子と木構造内の同一階層におけるタグの識別子の順番を示す数値索引の組を生成し、タグ識別子と数値索引の組を、木構造の根から指定した部分木の根まで入れ子状に連鎖させた文字列を、当該部分木の識別子とすることにより、指定した部分木の根に対応するタグと書式属性の組合せが、特定対象文書中に複数存在する場合でも、指定部分を一意に特定することが可能となる。
【0087】
さらに、木構造に変換された文書に存在する部分木の識別子のリストから、事前に取得した部分木の識別子と同一の識別子を持つ部分木を特定する段階において、特に、部分木の識別子の照合を、部分木の根に対応するタグの識別子だけで照合を行い、照合された部分木の候補が複数ある場合に、当該タグ識別子の数値索引の照合を行うことで候補を絞り、タグ識別子の数値索引を絞っても、複数の候補が残っている場合に、親のタグに遡って再帰的に照合を繰り返し、照合を取った結果、候補の部分木が一つしかない場合に、この候補を指定した部分木として特定することにより、指定部分の前方にタグの閉じ忘れが存在した場合でも、指定部分の抽出精度を低下させないことが可能となる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の一実施の形態における同一タグで同一書式属性を持つものが複数存在する場合を説明するための図である。
【図3】本発明の第1の実施例の構造化文書から情報を抽出するシステムの構成図である。
【図4】本発明の第1の実施例の文書指定のための提供画面の例である。
【図5】本発明の第1の実施例の部分情報記憶部に記録される情報の例である。
【図6】本発明の第1の実施例の文書構造解析で変換された木構造データの例である。
【図7】本発明の第1の実施例の部分情報記憶部の内容を示す図である。
【図8】本発明の第1の実施例の要素リストの例である。
【図9】本発明の第1の実施例における変換された木データ構造の例である。
【図10】本発明の第1の実施例の構造化文書からの情報抽出方法のフローチャートである。
【図11】本発明の第2の実施例の構造化文書からの情報を抽出するシステムの構成図である。
【図12】本発明の第2の実施例の指定部分の部分木識別子の生成を示す図である。
【図13】本発明の第2の実施例の木構造データの生成を示す図である。
【図14】本発明の第2の実施例の構造化文書からの情報抽出方法のフローチャートである。
【図15】本発明の第3の実施例の構造化文書からの情報を抽出するシステム構成図である。
【図16】本発明の第3の実施例の構造化文書からの情報抽出方法のフローチャートである。
【図17】従来の技術を説明するための図である。
【符号の説明】
1 部分指定部
2 部分情報記憶部
3 文書構造解析部
4 部分特定部
11 文書取得部
12 部分指定部
13 文書構造化部
31 木構造変換部
32,32’ 部分木識別子生成部
41 文書取得部
42,42’ 部分木識別子特定部
43 文書構造化部

Claims (4)

  1. 構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木の識別子を生成する情報抽出装置における、構造化文書からの情報抽出方法であって
    部分指定手段が、
    木構造に変換された更新前の文書について、部分木識別子生成手段に部分木識別子を生成させる第1の手順と、
    指定した部分文書に対応する部分木の部分木識別子を当該部分文書の部分文書IDとともに部分情報記憶手段に格納する手順と、
    部分特定手段が、
    前記部分情報記憶手段から、特定すべき部分文書の部分文書IDに基づき対応する部分木識別子を取得する手順と、
    木構造に変換された更新後の文書について、前記部分木識別子生成手段に部分木識別子を生成させる第2の手順と、
    前記更新された文書に存在する部分木の部分木識別子のリストを生成する手順と、
    前記部分木識別子のリストから、前記部分情報記憶手段から取得した部分木識別子と同一の部分木識別子を持つ部分木を、指定部分として特定する手順と、
    を有し、
    前記部分木識別子を生成させる第1及び第2の手順は、
    前記部分木識別子生成手段が、
    木構造に変換された文書について、部分木の根に対応するタグ名、タグの書式属性名、書式属性の値の組み合わせをタグ識別子とする手順と、
    該タグ識別子に書式属性が複数存在する場合は、前記書式属性名の順番で書式属性を整列させてタグ識別子を正規化する手順と、
    前記タグ識別子と木構造の同一階層における当該タグ識別子の順番を示す数値索引の組を生成する手順と、
    前記タグ識別子と前記数値索引の組を、木構造の根から当該部分木の根まで入れ子状に連鎖させた文字列を、当該部分木の部分木識別子として生成する手順とからなり、
    前記指定部部分として特定する手順は、
    前記部分木特定手段が、
    前記部分木識別子の照合を、最初に該部分木識別子の末端の当該部分木の根に対応するタグ識別子だけで照合を行う手順と、
    照合された部分木の候補が複数ある場合に、次に該タグ識別子の数値索引の照合を行うことで候補を絞る手順と、
    タグ識別子の数値索引により候補を絞っても複数の候補が残っている場合に、最後に親のタグに遡って再帰的に照合を繰り返す手順と、
    いずれかの照合を取った結果、候補の部分木が一つしかなくなった時点で、該候補を指定した部分木として特定する手順とからなる
    ことを特徴とする構造化文書からの情報抽出方法。
  2. 構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木の識別子を生成する情報抽出装置であって
    部分木識別子を生成する部分木識別子生成手段と、
    木構造に変換された更新前の文書について、前記部分木識別子生成手段に部分木識別子を生成させる手段と、指定した部分文書に対応する部分木の部分木識別子を当該部分文書の部分文書IDとともに部分情報記憶手段に格納する手段と、
    を有する部分指定手段と、
    前記部分情報記憶手段から、特定すべき部分文書の部分文書IDに基づき対応する部分 木識別子を取得する手段と、木構造に変換された更新後の文書について、前記部分木識別子生成手段に部分木識別子を生成させる手段と、更新された文書に存在する部分木の部分木識別子のリストを生成する手段と、該部分木識別子のリストから、前記部分情報記憶手段から取得した部分木識別子と同一の部分木識別子を持つ部分木を、指定部分として特定する手段と、を有する部分特定手段と、からなり、
    前記部分木識別子生成手段は、
    木構造に変換された文書について、部分木の根に対応するタグ名、タグの書式属性名、書式属性の値の組み合わせをタグ識別子とする手段と、
    該タグ識別子に書式属性が複数存在する場合は、前記書式属性名の順番で書式属性を整列させてタグ識別子を正規化する手段と、
    前記タグ識別子と木構造の同一階層における当該タグ識別子の順番を示す数値索引の組を生成する手段と、
    前記タグ識別子と前記数値索引の組を、木構造の根から当該部分木の根まで入れ子状に連鎖させた文字列を、当該部分木の部分木識別子として生成する手段と、を有し、
    前記部分木特定手段は、
    前記部分木識別子の照合を、最初に該部分木識別子の末端の当該部分木の根に対応するタグ識別子だけで照合を行う手段と、
    照合された部分木の候補が複数ある場合に、次に該タグ識別子の数値索引の照合を行うことで候補を絞る手段と、
    タグ識別子の数値索引により候補を絞っても複数の候補が残っている場合に、最後に親のタグに遡って再帰的に照合を繰り返す手段と、
    いずれかの照合を取った結果、候補の部分木が一つしかなくなった時点で、該候補を指定した部分木として特定する手段と、を有する
    ことを特徴とする構造化文書からの情報抽出装置。
  3. 構造化文書の任意の部分を事前に指定し、更新された文書から指定部分を特定するために、文書を木構造に変換し、部分文書を参照するために対応する部分木識別木を生成する処理をコンピュータに実行させる、情報抽出プログラムであって、
    コンピュータを請求項2記載の各手段として機能させることを特徴とする情報抽出プログラム。
  4. 請求項3に記載の情報抽出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体
JP2002190621A 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体 Expired - Lifetime JP3937944B2 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2002190621A JP3937944B2 (ja) 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
EP06010490A EP1686499B1 (en) 2002-06-28 2003-06-17 Selection and extraction of information from structured documents
DE60333238T DE60333238D1 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten
DE60314806T DE60314806T2 (de) 2002-06-28 2003-06-17 Extrahierung von Information aus strukturierten Dokumenten
EP03253818A EP1376408B1 (en) 2002-06-28 2003-06-17 Extraction of information from structured documents
US10/463,521 US7685157B2 (en) 2002-06-28 2003-06-18 Extraction of information from structured documents
CNB031486614A CN1244877C (zh) 2002-06-28 2003-06-18 结构化文件的信息提取方法、部分识别方法、部分选择提取方法及装置
KR1020030042628A KR100572576B1 (ko) 2002-06-28 2003-06-27 구조화 문서부터의 정보 추출
US10/982,865 US7730104B2 (en) 2002-06-28 2004-11-08 Extraction of information from structured documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002190621A JP3937944B2 (ja) 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2004038263A JP2004038263A (ja) 2004-02-05
JP3937944B2 true JP3937944B2 (ja) 2007-06-27

Family

ID=31700498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002190621A Expired - Lifetime JP3937944B2 (ja) 2002-06-28 2002-06-28 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3937944B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2450188C2 (ru) * 2007-12-05 2012-05-10 Оилс Корпорэйшн Сферический кольцевой уплотнительный элемент и способ его изготовления
JP6173990B2 (ja) 2014-09-16 2017-08-02 株式会社東芝 検索支援装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2004038263A (ja) 2004-02-05

Similar Documents

Publication Publication Date Title
US9619448B2 (en) Automated document revision markup and change control
US7730104B2 (en) Extraction of information from structured documents
CA2242158C (en) Method and apparatus for searching and displaying structured document
JP5209235B2 (ja) ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること
US7664773B2 (en) Structured data storage method, structured data storage apparatus, and retrieval method
JP2010086517A (ja) コンピュータによって実施される、ウェブページからデータを抽出する方法
JP4860416B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4042830B2 (ja) コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体
CN107590288B (zh) 用于抽取网页图文块的方法和装置
US20050144153A1 (en) Structured data retrieval apparatus, method, and computer readable medium
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
Jou Schema extraction for deep web query interfaces using heuristics rules
JP3937944B2 (ja) 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
Zawadzki Development of metadata for historical cartographic resources associated with the Paris Peace Conference (1919− 1920)
Lam et al. Web information extraction
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
WO2001024053A2 (en) System and method for automatic context creation for electronic documents
JP2008140157A (ja) 構造化文書処理装置
Meuschke Hybrid Plagiarism Detection System
CN115730215A (zh) 一种通用的人物画像生成方法与装置
JP4334450B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JP2019040261A (ja) 情報処理装置及びプログラム
JP2004348484A (ja) 部分文書取得方法、システム、プログラム、および記録媒体
Sweet et al. A system for the identification of multi-page web documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

R150 Certificate of patent or registration of utility model

Ref document number: 3937944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term