JP2006040166A

JP2006040166A - 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム

Info

Publication number: JP2006040166A
Application number: JP2004222283A
Authority: JP
Inventors: Hiroyuki Onuma; 宏行大沼
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-07-29
Filing date: 2004-07-29
Publication date: 2006-02-09

Abstract

【課題】関連情報へリンク可能な文書に記載される特定種類の情報を網羅的に抽出する。
【解決手段】本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置であって、各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段と、記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムに関し、例えば、ハイパーテキスト構造の文書集合から特定種類の情報を網羅的に抽出する装置、及び、抽出された情報を利用するシステムに好適である。

従来、検索システムの１つに、例えば、Ｗｅｂページを複数の属性で検索し、検索結果を多次元で提示する検索システムがある（特許文献１参照）。この検索システムでは、指定された製品カテゴリをキーワードして検索し、ヒットした文書数を企業ごとに表示したりしている。しかし、特許文献１におけるキーワード抽出装置は、各キーワードが、例えば、製品カテゴリを表すのか、人名を表すのか等のキーワードの分類をしていない。したがって、特定種類（例えば、特定企業の製品カテゴリなど）のキーワードだけを網羅して一覧表示するという要件には対応できない。

特定の企業の製品カテゴリを表すキーワードを網羅し、製品カテゴリや製品を抽出するための従来方法として、次の２つの方法が考えられる。

まず第１の方法は、製品カテゴリや製品名の辞書を用意したり、「○○装置」などの正規表現で表されるパターンを用意したりして情報抽出する技術を利用する方法である（非特許文献１参照）。

第２の方法は、サイトごとに固有のテンプレートを利用するＷｅｂラッパーを利用する方法である（非特許文献２参照）。
特開２００２−２９７６６１号公報福本淳一，下畑光夫，桝井文人，「固有表現抽出における日本語と英語の比較」，信学技報，社団法人電子情報通信学会，１９９８，ＮＬＣ９８−２１，ｐｐ．４５−５２山田康寛，他３名，「ＷＷＷからの情報抽出−Ｗｅｂラッパーの自動構築−」，人工知能学会誌，２００４，Ｖｏ１．１９，Ｎｏ．３，ｐｐ．３０２−３１０

しかしながら、非特許文献１の情報抽出技術は、製品カテゴリや製品名の辞書を用意することで、その製品カテゴリや製品名を抽出することはできるが、製品カテゴリや製品名は膨大であるため、それら情報を網羅する辞書を用意することが困難である。また、製品カテゴリや製品名に一定の規則性があるわけではなく、それらの情報を抽出するための有効な表現を設定できない。

また、非特許文献２のＷｅｂラッパーは、ショッピングモールサイトなど、サイト内の各文書に同一のテンプレートが使われている場合や、１つの文書の中に同じフォーマットが繰り返される場合には有効である。しかし、様々な企業サイトから情報を収集する場合には、同一のテンプレートや同じフォーマットが繰り返されることがない文書を対象にするため、有効ではない。

そのため、関連情報にリンク可能な１又は複数の文書の中から特定情報を抽出するものであって、抽出する特定情報を網羅する辞書を用意することなく、又特定情報の種類を区別することができる情報抽出装置、情報抽出方法、情報抽出プログラム、及び、情報抽出装置が抽出した情報を利用する情報検索システムが求められている。

かかる課題を解決するために、第1の本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置であって、（１）各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段と、（２）記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、（３）文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段とを備えることを特徴とする。

第２の本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置であって、（１）各文書から参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、（２）少なくとも各文書の種別情報を記憶する記憶手段と、（３）互いに異なる文書の複数の文字列間で、文字列及び又は種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段とを備えることを特徴とする。

第３の本発明の情報抽出方法は、第１の本発明の情報抽出装置に対応するものである。第３の本発明の情報抽出方法は、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出方法であって、（１）記載範囲特定手段が、各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定し、（２）文字列抽出手段が、記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出し、（３）出力手段が、文字列抽出手段により抽出された文字列を特定情報として出力することを特徴とする。

第４の本発明の情報抽出方法は、第２の本発明の情報抽出装置に対応するものである。第４の本発明の情報抽出方法は、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出方法であって、（１）文字列抽出手段が、各文書から参照識別子を構成する文字列を文書毎に抽出し、（２）記憶手段が、少なくとも各文書の種別情報を記憶し、（３）種類分別手段が、互いに異なる文書の複数の文字列間で、文字列及び又は種別情報の共通性を判断し、当該文字列の種類を分別することを特徴とする。

第５の本発明の情報抽出プログラムは、第１の情報抽出装置に対応するものである。第５の本発明の情報抽出プログラムは、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置に、（１）各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段、（２）記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段、（３）文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段として機能させるためのものである。

第６の本発明の情報抽出プログラムは、第２の本発明の情報抽出装置に対応するものである。第６の本発明の情報抽出プログラムは、関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置に、（１）各文書から参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段、（２）少なくとも各文書の種別情報を記憶する記憶手段、（３）互いに異なる文書の複数の文字列間で、文字列及び又は種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段として機能させるためのものである。

第７の本発明の情報検索システムは、１又は複数の文書から指示された特定情報を検索する情報検索システムにおいて、第１又は第２の本発明の情報抽出装置を備えることを特徴とする。

本発明によれば、関連情報にリンク可能な１又は複数の文書の中から特定情報を抽出するときに、抽出する特定情報を網羅する辞書を用意することなく、又特定情報の種類を区別することができる。

以下、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムを実施するための最良の形態について図面を参照し説明する。

以下で説明する実施形態は、ハイパーリンクを有するＨＴＭＬ文書に含まれる情報を抽出する場合について説明する。

（Ａ）第１の実施形態
まず、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムの第１の実施形態について図面を参照して説明する。

第1の実施形態は、企業のサイトマップや製品一覧等のＨＴＭＬ文書から、製品カテゴリや製品名を抽出目的語（目的ワード）として抽出する情報抽出システムに適用した場合を説明する。

また、第１の実施形態の情報抽出システムは、ＨＴＭＬ文書が、他の関連文書にリンクするための参照識別子（ＨＴＭＬ文書の場合のアンカー。以下、アンカーとする。）を有し、アンカーを構成する文字列（以下、アンカー文字列）が記載されている範囲を特定し、その特定範囲のアンカー文字列を目的ワードとして抽出するものである。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の情報抽出システムの機能を説明するための機能ブロック図である。

図１に示すように、本実施形態の情報抽出システム１０は、入力部１、記載範囲決定部２、特徴単語格納部３、リンク抽出部４、目的ワード抽出部５、出力部６を備える。

入力部１は、入力文書としてＨＴＭＬ文書を取り込み、取り込んだＨＴＭＬ文書を構成するＨＴＭＬタグ及び文字列を区別し、ＨＴＭＬタグ及び文字列を区別した文書情報を記載範囲決定部２及びリンク抽出部４に与えるものである。本実施形態では、入力部１は、企業のサイトマップや製品一覧などのＨＴＭＬページを入力文書として取り込む。

記載範囲決定部２は、入力部１からＨＴＭＬ文書（入力文書）の文書情報を受け取り、特徴単語格納部３に格納されている特徴単語を参照して、製品カテゴリや製品名等の記載範囲を、受け取ったＨＴＭＬ文書の中から決定するものである。また、記載範囲決定部２は、決定した製品カテゴリや製品名等の記載範囲を、目的ワード抽出部５に与えるものである。

特徴単語格納部３は、入力文書中における抽出目的とする単語（本実施形態では製品カテゴリや製品名等）の記載範囲を特定するための手がかりになる単語を格納するものである。

ここで、一般的に、サイトマップや製品一覧等の文書では、製品カテゴリや製品名等がアンカー文字列として示されている場合が多い。また、このようなアンカー文字列は、サイトマップ等の一定領域に記載されている場合が多い。従って、これらの点を考慮して、ある一定の領域（範囲）を特定し、その範囲内から抽出したアンカー文字列を抽出目的語とする。

図２は、特徴単語格納部３が格納するデータの項目例を示す。図２に示すように、特徴単語格納部３が格納する項目として、開始単語２１及び終了単語２２を格納する。開始単語２１は、入力文書中における検索対象とする単語の記載範囲の開始位置を決定するための単語であり、終了単語２２は、入力文書中における抽出対象とする文字列の記載範囲の終了位置を決定するための単語である。開始単語２１及び終了単語２２は、企業のサイトマップや製品一覧などの文書における一般的な構成などをもとにして、経験的、統計的又は確率的に判断して設定する方法が考えられる。

リンク抽出部４は、入力部１からＨＴＭＬ文書（入力文書）の文書情報を受け取り、その文書情報全体に含まれるアンカーを抽出するものである。リンク抽出部４は、例えば、ＨＴＭＬ文書において、「Ａタグ」と「／Ａタグ」との間で囲まれる範囲をアンカー部分として抽出する。また、リンク抽出部４は、抽出したアンカー部分を目的ワード抽出部５に与えるものである。

目的ワード抽出部５は、記載範囲決定部２が決定した記載範囲を受け取り、その記載範囲におけるリンク抽出部４により抽出されたアンカーの構成文字列（アンカー文字列）を、目的ワード（本実施形態では製品カテゴリや製品名等）として抽出するものである。また、目的ワード抽出部５は、抽出したアンカー文字列のうち、例えば、記号や数字など製品カテゴリや製品名として不適な文字列を除去するものである。これにより、より精度を高くして目的ワードを抽出することができる。

出力部６は、目的ワード抽出部５が抽出した文字列を出力するものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の情報抽出システムの動作について図面を参照して説明する。図３は、第１の実施形態の情報抽出システムの動作フローチャートである。

企業のサイトマップや製品一覧等のＨＴＭＬ文書が入力文書として入力部１に取り込まれる（ステップ１００）。

入力部１にＨＴＭＬ文書が入力すると、ＨＴＭＬ文書は、入力部１により、ＨＴＭＬタグ及び文字列を区別した文書情報に整形される（ステップ１１０）。

ここで、入力部１におけるＨＴＭＬ文書の整形について図面を参照して説明する。図４は入力部１に入力されたＨＴＭＬ文書例を示す図であり、図５は入力部１により整形された文書情報例を示す図である。

図４に示すように、ＨＴＭＬ文書は、ＨＴＭＬタグとＨＴＭＬタグ以外の文字列とにより構成される。従って、入力部１は、ＨＴＭＬタグであるか否かを判断することで、ＨＴＭＬタグとＨＴＭＬタグ以外の文字列とを区別することができる。なお、ＨＴＭＬタグは、「＜」及び「＞」で囲まれているので、従来の文字列マッチング方式を利用可能である。

そして、入力部１において、ＨＴＭＬタグとＨＴＭＬタグ以外の文字列とを区別すると、図５に示すように、区別したＨＴＭＬタグ及びＨＴＭＬ以外の文字列をそれぞれ１行とする文書情報を作成する。つまり、ＨＴＭＬタグの行は、「＜」で始まり、ＨＴＭＬ以外の文字列の行は、「＜」で始まらない。これによりＨＴＭＬタグとそれ以外の文字列とを容易に区別可能な文書情報に整形できる。

入力部１によりＨＴＭＬ文書が整形されると、その整形された文書情報が、記載範囲決定部２及びリンク抽出部４に与えられる。

文書情報が記載範囲決定部２に与えられると、文書情報は、記載範囲決定部２により特徴単語格納部３で格納される特徴単語（文字列）と照合され、ＨＴＭＬタグでない各行の文字列が、特徴単語格納部３の特徴単語（文字列）と同一又は特徴単語（文字列）を一部として含むものであるかどうか判断される（ステップ１２０）。

例えば、特徴単語格納部３が図２に例示する特徴単語を格納している場合、図５の文書情報において、特徴単語と同一又は一部を含む行は次の通りである。

特徴単語格納部３の開始単語については、２３行目の「製品紹介」が特徴単語「製品」を一部に含み、終了単語については、９行目の「会社概要」が特徴単語の「会社概要」と同じであり、１８行目の「投資家向け情報」が特徴単語「投資家」を一部に含み、及び、４１行目の「プレスリリース」が特徴単語「プレスリリース」と同じである。

記載範囲決定部２により特徴単語との一致性が判断されると、記載範囲決定部２により、「特徴単語格納部３の開始単語に一致した行」を、決定する記載範囲の開始位置（開始行）とし、開始位置以降であって開始位置から最も近い「特徴単語格納部３の終了単語に一致する行」を終了位置（終了行）とし、この範囲が、特定ワードが記載され得る記載範囲として決定される（ステップ１３０）。

例えば、図５において、開始位置は２３行目になり、開始位置以降であって、開始位置からもっと近い４１行目が終了位置となる。従って、記載範囲は、２３行目〜４１行目である。

なお、決定される記載範囲は、特徴単語との照合結果によって、複数箇所の場合も考えられる。

一方、入力部１からの文書情報がリンク抽出部４に与えられると、文書情報は、リンク抽出部４により、ＨＴＭＬタグの各行について、他の文書へのリンクを表すＡタグから／Ａタグで囲まれる範囲が抽出される（ステップ１４０）。

例えば、図５において、リンク抽出部４により抽出される範囲は、１３行目〜１５行目、１７行目〜１９行目、２７行目〜２９行目、３１行目〜３３行目、３５行目〜３７行目、４５行目〜４７行目、及び、４９行目〜５１行目となる。

記載範囲決定部２により記載範囲が決定され、リンク抽出部４によりリンク記載範囲が抽出されると、これら記載範囲とリンク記載範囲とは目的ワード抽出部５に与えられる。

目的ワード抽出部５において、記載範囲決定部２により決定された記載範囲と、リンク抽出部４により抽出されたリンク記載範囲とが共通する領域が抽出される（ステップ１５０）。

例えば、図５において、記載範囲決定部２により決定された範囲は２３行目〜４１行目と、リンク抽出部４により抽出されたリンク記載範囲との共通領域は、２７行目〜２９行目、３１行目〜３３行目、及び、３５行目〜３７行目である。

なお、図３では、記載範囲の特定後、アンカー文字列を抽出して共通領域を計算するものとして示すが（ステップ１３０〜１５０）、この順序で行なうことに限定されない。

目的ワード抽出部５により共通領域が抽出されると、その共通領域にあるＨＴＭＬタグでない行の文字列（アンカー文字列）が、製品カテゴリ及び製品名を表す文字列を含む文字列として抽出される（ステップ１６０）。

例えば、図５において、共通領域である２７行目〜２９行目において、ＨＴＭＬタグでない行である２８行目の「１．パソコン」が抽出される。また同様に、共通領域３１行目〜３３行目及び３５行目〜３７行目において、３２行目の「２．プリンタ」及び３６行目の「３．デジカメ」が抽出される。

目的ワード抽出部５により文字列が抽出されると、目的ワード抽出部５において、その抽出された文字列のうち、製品カテゴリや製品名として適切でない文字列が、例えばパターンマッチング方式や固有表現抽出技術などにより、除去される（ステップ１７０）。

例えば、パターンマッチング方式や固有表現抽出等により、次のような不要文字列を除去する。

（１）「Ｏ」「●」「※」「├」「┘」などの記号や「（１）」「（２）」「１．」「２．」…などの見出しをパターンマッチングによって除去する。

（２）「５／２９」などの日付を表す表現や「〜本部」など組織を表す単語を固有表現抽出し、製品カテゴリや製品名以外の、日付や組織名などに分類された固有表現を除去する。

（３）「商品検索」「製品ラインナップ」など、リンク先に製品情報が記載されていることを示す単語をパターンマッチングによって除去する。

例えば、図５において、目的ワード抽出部５が抽出した「１．パソコン」、「２．プリンタ」及び「３．デジカメ」の場合、「１．」、「２．」及び「３．」などの表現を取り除く。

このようにして、目的ワード抽出部５により不要な文字列の削除がなされた抽出文字列は、出力部６に与えられ、出力部６により出力される（ステップ１８０）。

例えば、本実施形態の例の場合、目的ワード抽出部５により、不要な文字列が除去されて残った、「パソコン」、「プリンタ」及び「デジカメ」が出力部６から出力される。

（Ａ−３）第１の実施形態の効果
以上、第１の実施形態によれば、特定ワードが記載され得る記載範囲を特定する記載範囲決定手段を備え、その記載範囲内のアンカー文字列を抽出し、その抽出した文字列を目的ワードとして出力することができるので、従来のように、抽出する目的ワードを格納する辞書を備える必要がない。

（Ｂ）第２の実施形態
次に、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムの第２の実施形態について図面を参照して説明する。

第２の実施形態の情報抽出システムは、複数のサイトマップや製品一覧の入力文書と、サイトの企業種別の情報（電気機器、機械、精密機器、銀行など）とを入力情報として取り込み、サイトマップや製品一覧の入力文書から、製品カテゴリや製品名を表す文字列を抽出した後、抽出した文字列間で、文字列及び企業種別の共通性に基づいて、抽出文字列の種類を判断するものである。

これは、例えば一般に電気機器メーカーは、同一の製品カテゴリの商品を掲載している可能性が高い。従って、第１の実施形態で抽出された単語に共通の文字列がある場合、共通する部分は製品カテゴリである可能性が高いと考えられ、一方、共通しない部分は製品名である可能性が高いと考えられる。

例えば、ある電気機器メーカーサイトで「プリンタＰ−２００４」という文字列が抽出され、別の電気機器メーカーサイトで「プリンタ」という文字列が抽出された場合、文字列が共通する部分の「プリンタ」は製品カテゴリ名であり、共通しない部分の「Ｐ−２００４」は製品名と判断できる。

また、電気機器メーカーと機械メーカーとの間では、共通する製品カテゴリは存在しない。従って、第１の実施形態で抽出された単語に共通の文字列がある場合でも、これらは製品カテゴリでも製品名でもないと判断できる。

例えば、電気機器メーカーサイトで「ラインナップ」が抽出され、機械メーカーでも「ラインナップ」が抽出された場合、これらは製品カテゴリでも製品名でもないと判断する。

以上の点を考慮し、本発明の第２の実施形態について説明する。

（Ｂ−１）第２の実施形態の構成
図６は、第２の実施形態の情報抽出システムの内部機能を説明する機能ブロック図である。

図６に示すように、情報抽出システム２０は、入力部１、記載範囲決定部２、特徴単語格納部３、リンク抽出部４、目的ワード抽出部５、目的ワード一時記憶部７、目的ワード選別部８、出力部６を備える。

図６において、第１の実施形態で説明した情報抽出システム１０の機能構成と同一・対応構成については対応する符号を付して示す。また、第１の実施形態で説明した情報抽出システム１０の同一・対応構成についての詳細な機能説明は省略する。

第２の実施形態の情報抽出システム２０は、目的ワード一時記憶部７及び目的ワード選別部８を備える点が、第１の実施形態の情報抽出システム１０と異なる。

入力部１は、第１の実施形態と同様に、入力文書を取り込み、文書情報として記載範囲決定部２及びリンク抽出部４に与えるものである。本実施形態も第１の実施形態と同様に、入力部１は、企業のサイトマップや製品一覧のＨＴＭＬ文書を入力文書として取り込むものとする。また、入力部１は、取り込んだ入力文書についての企業種別の情報を取り込むものである。入力部１が取り込んだ入力文書の企業種別の情報は、後述する目的ワード一時記憶部７に記憶される。

目的ワード一時記憶部７は、目的ワード抽出部５が第１の実施形態と同様にして抽出した目的ワード（製品カテゴリや製品名）を格納するものである。また、目的ワード一時記憶部７は、入力部１が取り込んだ企業種別の情報を、入力文書に対応させて格納するものである。

目的ワード選別部８は、目的ワード一時記憶部７を参照し、目的ワード抽出部５で格納した文字列で、共通した文字列を見つけることで、製品名、製品カテゴリ、いずれでもない、のいずれであるかを判断するものである。なお、目的ワード選別部８が選別する文字列種類の内容や数は、目的ワードに応じて適宜設定可能である。

出力部６は、目的ワード選別部８により選別された製品名と製品カテゴリを出力するものである。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の情報抽出システム２０の動作について図面を参照して説明する。図７は、情報抽出システム２０の動作を示すフローチャートである。

以下では、入力部１が取り込む文書が、企業種別が「電気機器」である文書１（図２の示す文書）、企業種別が「電気機器」と「精密機器」である文書２（図示せず）、企業種別が「機械」である文書３、企業種別が「電気機器」である文書４（図示せず）である場合について述べる。また、企業が複数の製品分野にまたがっている場合もあるので、企業種別は１つとは限らず複数でもよい。

まず、入力部１には、文書１〜４と、文書１〜４のそれぞれの企業種別とが入力され、文書と企業種別との組が取り込まれる（ステップ２００）。

図８は、入力部１に入力される文書と企業種別との入力例である。例えば、図８に示すように、文書１に対応するように企業種別「電気機器」が入力され、文書２に対応するように企業種別「電気機器」及び「精密機器」が入力され、文書３に対応するように企業種別「機械」が入力され、文書４に対応するように「電気機器」が入力される。

なお、文書と企業種別との組の入力は、企業種別を文書に対応させて入力部１に取り込ませることができれば色々な手法が考えられる。

各文書と企業種別との組が入力部１に入力されると、入力部１において、以下で説明する処理がすべての文書に対して処理がなされた否かが判断され（ステップ２１０）、未処理の文書がある場合には、その未処理の文書が選択される（ステップ２２０）。

未処理の文書がある場合に、入力部１により選択された未処理の文書は、入力部１により、ＨＴＭＬタグ及び文字列が区別された文書情報として整形され、第１の実施形態で説明した図３のステップ１１０〜１７０が実行される（ステップ２３０）。

すなわち、入力部１が取り込んだ文書は、記載範囲決定部２により決定された記載範囲及びリンク抽出部４により抽出されたリンク記載範囲に基づいて、目的ワード抽出部５により、記載範囲内のアンカー文字列が目的ワードとして抽出される。

目的ワード抽出部５により、目的ワードが抽出されると、その抽出された目的ワードは、目的ワード一時記憶部７に登録される（ステップ２４０）。

このように、未処理の文書について、目的ワード抽出部５により抽出された目的ワードが目的ワード一時記憶部７に登録される。そして、すべての文書についての目的ワードが目的ワード一時記憶部７に登録されるまで繰り返しなされる（ステップ２１０）。

ここで、図９は、目的ワード一時記憶部７の構造例を示す。図９に示すように、目的ワード一時記憶部７の管理項目例として、文書識別子項目、企業種別項目、抽出文字列項目などから構成される。

文書識別子項目は、入力された文書を一意に識別するための情報である。この例では、文書１、文書２、文書３、文書４を格納する。

企業種別項目は、各文書に対応する文書種別である。この例では、「電気機器」、「精密機器」、「機械」を格納する。

抽出文字列項目は、目的ワード抽出部５が抽出した文字列である。例えば、文書１については、目的ワード抽出部５により抽出された「パソコン」、「プリンタ」、「デジカメ」を格納する。

また、目的ワード一時記憶部７は、図９に示すように、抽出文字列に対応したレコードを割り当てて登録する。例えば、文書１の「パソコン」、「プリンタ」、「デジカメ」にそれぞれ第１〜３レコードを登録する。

すべての文書についての目的ワードが目的ワード一時記憶部７に登録されると、目的ワード選別部８は、抽出した文字列間に共通する文字列を見つけることで、文字列が、製品名、製品カテゴリ、いずれでもない、のいずれであるかを判断する（ステップ２５０）。

ここで、目的ワード選別部８における詳細な処理について図１０を参照して説明する。図１０は、目的ワード選別部８の動作を示すフローチャートである。

また、以下では目的ワード一時記憶部７のｉ番目のレコードをＲｉとして示す。

まず、目的ワード一時記憶部７において、処理対象のレコード番号を示すカウンタｉを「１」に初期化する。また、Ｒｉの抽出文字列の種類（製品名、製品カテゴリ、いずれでもない、のいずれか）を格納する変数ｗｏｒｄ＿ｔｙｐｅｉを「製品名」に初期化する。

カウンタｉの初期化がされると、カウンタｉと総レコード数とを比較することで、すべてのレコードについて処理が終了したか否かを判断し、カウンタｉが、総レコード数以下の場合ステップ１０２０に進み、総レコード数を超えた場合終了する（ステップ１０１０）。

次に、ステップ１０２０において、Ｒｉの文字列と比較する相手側のレコードを示すカウンタｊを「１」に初期化する（ステップ１０２０）。

カウンタｊの初期化がされると、カウンタｊと総レコード数とを比較し、カウンタｊが、総レコード数以下の場合ステップ１０４０に進み、総レコード数を超えた場合、他のすべてのレコードの文字列との比較が終了したと判断して、ステップ１１３０に進み、カウンタｉをｉ＋１にする（ステップ１０３０）。これにより、次のカウンタｉ＋１に相当するレコードＲｉ＋１の文字列について処理する。

カウンタｊが総レコード数以下の場合、Ｒｉの文書識別子とＲｊの文書識別子とを比較し、Ｒｉの文書識別子とＲｊの文書識別子とが一致するか否かを判断する（ステップ１０４０）。

Ｒｉの文書識別子とＲｊの文書識別子とが一致する場合、Ｒｉ及びＲｊの文書は同一文書であると判断され、ステップ１１２０に進み、カウンタｊに１を加えて、次のレコードと比較させる（ステップ１１２０）。

一方、Ｒｉの文書識別子とＲｊの文書識別子とが一致しない場合、Ｒｉ及びＲｊの文書は異なる文書であると判断され、次に、Ｒｉの抽出文字列とＲｊの抽出文字列とが比較される（ステップ１０５０）。

ここで、ステップ１０５０では、Ｒｉの抽出文字列とＲｊの抽出文字列との間で、一方の文字列が他方の文字列の全部又は一部を包含するか否かを判断し、その判断結果に応じて異なるステップに進む。

つまり、（１）Ｒｉの抽出文字列が、Ｒｊの抽出文字列と同じ又はＲｊの抽出文字列に包含される場合、ステップ１０６０に進む。また、（２）Ｒｊの抽出文字列が、Ｒｉの抽出文字列に包含される場合、ステップ１０９０に進む。さらに、（３）Ｒｉの抽出文字列とＲｊの抽出文字列とが包含関係にない場合、ステップ１１２０に進む。

例えば、図９において、Ｒｉ＝１、Ｒｊ＝８の場合、第１レコードの抽出文字列は「パソコン」であり、第８レコードの抽出文字列は「ノートパソコンＮＰＣシリーズ」であるから、Ｒｉの抽出文字列は、Ｒｊの抽出文字列に包含される。従って、この場合、ステップ１０６０に進む。

また例えば、Ｒｉ＝２、Ｒｊ＝１１の場合、第２レコードの抽出文字列は「プリンタ」であり、第１１レコードの抽出文字列は「プリンタカートリッジ」であるから、Ｒｉの抽出文字列は、Ｒｊの抽出文字列に包含される。従って、この場合、ステップ１０６０に進む。

また例えば、Ｒｉ＝４、Ｒｊ＝６の場合とＲｉ＝６、Ｒｊ＝４の場合、第４レコード及び第６レコードの抽出文字列はいずれも「ラインナップ」と同じであるから、ステップ１０６０に進む。

また例えば、Ｒｉ＝５、Ｒｊ＝２の場合、第５レコードの抽出文字列が「プリンタＰ−ＡＡ」であり、第２レコードの抽出文字列が「プリンタ」であるから、Ｒｊの抽出文字列が、Ｒｉの抽出文字列を包含する。従って、この場合、ステップ１０９０に進む。

また例えば、Ｒｉ＝８、Ｒｊ＝１の場合、第８レコードの抽出文字列が「ノートパソコンＮＰＣシリーズ」であり、第１レコードの抽出文字列が「パソコン」であるから、Ｒｊの抽出文字列が、Ｒｉの抽出文字列に包含される。従って、この場合、ステップ１０９０に進む。

さらに、Ｒｉ＝１、Ｒｊ＝４の場合、第１レコードの抽出文字列が「パソコン」であり、第４レコードの抽出文字列が「ラインナップ」であり、Ｒｉの抽出文字列とＲｊの抽出文字列との間で包含関係がないので、ステップ１１２０に進む。

図１０に戻り、ステップ１０５０において、Ｒｉの抽出文字列がＲｊの抽出文字列と同じ又は包含されると判断されると、Ｒｉの企業種別とＲｊの企業種別とが比較される（ステップ１０６０）。

ステップ１０６０において、Ｒｉの企業種別とＲｊの企業種別とが同じ場合、Ｒｉの抽出文字列の種類を示す変数ｗｏｒｄ＿ｔｙｐｅｉを「製品カテゴリ」と判断する（ステップ１０７０）。そして、ステップ１１２０に進み、カウンタｊが更新されて次のレコードとの比較がなされる。

例えば、第１レコードと第８レコードの企業種別項目が一致するため、第１レコードの抽出文字列「パソコン」の種類は「製品カテゴリ」と判断される。

また、第２レコードと第５レコード、第２レコードと第１１レコードの企業種別項目は一致するため、第２レコードの抽出文字列「プリンタ」の種類は「製品カテゴリ」と判断される。

一方、ステップ１０６０において、Ｒｉの企業種別とＲｊの企業種別とが同じでない場合、Ｒｉの抽出文字列の変数ｗｏｒｄ＿ｔｙｐｅｉは「いずれでもない」と判断される。そして、ステップ１１３０に進み、カウンタｉが更新されて次のレコードについての選別処理がなされる（ステップ１１３０）。

例えば、第４レコードと第６レコードでは、企業種別項目が異なるため、第４レコードの抽出文字列「ラインナップ」の種類は「いずれでもない」に決定される。第６レコードも同様である。

また、ステップ１０５０において、Ｒｊの抽出文字列がＲｉの抽出文字列に包含されると判断されると、Ｒｉの企業種別とＲｊの企業種別とが比較される（ステップ１０９０）。

ステップ１０９０において、Ｒｉの企業種別とＲｊの企業種別とが同じ場合、Ｒｉの抽出文字列は、Ｒｊと共通する部分について変数ｗｏｒｄ＿ｔｙｐｅｉを「製品カテゴリ」と判断し、Ｒｊと相違する部分について変数ｗｏｒｄ＿ｔｙｐｅｉを「製品名」と判断する（ステップ１１００）。ただし、変数ｗｏｒｄ＿ｔｙｐｅiに既に「製品カテゴリ」が設定されていた場合には、「製品カテゴリ」の文字列長が長い方を設定する。そして、ステップ１１２０に進み、カウンタｊが更新されて次のレコードとの比較がなされる。

例えば、第５レコードと第２レコードでは企業種別項目が一致する。それらの間の共通の文字列は「プリンタ」であり、第５レコードの抽出文字列「プリンタ」は「製品カテゴリ」と、「Ｐ−ＡＡ」の種類は「製品名」と判断される。

また、共通する部分と共通しない部分の間に、空白がない場合や、文字種の変化がない場合や、カギ括弧などの切れ目を示す単語がない場合には、全体を製品カテゴリと判断する。

例えば、第１１レコードと第２レコードの間の共通の文字列は「プリンタ」である。したがって、この条件がないと、「プリンタ」が製品カテゴリで、「カートリッジ」が製品名になってしまう。一般に、製品カテゴリと製品名では、切れ目の手がかりとなる文字が存在する。そこで、この条件によって、「プリンタ」の末尾文字「タ」と「カートリッジ」の先頭文字「カ」の文字種の変化がないので、全体で製品カテゴリとする。

また、共通する部分が、文字列の中間にある場合、例えば、第８レコードと第１レコードの場合である。この場合には、前方の共通しない部分を「製品カテゴリ」に含める。つまり、第８レコードの「ノート」を含めて「ノートパソコン」を製品カテゴリと判断し、「ＮＰＣシリーズ」を製品名と判断する。

一方、ステップ１０９０において、Ｒｉの企業種別とＲｊの企業種別とが同じでない場合、Ｒｉの抽出文字列の変数ｗｏｒｄ＿ｔｙｐｅｉを「いずれでもない」と判断する。そして、ステップ１１３０に進み、カウンタｉが更新されて次のレコードについての選別処理がなされる（ステップ１１１０）。

以上のようにして、Ｒｉの抽出文字列に対して選別処理を行なう。図１１は、各レコードの抽出文字列の選別結果の一覧を示す。

図１１に示すように、第１レコードの「パソコン」は製品カテゴリ、第２レコードの「プリンタ」は製品カテゴリ、第３レコードの「デジカメ」は製品カテゴリ、第４レコードの「ラインナップ」はいずれでもない、第５レコードの「プリンタＰ−ＡＡ」は「プリンタ」が製品カテゴリ及び「Ｐ−ＡＡ」が製品名、第６レコード：「ラインナップ」はいずれでもない、第７レコードの「電気ドリル」は製品名、第８レコードの「ノートパソコンＮＰＣシリーズ」は「ノートパソコン」が製品カテゴリ及び「ＮＰＣシリーズ」が製品名、第９レコードの「デジカメｄｉｇｉｃａｍｅ−１」は「デジカメ」が製品カテゴリ及び「ｄｉｇｉｃａｍｅ−１」が製品名、第１０レコードの「Ｐｒｉｎｔｅｒ−２００４」は製品名、第１１レコードの「プリンタカートリッジ」は製品カテゴリとなる。

最後に、図７に戻り、出力部６は、各レコードごとにｗｏｒｄ＿ｔｙｐｅiを出力する（ステップ２６０）。

（Ｂ−３）第２の実施形態の効果
以上、第２の実施形態によれば、様々な企業サイトのサイトマップや製品一覧の文書に対して、製品カテゴリ名や製品名の抽出処理を実施し、それらの単語の共通の文字列を利用することで、製品カテゴリ名や製品名として適当でない単語を除去できる。さらに、抽出した文字列を、製品名と製品カテゴリに区別することができる。

（Ｃ）他の実施形態
（Ｃ−１）上述した第１及び第２の実施形態では、入力文書をＨＴＭＬ文書として説明したが、それに限らず、他の文書（関連文書）へのハイパーリンクが存在する文書であれば適用可能である。つまり、インターネット上の文書に限定されるものではない。

（Ｃ−２）上述した第１及び第２の実施形態では、企業のサイトマップや製品一覧等から製品カテゴリや製品名を抽出する場合について説明したが、サイトマップや製品一覧に限らず、文書中の特定の範囲に、特定の種類の単語がアンカー文字列となっている文書全般に適用できる。例えば、大学サイト等の組織一覧や人名一覧等において、組織名や人名等を網羅して抽出する場合が考えられる。

（Ｃ−３）上述した第１及び第２の実施形態において、記載範囲決定部２が、特徴単語格納部３の特徴単語と文書を構成する語とを照合することで、文字列マッチングをすることとして説明したが、まず文書について形態素解析を実行した後に、特徴単語と文字列マッチングをするようにしてもよい。これにより、誤った文字区切りでの文字列マッチングを減少させることができる。

（Ｃ−４）上述した第１及び第２の実施形態の変形例として、例えば、アンカー文字列が「製品一覧」など、リンク先の文書にカテゴリ名が記載されていることもある。したがって、このような単語にマッチしたアンカー文字列については、そのリンク先の文書も処理対象にしてもよい。

（Ｃ−５）また、アンカー文字列が製品カテゴリや製品名を含んでいると判断できれば、そのリンク先のページの種別が、製品カテゴリ情報や製品情報を含む文書であるという、文書分類もできる。

（Ｃ−６）上述した第１及び第２の実施形態において、図３のステップ１７０で示した目的ワード抽出部５による文字列の削除は、パターンマッチングや固有表現抽出方式など限らない。例えば、アンカー文字列が所望の特定情報でないと判断できるのであれば、アンカー文字列が長いものや、動詞で終わっているものを除くようにする方法が考えられる。

（Ｃ−７）上述した第２の実施形態において、目的ワード選別部８は、「製品カテゴリ」「製品名」「いずれでもない」のうち１つだけを選別する場合について説明した。しかし、例えば、共通する文字列が多いほど「製品カテゴリ」である確率が高いなどの確率を利用してもよい。

（Ｃ−８）上述した第２の実施形態において、情報抽出システム２０の機能構成は図６に限定されない。つまり、目的ワード抽出部５以外の機能により抽出された情報についても、目的ワード選別部８は種類選別することができる。

（Ｃ−９）上述した第１及び第２の実施形態では、情報抽出システムについて詳細に説明したが、これら情報抽出システムは、情報検索システムや情報提供システムなどに広く利用可能である。

第１の実施形態の情報抽出システムの機能ブロック図である。第１の実施形態の特徴単語格納部の管理項目例を示す図である。第１の実施形態の情報抽出システムの動作フローチャートである。第１の実施形態の入力文書例を示す図である。第１の実施形態の整形された入力文書例を示す図である。第２の実施形態の情報抽出システムの機能ブロック図である。第２の実施形態の情報抽出システムの動作フローチャートである。第２の実施形態の入力情報例を示す図である。第２の実施形態の目的ワード一時記憶部の管理項目例を示す図である。第２の実施形態の種類選別処理の動作フローチャートである。第２の実施形態の種類選別結果の一覧を示す図である。

符号の説明

１…入力部、２…記載範囲決定部２、３…特徴単語格納部、４…リンク抽出部、
５…目的ワード抽出部、６…出力部、７…目的ワード一時記憶部、
８…目的ワード選別部、１０、２０…情報抽出システム。

Claims

関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置であって、
上記各文書中において上記特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて上記文書毎に特定させる記載範囲特定手段と、
上記記載範囲特定手段により特定された上記各文書の記載範囲内で、上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段と、
上記文字列抽出手段により抽出された文字列を上記特定情報として出力させる出力手段と
を備えることを特徴とする情報抽出装置。
少なくとも上記各文書の種別情報を記憶する記憶手段と、
互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段と
を備えることを特徴とする請求項１に記載の情報抽出装置。
関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置であって、
上記各文書から上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段と、
少なくとも上記各文書の種別情報を記憶する記憶手段と、
互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段と
を備えることを特徴とする情報抽出装置。
関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出方法であって、
記載範囲特定手段が、上記各文書中において上記特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて上記文書毎に特定し、
文字列抽出手段が、上記記載範囲特定手段により特定された上記各文書の記載範囲内で、上記参照識別子を構成する文字列を上記文書毎に抽出し、
出力手段が、上記文字列抽出手段により抽出された文字列を上記特定情報として出力する
ことを特徴とする情報抽出方法。
関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出方法であって、
文字列抽出手段が、上記各文書から上記参照識別子を構成する文字列を上記文書毎に抽出し、
記憶手段が、少なくとも上記各文書の種別情報を記憶し、
種類分別手段が、互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別する
ことを特徴とする情報抽出方法。
関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置に、
上記各文書中において上記特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて上記文書毎に特定させる記載範囲特定手段、
上記記載範囲特定手段により特定された上記各文書の記載範囲内で、上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段、
上記文字列抽出手段により抽出された文字列を上記特定情報として出力させる出力手段
として機能させるための情報抽出プログラム。
関連情報にリンクするための参照識別子を有する１又は複数の文書における特定情報を抽出する情報抽出装置に、
上記各文書から上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段、
少なくとも上記各文書の種別情報を記憶する記憶手段、
互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段
として機能させるための情報抽出プログラム。
１又は複数の文書から指示された特定情報を検索する情報検索システムにおいて、請求項１〜３のいずれかに記載の情報抽出装置を備えることを特徴とする情報検索システム。