JP3598738B2

JP3598738B2 - 情報抽出装置、情報検索方法及び情報抽出方法

Info

Publication number: JP3598738B2
Application number: JP15338797A
Authority: JP
Inventors: 雄大中山
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1997-06-11
Filing date: 1997-06-11
Publication date: 2004-12-08
Anticipated expiration: 2017-06-11
Also published as: JPH113347A

Description

【０００１】
【発明の属する技術分野】
本発明は情報抽出装置、情報検索方法及び情報抽出方法に関し、特に情報をノードとノード間のリンクで構成したハイパードキュメントシステムから情報を抽出する情報抽出装置、その情報抽出装置を用いた情報検索方法及び情報抽出方法に関する。
【０００２】
【従来の技術】
ハイパードキュメントシステムでは、取り扱われる情報をいくつかの小さな単位（ノード）に分割し、それらを関連付けて整理している（このような関連付けを示す情報を、リンクと呼ぶ）。例えば、インターネット上では、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）により、ハイパードキュメントシステムが構築されている。ＷＷＷの情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述されている。このＨＴＭＬは、ノード間のリンクに意味的制約がない。このようにノード間のリンクに意味的制約を持たないシステムには、ドキュメントオーサ（作者）が意のままにコンテンツとリンク構造を決めることができるという利点がある。そして、このようなハイパードキュメントシステムにより、ドキュメントリーダ（読者）は、ドキュメントオーサの構築したリンク構造をたどり、そのドキュメントオーサが提供する全ての情報に対してアクセスできる。
【０００３】
ところで、インターネットなどのハイパードキュメントシステムの情報量は膨大である。そのため、ドキュメントリーダが必要な情報を見つけ出すには、情報検索を支援するシステムが必要である。そのような検索を支援する従来技術としては、以下の２つがある。
【０００４】
第１の従来技術は、予めできるだけ大量のノードを（ランダムに）スキャンして各ノードの検索インデックスを用意しておき、ドキュメントリーダからのクエリー（キーワードの組み合わせ）に対してマッチするものを提示するものである。なお、検索インデックス作成およびクエリーとのマッチングに間する要素技術として、統計的言語処理手法であるベクタースペースモデル（Ｇ．Ｓａｌｔｏｎ＆Ｊ．Ａｌｌａｎ，ＴｅｘｔＲｅｔｒｉｅｖａｌＵｓｉｎｇｔｈｅＶｅｃｔｏｒＰｒｏｃｅｓｓｉｎｇＭｏｄｅｌ，ｉｎＰｒｏｃ．ｏｆＳＤＡＩＲ９４）が考案されている。
【０００５】
第２の従来技術は、予めできるだけ大量のノードを（ランダムに）スキャンして、それらをトピックにより分類した木構造のディレクトリに割り当てておくものである。ドキュメントリーダは、欲する情報が含まれると考えられるトピックをディレクトリ上に探し、そこから目指す情報にアクセスする。なお、この技術を実現するための要素技術として、自然言語処理を応用した自動文書分類手法（例えば、Ｐ．Ｊａｃｏｂｓ，ＪｏｉｎｉｎｇＳｔａｔｉｓｔｉｃｓｗｉｔｈＮＬＰｆｏｒＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ，ｉｎＰｒｏｃ．ｏｆＡｐｐｌｉｅｄ−ＡＣＬ９２）が提案されている。さらに、メディアを画像に拡張した自動文書分類手法（ＵｎｉｔｅｄＳｔａｔｅｓＰａｔｅｎｔ：５５２６４４３，Ｔ．Ｎａｋａｙａｍａ（ＦＸＰＡＬ），Ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｈｉｇｈｌｉｇｈｔｉｎｇａｎｄｃａｔｅｇｏｒｉｚｉｎｇｄｏｃｕｍｅｎｔｓｕｓｉｎｇｃｏｄｅｄｗｏｒｄｔｏｋｅｎｓ，ｉｓｓｕｅｄａｔｅ：１９９６．６．１１）も考案されている。
【０００６】
【発明が解決しようとする課題】
しかし、これらの従来技術では、１つのノード（例えば、１つのＨＴＭＬ文書）を１つの検索対象単位とするため、ノードとリンクによる構造で概念を表現するというハイパードキュメントシステムの本質を捉えることができず、以下に示すような問題が生じている。
【０００７】
ある情報をいくつのノードに分割してどのように構造化するかは、ドキュメントオーサの嗜好によるものであるにもかかわらず、ノードを一単位とするような検索では、ハイパーネットワーク上に構造化されたノード群を、大局的にある１つの意味的まとまりを持つ情報として捉えることができない。つまり、従来技術による検索では、意味的に不完全な情報断片だけを検索対象とすることになり、コンテキストが検索に反映されない。
【０００８】
例えば、一人のドキュメントオーサが作成した１つの意味的まとまりをもった情報が、複数のＨＴＭＬ文書に分割されて表現されている場合、従来技術で文書検索を行うと、各ＨＴＭＬ文書が個別の検索対象となる。ここで、ドキュメントリーダが「概念Ａ」に類似する情報を検索すると、当該ドキュメントオーサが作成した情報が全体として「概念Ａ」に類似していても、分割された個々のノードが「概念Ａ」に類似していなければ、この情報（若しくは一部のノード）が検出されることはない。
【０００９】
しかも、１つのノードを検索対象単位とすると、検索要求を表す概念をハイパーネットワーク上の構造で表現することができないという問題点もある。
さらには、ドキュメントオーサが、ある１つの意味的まとまりを持つ情報を複数のノードに分割して構造化した場合、従来の検索ではそれぞれのノードが個別に出力され、冗長性が生じるという問題点もある。一人のドキュメントオーサが１つの意味的まとまりを持つ情報として作成した一連のＨＴＭＬ文書が個別に出力されると、検索結果の量が膨れ上がってしまい、目的に合致した文書を探し出すためのドキュメントリーダの労力が増加してしまう。
【００１０】
本発明はこのような点に鑑みてなされたものであり、意味的まとまりを持つ情報を一単位として情報を抽出できる情報抽出装置を提供することを目的とする。また、本発明の別の目的は、意味的まとまりを持つ情報を一単位として情報を抽出できる情報抽出装置を用いた有効な情報検索方法を提供することである。
【００１１】
また、本発明の他の目的は、意味的まとまりを持つ情報を一単位として情報を抽出できる情報抽出方法を提供することである。
【００１２】
【課題を解決するための手段】
本発明に係る情報抽出装置では、上記課題を解決するために、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、入力された起点ノードからリンクが張られた２次ノードを取得する２次ノード取得手段と、前記２次のノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出する２次ノード特徴抽出手段と、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定する類似性判定手段と、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するノード合成手段と、を有することを特徴とする情報抽出装置が提供される。
【００１３】
この情報抽出装置によれば、起点ノードが入力されると、起点ノード特徴抽出手段によって起点ノードの特徴が抽出されると共に、２次ノード取得手段によって、起点ノードからリンクが張られている２次ノードが取得される。取得された２次ノードは、２次ノード特徴抽出手段によって特徴が抽出される。そして、類似性判定手段により起点ノードと２次ノードとの類似性が判定され、類似した２次ノードが、ノード合成手段によって起点ノードに合成される。
【００１４】
これにより、複数のノードに分割された情報であっても、１つのまとまった情報として取り扱うことが可能となる。
また、本発明に係る情報検索方法では、上記課題を解決するために、コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムにおける情報を検索する情報検索方法において、起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、２次ノード取得手段が、入力された起点ノードからリンクが張られた２次ノードを取得するステップと、２次ノード特徴抽出手段が、前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出するステップと、類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定するステップと、ノード合成手段が、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するステップと、検索手段が、情報抽出装置において合成されたノードを、検索対象の一単位として情報検索を実行するステップと、を有することを特徴とする情報検索方法が提供される。
【００１５】
この情報検索方法によれば、起点ノードと、その起点ノードからリンクが張られたノードとの内容を１つの情報として情報検索を行うことができる。
また、本発明に係る情報抽出プログラムを記録した媒体では、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムの情報をコンピュータに抽出させるための情報抽出プログラムを記録した媒体において、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段、入力された起点ノードからリンクが張られた２次ノードを取得する２次ノード取得手段、前記２次のノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出する２次ノード特徴抽出手段、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定する類似性判定手段、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するノード合成手段、としてコンピュータを機能させるための情報抽出プログラムを記録した媒体が提供される。
【００１６】
この情報抽出プログラムをコンピュータで実行すれば、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、入力された起点ノードからリンクが張られた２次ノードを取得する２次ノード取得手段と、２次のノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出する２次ノード特徴抽出手段と、起点ノード特徴抽出手段が抽出した起点ノードの特徴と２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定する類似性判定手段と、類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するノード合成手段とを、コンピュータ上で構築することができる。その結果、意味的まとまりを持つ情報を一単位とした情報の抽出を、コンピュータに行わせることが可能となる。
【００１７】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図１は、第１の実施の形態に係る情報抽出装置を示すブロック図である。ここで、一人のドキュメントオーサが、ある情報を３つのノード１〜３に分割して、ドキュメントを作成した場合を考える。この例では、ノード１から２つのノード２，３に対してリンクが張られている。そして、情報抽出装置１０に対して、ノード１が起点ノードとして入力されたものとする。
【００１８】
起点ノード特徴抽出手段１１は、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する。抽出した特徴は、起点ノード特徴プロファイル１１ａとして類似性判定手段１４に渡される。ここで、ノードの特徴に関する情報とは、そのノードの内容を特徴付ける単語とその重要度を示す値の対の集合を指す。例えば、起点ノードに出現する各単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、起点ノード特徴プロファイル１１ａを作成する。
【００１９】
２次ノード取得手段１２は、入力された起点ノードからリンクが張られたノード２，３を２次ノードとして取得する。取得した２次ノードは、２次ノード特徴抽出手段１３に渡される。
【００２０】
２次ノード特徴抽出手段１３は、２次ノード取得手段１２が取得した２次ノードの内容を解析し、各２次ノードの特徴を抽出する。抽出した特徴は、２次ノード特徴プロファイル１３ａとして類似性判定手段１４に渡される。２次ノード特徴抽出手段１３も起点ノード特徴抽出手段１１と同様に、２次ノードに出現する各単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、２次ノード特徴プロファイル１３ａを作成することができる。
【００２１】
類似性判定手段１４は、起点ノード特徴抽出手段１１で得られた起点ノードの特徴と２次ノード特徴抽出手段１３で得られた各２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定する。起点ノードに類似すると判断された２次ノードの情報は、ノード合成手段１５に渡される。ノード合成手段１５は、類似性判定手段１４で類似であるとされた２次ノードを起点ノードに合成する。
【００２２】
これにより、起点ノードに対して、そのノードに類似する２次ノードを合成した合成ノード４が得られる。
なお、この情報抽出装置に対する起点ノードの入力は、例えば、従来のハイパードキュメントの情報検索において予めノードを（ランダムに）スキャンした際に得られたノードを、起点ノードとして入力する。この場合、本発明の情報抽出装置１０から出力される合成ノード４が検索対象となる。
【００２３】
このような構成の情報抽出装置によって行われる処理の詳細を、以下に説明する。
まず、特徴抽出の処理手順について説明する。
【００２４】
図２は、特徴抽出処理の流れを示すフローチャートである。このフローチャートでは、起点ノードを受け取った起点ノード特徴抽出手段１１の処理として説明するが、２次ノードを受け取った２次ノード特徴抽出手段１３が行う処理も同様の処理である。以下、各処理をステップ番号に沿って説明する。
〔Ｓ１〕起点ノードが与えられ、その情報ソースが起点ノード特徴抽出手段１１に入力される。
〔Ｓ２〕情報ソースから、ハイパードキュメントシステム記述言語（例えば、ＨＴＭＬ）で定義されたタグを除去する。
〔Ｓ３〕既知の形態素解析技術を用いて、残されたテキストから単語を抽出する。
〔Ｓ４〕ステップＳ３で得られた単語の集合から重要単語だけを抽出する。ここで、重要単語とは情報ソースの内容を特徴付けている単語のことであり、例えば、名詞だけを重要単語とするといった方法で抽出する。
〔Ｓ５〕ステップＳ４で得られた重要単語に対して、出現頻度や出現位置を考慮して、重み付けをする。すなわち、出現頻度の高い単語ほど重要度を高くする。また、出現位置が文書の先頭に近いほど重要度を高くする。
〔Ｓ６〕最後に、重要単語とその重みとの組からなるリストを作成し、これを起点ノード特徴プロファイル１１ａとする。
【００２５】
このようにして得られた、起点ノードの特徴プロファイル１１ａ（単数）は、類似性判定手段１４に渡される。
また、起点ノードは、２次ノード取得手段１２にも渡されており、２次ノード取得手段１２は、受け取ったノード１の情報ソースに含まれるリンク情報を検索し、そのリンク先のノードを２次ノードとして取得する。例えば、起点ノードがＨＴＭＬで作成されていれば、アンカータグ（＜Ａ＞．．．＜／Ａ＞）で囲まれた領域内のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を抽出し、そのＵＲＬで指定された文書（２次ノード）を取得する。
【００２６】
２次ノード取得手段１２が取得した２次ノードの集合は、２次ノード特徴抽出手段１３に渡される。そして、２次ノード抽出手段１２によって、図２に示したフローチャートと同様の処理が実行され、各２次ノードに対する２次ノード特徴プロファイル１３ａが作成される。その２次ノードの特徴プロファイル１３ａ（一般に複数）は、類似性判定手段１４に渡される。これにより、類似性判定手段１４には、起点ノード特徴プロファイル１１ａと複数の２次ノード特徴プロファイル１３ａとが渡されたことになる。
【００２７】
次に、図１の類似性判定手段１４において実行される処理の流れの具体例を説明する。
図３は、類似性判定手段の処理手順を示すフローチャートである。以下の処理をステップ番号に沿って説明する。
〔Ｓ１１〕変数「ｎ」に対して、ｎ＝１という初期化を行う。また、２次ノード取得手段１２が取得した２次ノードの数を変数「ｍ」に代入する。ここで、２次ノード特徴プロファイルは、１〜ｍの順番に並べられる。
〔Ｓ１２〕起点ノードの特徴プロファイルを取得する。
〔Ｓ１３〕ｎとｍの大小を比較して、ｎ＞ｍであれば処理を終了し、そうでなければステップＳ１４に進む。
〔Ｓ１４〕ｎ番目の、２次ノードの特徴プロファイルを取得する。
〔Ｓ１５〕ステップＳ１２で得られた起点ノード特徴プロファイルとステップＳ１４で得られた２次ノード特徴プロファイルとの類似度を計算する。この類似度計算には、既知のベクター内積演算手法を用いる。
〔Ｓ１６〕ステップＳ１５で得られた類似度の値と閾値を比較して、類似度＞閾値であれば、ステップＳ１７に進み、そうでなければ、ステップＳ１８に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。類似度をベクター内積演算手法で計算した場合には、閾値の値としては、例えば０．１程度の値を設定する。
〔Ｓ１７〕類似度が閾値より大きければ、ｎ番目の２次ノードを起点ノードへ合成するノードの候補として記憶する。
〔Ｓ１８〕ｎの値に１を加算して、ステップＳ１３に進む。
【００２８】
これにより、順番が１〜ｍの各２次ノード特徴プロファイルについて、起点ノード特徴プロファイルとの間の類似性の有無が判定される。そして、ステップＳ１７において、合成するノードの候補として記憶された２次ノードの集合と、起点ノードとがノード合成手段１５に渡される。最後に、ノード合成手段１５が、起点ノードに、類似性有りと判定された全ての２次ノードを合成し、合成ノード４とする。
【００２９】
このようにして得られた合成ノード４を情報検索の対象とすれば、例えば、「概念Ａ」に類似する情報を検索した場合に、ノード１単独では「概念Ａ」と非類似であっても、ノード１と２次ノードとを合成した合成ノードと「概念Ａ」とが類似していれば、検索結果としてノード１を得ることができる。ノード１を得たユーザは、そのノード１からリンクをたどり、目的の「概念Ａ」に類似する情報の全てにアクセスできる。
【００３０】
なお、起点ノード特徴抽出手段１１若しくは２次ノード特徴抽出手段１３が重要単語の重み付けをする際に、ＨＴＭＬなどのタグにより強調されている文字を、重要度の高い単語とすることもできる。それには、図２の処理の順番を入れ替え、ステップＳ２の処理を、ステップＳ５とステップＳ６との間で行う必要がある。さらに、ステップＳ３の単語抽出処理においては、文字を強調するためのタグと、そのタグの中に記載されている文字とは、分離せずに抽出する。文字を強調するタグに囲まれた領域から複数の単語を抽出する際には、それぞれの単語に対して、タグの情報を付加しておく。これにより、重要単語の重み付けをする際に、どの単語が強調表示されていたのかを識別できる。
【００３１】
次に、本発明の第２の実施の形態について説明する。
図４は、第２の実施の形態に係る情報抽出装置の構成を示す図である。この実施の形態は、図１に示した情報抽出装置１０に対して、ノードパス名による新規ノード取得判定機能を付加した情報抽出装置２０の例である。なお、この実施の形態における起点ノード特徴抽出手段２１、２次ノード特徴抽出手段２３、類似性判定手段２４及びノード合成手段２５は、図１に示すの同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【００３２】
この実施の形態の情報抽出装置２０において、ノードパス名記憶手段２６は、起点ノードが入力された際に、起点ノードからノードパス名を抽出し、そのノードパス名を格納する。したがって、初期状態では起点ノードのパス名のみが記憶されている。そして、２次ノード取得判定手段２８からの要求に応じて、格納しているノードパス名を送出するとともに、２次ノード取得判定手段２８から順次送られる２次ノードのパス名を記憶していく。
【００３３】
２次ノードパス名取得手段２７は、起点ノードとして入力されたノードからリンク付けられている全ての２次ノードのパス名を抽出する。抽出したパス名は、２次ノード取得判定手段２８に渡す。
【００３４】
２次ノード取得判定手段２８は、ノードパス名記憶手段２６において記憶されているノードパス名と、２次ノードパス名取得手段２７から渡された２次ノードのパス名が同一であるか否かを判定し、同一でないと判定された２次ノードのパス名は、ノードパス名記憶手段２６と２次ノード取得手段２２とに渡す。
【００３５】
２次ノード取得手段２２の機能は、第１の実施の形態の２次ノード取得手段１２（図１に示す）と若干異なる。この実施の形態における２次ノード取得手段２２は、起点ノードからリンクが張られている全ての２次ノードを取得するのではなく、２次ノード取得判定手段２８からパス名が渡された全ての２次ノードを取得する。すなわち、２次ノード取得判定手段２８によりノードパス名記憶手段２６に同一のパス名が存在しないと判定された２次ノードのみを取得する。取得した２次ノードは、２次ノード特徴抽出手段２３に渡す。
【００３６】
ここで、上記の情報抽出装置２０に、ノード１ａが起点ノードとして入力された場合を考える。なお、ノード１ａには、ノード２ａ，３ａへのリンクが重複して設けられているものとする。
【００３７】
情報抽出装置２０にノード１ａが起点ノードとして入力されると、起点ノード特徴抽出手段２１によって、ノード１ａの内容が解析され、ノード１ａの特徴が起点ノード特徴プロファイルとして類似性判定手段２４に渡される。また、ノードパス名記憶手段２６が初期化され、ノード１ａのノードパス名がノードパス名記憶手段２６に記憶される。さらに、２次ノードパス名取得手段２７によって、ノード１ａからリンクが張られているノード２ａ，３ａのパス名が抽出され、２次ノード取得判定手段２８に渡される。この例では、ノード２ａ，３ａのパス名は複数個抽出される。
【００３８】
すると、２次ノード取得判定手段２８により、ノード２ａ，３ａのパス名がノードパス名記憶手段２６に格納されているか否かが判定される。ノード２ａ、３ａのパス名は複数抽出されるため、最初の判定ではノードパス名記憶手段２６には格納されていないと判定され、そのノードパス名はノードパス名記憶手段２６に格納されると共に、２次ノード取得手段２２に渡される。そして、２回目以降の判定では、ノード２ａ、３ａのパス名はノードパス名記憶手段２６に格納されていると判定される。ノードパス名記憶手段２６に格納されていないと判定されたノードパス名のみが２次ノード取得手段２２に渡されるため、結果的に、ノード２ａとノード３ａとのノードパス名がそれぞれ１つずつ２次ノード取得手段２２に渡される。
【００３９】
２次ノード取得手段２２は、２次ノード取得判定手段２８から受け取ったノード２ａ，３ａのパス名に基づいて、それぞれのノード２ａ，３ａを取得する。取得したノード２ａ，３ａの内容は、２次ノード特徴抽出手段２３に渡される。
【００４０】
すると、２次ノード特徴抽出手段２３によりノード２ａ，３ａのそれぞれの内容の特徴が抽出され、その特徴に関する情報が類似性判定手段２４に渡される。そして、類似性判定手段２４により、起点ノード特徴抽出手段２１で抽出された内容の特徴と２次ノード特徴抽出手段２３で抽出された内容の特徴の比較が行われ、類似性が判定される。類似であると判定された場合には、そのノードの内容が、ノード合成手段２５によって起点ノードに合成され、合成ノード４ａが生成される。
【００４１】
これにより、２次ノードに対して重複してリンクが張られている場合であっても、各２次ノードは１度ずつしか取得されない。したがって、１つの２次ノードが重複して起点ノードに合成されてしまうことがなくなるとともに、無駄な処理を省くことができる。
【００４２】
ところで、この第２の実施の形態を、後述する関連ノードとの類似判断を行う場合（起点ノードからリンクをたどることによりアクセス可能な全てのノード若しくはその一部との類似判断を行う場合）に適用すると、処理の効率を非常に向上させることができる。すなわち、複数のノードから同じノードへリンクが張られていることはよくあるため、その場合の重複した処理を排除できる。
【００４３】
次に、本発明の第３の実施の形態について説明する。
図５は、第３の実施の形態に係る情報抽出装置の構成を示す図である。これは、ノードが存在するサーバの情報による新規ノード取得判定機能を付加した情報抽出装置３０の例である。なお、この実施の形態における起点ノード特徴抽出手段３１、２次ノード取得手段３２、２次ノード特徴抽出手段３３、類似性判定手段３４及びノード合成手段３５は、図１に示す同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【００４４】
この図において、起点サーバ名抽出手段３６は、ある起点ノードが与えられたときに、そのノードのパス名を解析してそのノードが存在するサーバを特定する。そして、特定したサーバ名を記憶する。記憶されたサーバ名は、２次ノード取得判定手段３８に渡される。
【００４５】
２次ノードサーバ名抽出手段３７は、起点ノードからリンク付けられている全ての２次ノードのパス名を解析して、そのノードが存在するサーバを特定する。そして、特定したサーバ名と２次ノードのパス名との対を、２次ノードサーバ名情報として記憶する。
【００４６】
２次ノード取得判定手段３８は、起点サーバ名抽出手段３６に記憶された起点ノードのサーバ名と、２次ノードサーバ名抽出手段３７に記憶された各２次ノードのサーバ名とを既知のパタンマッチング技術を用いて解析し、それらが同一のものであるか否かを判定する。同一であると判断した場合には、該当する２次ノードのサーバ名と対になっている２次ノードのパス名を、２次ノード取得手段３２に渡す。
【００４７】
ここで、サーバ４１に格納されているノード４１ａを起点ノードとして入力する場合を考える。なお、ノード４１ａからは、同じサーバ４１内のノード４１ｂと、異なるサーバ４２内のノード４２ａに対してリンクが張られているものとする。
【００４８】
情報抽出装置３０にノード４１ａが起点ノードとして入力されると、起点ノード特徴抽出手段３１によって、ノード４１ａの内容が解析され、ノード４１ａの特徴が起点ノード特徴プロファイルとして類似性判定手段３４に渡される。また、起点サーバ名抽出手段３６により、ノード４１ａが格納されているサーバ４１のサーバ名が抽出され、記憶される。さらに、２次ノードサーバ名抽出手段３７により、ノード４１ａからリンク付けられている２つのノード４１ｂ，４２ａのパス名と、そのパス名に含まれるサーバ名とが抽出され、それらの対が記憶される。
【００４９】
そして、２次ノード取得判定手段３８により、起点ノードであるノード４１ａのサーバ名と、２次ノードであるノード４１ｂ，４２ａのサーバ名とが比較され、同一か否かが判定される。その結果、ノード４１ｂのサーバ名はノード４１ａのサーバ名と同一であり、ノード４２ａのサーバ名はノード４１ａのサーバ名と異なることが判定され、ノード４１ｂのパス名のみが２次ノード取得手段３２に渡される。
【００５０】
２次ノード取得手段３２は、２次ノード取得判定手段３８から受け取ったノード４１ｂのパス名に基づいて、そのノード４１ｂを取得する。取得したノード４１ｂの内容は、２次ノード特徴抽出手段３３に渡される。すると、２次ノード特徴抽出手段３３によりノード４１ｂの内容の特徴が抽出され、その特徴に関する情報が類似性判定手段３４に渡される。そして、類似性判定手段３４により、起点ノード特徴抽出手段３１で抽出された内容の特徴と２次ノード特徴抽出手段３３で抽出された内容の特徴の比較が行われ、類似性が判定される。類似であると判定された場合には、そのノードの内容が、ノード合成手段３５によって起点ノードに合成され、合成ノード４１ｃが生成される。
【００５１】
これにより、同一ノード内の２次ノードのみが類似性判断の対象となり、他のサーバ内のノードへリンクが張られていても、そのノードにはアクセスしない。そのため、処理が簡略化され高速化が図れる。なお、一人のドキュメントオーサが作成した１つの意味的まとまりをもった情報は、同じサーバ内に格納されていることがほとんどである。したがって、他のサーバに格納された２次ノードを処理対象から除外しても、生成される合成ノード４１ｃには、ノード４１ａを作成したドキュメントオーサの意図が十分に反映される。
次に、本発明の第４の実施の形態について説明する。
【００５２】
図６は、第４の実施の形態に係る情報抽出装置の構成を示す図である。この情報抽出装置５０は、図１に示した情報抽出装置１０に、再帰的処理を付加したものである。なお、この実施の形態における起点ノード特徴抽出手段５１及びノード合成手段２５は、図１に示すの同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【００５３】
関連ノード取得手段５２は、起点ノードが入力された際に、そのノードからリンクが張られている２次ノードを取得するとともに、取得したノードからさらにリンクが張られているノード（関連ノード）を順次取得する。そして、他のノードへのリンクがなくなるまで行う。この時の取得される２次ノードより後の各ノードを、Ｎ次ノードとする（Ｎ＝３，４，．．．）。
【００５４】
関連ノード特徴抽出手段５３は、関連ノード取得手段５２が抽出した２次〜Ｎ次の各ノードの特徴を抽出し、関連ノード特徴プロファイルを作成する。作成した関連ノード特徴プロファイルは、類似性判定手段５４に渡す。
【００５５】
類似性判定手段５４は、関連ノード特徴抽出手段５３が作成した関連ノード特徴プロファイルに基づいて、起点ノードからリンクを辿ることによりアクセス可能な全てのノードの起点ノードに対する類似性の判断処理を行う。そして、類似しているノードの内容を、ノード合成手段５５に渡す。類似性判定手段５４の処理の詳細を以下に示す。
【００５６】
図７は、再帰的な類似性判定処理の流れを示すフローチャートである。この処理は全て類似性判定手段５４によって行われる。
〔Ｓ２１〕Ｎ＝２という初期化を行う。
〔Ｓ２２〕Ｎ次ノードが存在するか否かが判定される。存在すればステップＳ２３に進み、そうでなければ処理を終了する。
〔Ｓ２３〕ｐ＝１という初期化を行う。また、Ｎ次ノードの個数をｍとする。
〔Ｓ２４〕ｐとｍの大小を比較して、ｐ＞ｍであればステップＳ２９に進み、そうでなければステップＳ２５に進む。
〔Ｓ２５〕起点ノードとｐ番目のＮ次ノードの類似度を前述の方法（既知のベクター内積演算手法）で計算する。
〔Ｓ２６〕ステップＳ２５で得られた類似度の値と閾値を比較して、類似度＞閾値であれば、ステップＳ２７に進み、そうでなければ、ステップＳ２８に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。
〔Ｓ２７〕ｐ番目のＮ次ノードを起点ノードへ合成するノードの候補として記憶する。
〔Ｓ２８〕ｐの値に１を加算して、ステップＳ２４に進む。
〔Ｓ２９〕Ｎの値に１を加算して、ステップＳ２２に進む。
【００５７】
これにより、起点ノードからリンクを辿ることによりアクセス可能な全てのノードの中から、起点ノードに類似した内容を有するものが抽出される。
ここで、ノード６１を起点ノードとして入力する場合を考える（図６参照）。なお、ノード６１からは、２つのノード６２，６３へリンクが張られている。これらのノード６２，６３が２次ノードとなる。ノード６２，６３からも他のノードへリンクが張られており、最終的にノード６４〜６６までリンクが張られている。
【００５８】
ノード６１が情報抽出装置５０に入力されると、起点ノード特徴抽出手段５１によって、ノード６１の内容が解析され、ノード６１の特徴が起点ノード特徴プロファイルとして類似性判定手段５４に渡される。また、関連ノード取得手段５２によって、ノード６１からリンクが張られているノード６２，６３のノードパス名を抽出し、ノード６２，６３を取得する。さらに、ノード６２，６３からリンクを辿ることによりアクセスできるノードをＮ次のノード６４〜６６まで全て取得する。取得したノードは、関連ノード特徴抽出手段５３に渡される。そして、関連ノード特徴抽出手段５３によって各ノードの内容の特徴が抽出され、関連ノード特徴プロファイルが作成される。すると、類似性判定手段５４により、ノード６１に類似する内容を有している関連ノードが全て抽出される。そして、抽出された全てのノードが、ノード合成手段５５により起点ノードに合成され、合成ノード６１ａが生成される。
【００５９】
このように、起点ノードから直接リンクが張られている２次ノードに限らず、起点ノードからリンクを辿ることによりアクセス可能な全てのノードを、類似性の判断対象とすることにより、ドキュメントオーサが多階層によるハイパードキュメントを作成しても、それらの全てを１つのまとまりとして情報抽出の対象とすることができる。
【００６０】
次に、第５の実施の形態について説明する。この実施の形態は、ローカルな制約で制御される再帰的処理を付加した情報抽出装置の例である。具体的には、Ｎ次ノードとその親のノードとの間の類似性に基づいて、そのノードを合成すべきか否かを判断するものである。なお、この実施の形態に必要な構成要素は第４の実施の形態と同じであるが、類似性判定手段が実行する処理内容が異なる。そこで、第５の実施の形態における類似性判定手段の処理手順を以下に説明する。
【００６１】
図８は、第５の実施の形態における類似性判定処理を示すフローチャートである。
〔Ｓ３１〕Ｎ＝２という初期化を行う。
〔Ｓ３２〕Ｎ次ノードが存在するか否かが判定される。存在すればステップＳ３３に進み、そうでなければ処理を終了する。
〔Ｓ３３〕ｐ＝１という初期化を行う。また、Ｎ次ノードの個数をｍとする。
〔Ｓ３４〕ｐとｍの大小を比較して、ｐ＞ｍであればステップＳ３９に進み、そうでなければステップＳ３５に進む。
〔Ｓ３５〕ｐ番目のＮ次ノードとその親ノード（つまり、Ｎ−１次ノードのうち該ｐ番目のＮ次ノードをリンクで指したもの）の類似度を既知のベクター内積演算手法で計算する。
〔Ｓ３６〕ステップＳ３５で得られた類似度の値と閾値を比較して、類似度＞閾値であれば、ステップＳ３７に進み、そうでなければ、ステップＳ３８に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。
〔Ｓ３７〕ｐ番目のＮ次ノードを起点ノードへ合成するノードの候補として記憶する。
〔Ｓ３８〕ｐの値に１を加算して、ステップＳ３４に進む。
〔Ｓ３９〕Ｎの値に１を加算して、ステップＳ３２に進む。
【００６２】
このような処理を類似性判定手段が行うことにより、起点ノードでは本題の内容にあまり踏み込まずに、２次ノード以降において詳細な記載をしている場合であっても、親子関係にあるノード間で類似した内容が記載されいれば、その記載内容を合成ノードに含めることができる。
【００６３】
次に第６の実施の形態について説明する。
図９は、第６の実施の形態に係る情報抽出装置の構成を示す図である。この実施の形態は、グローバルな制約で制御される再帰的処理を付加した情報抽出装置の例である。具体的には、類似していると判断されたノードをその都度起点ノードに合成していき、関連ノードとそれ以前に作成されている合成ノードとの間の類似性に基づき、そのノードを合成すべきか否かを判断するものである。なお、この実施の形態における起点ノード特徴抽出手段７１、関連ノード取得手段７２及び関連ノード特徴抽出手段７３は、図６に示すの同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【００６４】
類似性判定手段７４は、起点ノードが入力された場合、及び類似した関連ノードが未検出の場合には、起点ノード特徴抽出手段７１が作成した起点ノード特徴プロファイルと、関連ノード特徴抽出手段７３が作成した関連ノード特徴プロファイルとの類似性を判断し、類似してる場合にはノード合成手段７５へ、起点ノードの内容と関連ノードの内容とを渡す。また、類似した関連ノードが検出された後は、後述する合成ノード特徴抽出手段７６が作成した合成起点ノード特徴プロファイルと、関連ノード特徴抽出手段７３が作成した関連ノード特徴プロファイルとの類似性を判断し、類似してる場合にはノード合成手段７５へ、関連ノードの内容を渡す。
【００６５】
ノード合成手段７５は、類似性判定手段７４から起点ノードの内容と関連ノードの内容とを受け取ると、それらを合成し、その合成ノードを保持すると共にその複製を合成ノード特徴抽出手段７６に渡す。また、類似性判定手段７４から関連ノードを受け取ると、それ以前に作成した合成ノードの内容と受け取った関連ノードの内容とを合成し、その合成ノードを保持すると共にその複製を合成ノード特徴抽出手段７６に渡す。また、全ての関連ノードに関する類似性の判断が終了すると、その時点で保持している合成ノード６１ｂを出力する。
【００６６】
合成ノード特徴抽出手段７６は、ノード合成手段７５から合成ノードを受け取ると、その合成ノードの内容を解析して特徴部分を抽出し、合成ノード特徴プロファイルを作成する。作成した合成ノード特徴プロファイルは、類似性判定手段７４に渡す。
【００６７】
図１０は、第６の実施の形態における類似性判定及び合成ノード作成処理を示すフローチャートである。
〔Ｓ４１〕類似性判定手段７４が、Ｎ＝２という初期化を行う。
〔Ｓ４２〕類似性判定手段７４が、Ｎ次ノードが存在するか否かを判定する。存在すればステップＳ４３に進み、そうでなければ処理を終了する。
〔Ｓ４３〕類似性判定手段７４が、ｐ＝１という初期化を行う。また、Ｎ次ノードの個数をｍとする。
〔Ｓ４４〕類似性判定手段７４が、ｐとｍの大小を比較して、ｐ＞ｍであればステップＳ５０に進み、そうでなければステップＳ４５に進む。
〔Ｓ４５〕類似性判定手段７４が、ｐ番目のＮ次ノードと合成ノード（つまり、この処理が行われるまでに合成されて得られたノード合成作業は後述のステップＳ４７において実施される）の類似度を前述の方法で計算する。
〔Ｓ４６〕類似性判定手段７４が、ステップＳ４５で得られた類似度の値と閾値を比較する。その結果、類似度＞閾値であれば、ステップＳ４７に進み、そうでなければ、ステップＳ４９に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。
〔Ｓ４７〕ノード合成手段７５が、ｐ番目のＮ次ノードを合成ノードに合成する。なお、初期の合成ノードは起点ノードを指す。
〔Ｓ４８〕合成ノード特徴抽出手段７６が、ステップＳ４７で作成された合成ノードの合成ノード特徴プロファイルを作成する。
〔Ｓ４９〕類似性判定手段７４が、ｐの値に１を加算して、ステップＳ４４に進む。
〔Ｓ５０〕類似性判定手段７４が、Ｎの値に１を加算して、ステップＳ４２に進む。
【００６８】
このように類似したノードを順次合成していくことにより、１つの意味内容を持つ情報が細分化され、個々のノードの内容が希薄なものであっても、複数の内容を合成した情報に基づいて個々の関連ノードの類似性の判断を行うことができ、最終的に、ドキュメントオーサの作成意図に沿った内容の合成ノードを得ることができる。
【００６９】
次に、第４、第５、第６の各実施の形態の変形例について説明する。
この変形例は、最大のＮ次ノードを予め設定しておくものである。すなわち、Ｎ次ノードの最大をＭと設定しておき、各実施の形態の類似性判定処理中の、ステップＳ２２、Ｓ３２、Ｓ４２（それぞれ図７、図８、図１０に示す）の処理を、以下のような処理に置き換える。
〔Ｓ２２’〕Ｎ＞Ｍであるか否かを判断し、Ｎ＞Ｍでなければ次の処理（第４の実施の形態ではステップＳ２３、第５の実施の形態ではステップＳ３３，第６の実施の形態ではステップＳ４３）へ進み、Ｎ＞Ｍであれば処理を終了する。ここで、Ｍは、予め設定される２以上の自然数である。
【００７０】
これにより、Ｎ＞Ｍとなった時点で処理を終了させることができ、必要以上に深い階層のリンク先まで類似性判定の対象とすることがなくなる。その結果、処理の高速化が図れる。
【００７１】
また、第４、第５、第６の各実施の形態の変形例として、各実施の形態の類似性判定処理中の、ステップＳ２６、Ｓ３６、Ｓ４６（それぞれ図７、図８、図１０に示す）の処理を、以下のような処理に置き換えてもよい。
〔Ｓ２６’〕直前のステップで得られた類似度の値と閾値を比較して、類似度＞閾値であれば、合成候補への追加ステップ（第４の実施の形態ではステップＳ２７、第５の実施の形態ではステップＳ３７、第６の実施の形態ではステップＳ４７）に進み、そうでなければ、類似でないと判定されたＮ次ノードからは、Ｎ＋１次ノードを取得しないように設定した後、ｐに１を加算する処理（第４の実施の形態ではステップＳ２８、第５の実施の形態ではステップＳ３８、第６の実施の形態ではステップＳ４９）に進む。
【００７２】
これにより、本題から話題がそれたノードよりも先のノードは類似性判定の対象から除外され、処理の高速化が図れる。
ところで、上記の各実施の形態（若しくはその変形例）で得られた合成ノードを検索対象の一単位とすれば、ハイパードキュメントの検索処理の実効を向上させることができる。
【００７３】
図１１は、検索の対象となるノードとリンクの構造の例を示す図である。この図において、起点ノード８１からは、２次ノード８２および２次ノード８３にリンクがはられている。２次ノード８２，８３からもＮ次ノード８４（Ｎ＝３，４，．．．）、Ｎ次ノード８５（Ｎ＝３，４，．．．）、およびＮ次ノード８６（Ｎ＝３，４，．．．）にリンクがはられている。従来のハイパードキュメント検索手法では、各個別ノード（この例では６個）がそれぞれ検索対象であったが、本発明では、例えばノード８１、ノード８２、ノード８３、およびノード８５が類似であると判定された場合、これらすべてのノードを合成してひとつの検索対象とすることができる。これにより、あるひとつの意味的まとまりを持つ情報を複数のノードに分割して構造化しても、検索を行った際にそれぞれのノードが個別に出力されることがない。そのため、検索を行ったユーザへの負担が軽減される。
【００７４】
また上述の各実施の形態（若しくはその変形例）で得られた合成ノードを、検索クエリーの一単位とすることもできる。例えば、図１１において、ノード８１が検索クエリーに指定され、そのときノード８１、ノード８２、ノード８３、およびノード８５が類似であると判定された場合、これらすべてのノードを合成してひとつの検索クエリーとしてもよい。
【００７５】
これにより、ハイパードキュメントのリンク構造に関する情報の加味した検索を行うことができ、より検索意図に沿った検索結果を得ることができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、各情報抽出装置が有しているべき機能の処理内容は、コンピュータで読み取り可能な記録媒体に記録されたプログラムに記述されており、このプログラムをコンピュータで実行することにより、上記処理がコンピュータで実現される。コンピュータで読み取り可能な記録媒体としては、磁気記録装置や半導体メモリ等がある。市場を流通させる場合には、ＣＤ−ＲＯＭやフロッピーディスケット等の可搬型記録媒体にプログラムを格納して流通させたり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。コンピュータで実行する際には、コンピュータ内のハードディスク装置等にプログラムを格納しておき、メインメモリにロードして実行する。
【００７６】
【発明の効果】
以上説明したように本発明に係る情報抽出装置では、起点ノードと、その起点ノードからリンクが張られている２次ノードとの類似性を判定し、類似した２次ノードを起点ノードに合成するようにしたため、意味的まとまりを持つ情報がハイパードキュメントのノード群として構築されていても、それらを、ある１つの意味的まとまりを持つ情報として捉えることが可能となる。
【００７７】
また、本発明に係る情報検索方法では、情報抽出装置で合成されたノードを検索の対象の一単位としたため、起点ノードのみでは検索条件に合致しない場合でも、合成されたノードが検索条件に適合していれば当該ノードを検索結果として取得することができる。
【００７８】
また、本発明に係る情報抽出プログラムを格納した媒体では、格納されている情報抽出プログラムをコンピュータで実行させることにより、起点ノードをコンピュータへ入力すれば、起点ノードと、その起点ノードに類似する２次ノードとを合成したノードを取得することができ、ハイパードキュメントにおける意味的まとまりを持つ情報を一単位とした情報の抽出をコンピュータに行わせることが可能となる。
【図面の簡単な説明】
【図１】第１の実施の形態に係る情報抽出装置を示すブロック図である。
【図２】特徴抽出処理の流れを示すフローチャートである。
【図３】類似性判定手段の処理手順を示すフローチャートである。
【図４】第２の実施の形態に係る情報抽出装置の構成を示す図である。
【図５】第３の実施の形態に係る情報抽出装置の構成を示す図である。
【図６】第４の実施の形態に係る情報抽出装置の構成を示す図である。
【図７】再帰的な類似性判定処理の流れを示すフローチャートである。
【図８】第５の実施の形態における類似性判定処理を示すフローチャートである。
【図９】第６の実施の形態に係る情報抽出装置の構成を示す図である。
【図１０】第６の実施の形態における類似性判定及び合成ノード作成処理を示すフローチャートである。
【図１１】検索の対象となるノードとリンクの構造の例を示す図である。
【符号の説明】
１〜３ノード
４合成ノード
１０情報抽出装置
１１起点ノード特徴抽出手段
１１ａ起点ノード特徴プロファイル
１２２次ノード取得手段
１３２次ノード特徴抽出手段
１３ａ２次ノード特徴プロファイル
１４類似性判定手段
１５ノード合成手段

Claims

情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
入力された起点ノードからリンクが張られた２次ノードを取得する２次ノード取得手段と、
前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出する２次ノード特徴抽出手段と、
前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定する類似性判定手段と、
前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するノード合成手段と、
を有することを特徴とする情報抽出装置。
前記起点ノード特徴抽出手段は、起点ノードに出現する単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、起点ノードの特徴を抽出し、
前記２次ノード特徴抽出手段は、２次ノードに出現する単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、２次ノードの特徴を抽出する、
ことを特徴とする請求項１記載の情報抽出装置。
ノードのパス名を保持するノードパス名記憶手段と、
入力された起点ノードからリンクが張られた２次ノードのパス名を取得する２次ノードパス名取得手段と、
前記２次ノードパス名取得手段が取得した２次ノードのパス名が、前記ノードパス名記憶手段に保持されているか否かを判定し、保持されていないと判定された２次ノードを前記ノードパス名記憶手段に格納する２次ノード取得判定手段とをさらに有し、
前記２次ノード取得手段は、前記２次ノード取得判定手段によって、前記ノードパス名記憶手段に保持されていないと判定された２次ノードのみを取得することを特徴とする請求項１の情報抽出装置。
入力された起点ノードのパス名から起点ノードが存在するサーバ名を抽出する起点サーバ名抽出手段と、
入力された起点ノードからリンクが張られた２次ノードから２次ノードが存在するサーバ名を抽出する２次ノードサーバ名抽出手段と、
前記２次ノードサーバ名抽出手段が抽出した２次ノードのサーバ名が、前記起点サーバ名抽出手段が抽出した起点ノードのサーバ名と同一であるか否かを判定する２次ノード取得判定手段とをさらに有し、
前記２次ノード取得手段は、前記２次ノード取得判定手段により、起点ノードのサーバ名と同一のサーバ名であると判定された２次ノードのみを取得することを特徴とする請求項１記載の情報抽出装置。
情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
入力された起点ノードからのリンクをたどることによりアクセス可能な関連ノードを取得する関連ノード取得手段と、
前記関連ノード取得手段が取得した関連ノードの内容を解析し、関連ノードの特徴を抽出する関連ノード特徴抽出手段と、
前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記関連ノード特徴抽出手段が抽出した関連ノードの特徴とを比較し、起点ノードに対する関連ノードの類似性を判定する類似性判定手段と、
前記類似性判定手段で類似であるとされた関連ノードを起点ノードに合成するノード合成手段と、
を有することを特徴とする情報抽出装置。
情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
入力された起点ノードからのリンクをたどることによりアクセス可能な関連ノードを取得する関連ノード取得手段と、
前記関連ノード取得手段が取得した関連ノードの内容を解析し、関連ノードの特徴を抽出する関連ノード特徴抽出手段と、
前記関連ノード特徴抽出手段が抽出した関連ノードの特徴を、前記起点ノード特徴抽出手段若しくは前記関連ノード特徴抽出手段によって抽出された親ノードの特徴と比較し、親ノードに対する関連ノードの類似性を判定する類似性判定手段と、
前記類似性判定手段で類似であるとされた関連ノードを起点ノードに合成するノード合成手段と、
を有することを特徴とする情報抽出装置。
情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
入力された起点ノードからのリンクをたどることによりアクセス可能な関連ノードを取得する関連ノード取得手段と、
前記関連ノード取得手段が取得した関連ノードの内容を解析し、関連ノードの特徴を抽出する関連ノード特徴抽出手段と、
類似ノードが与えられるたびに、類似ノードを起点ノードに合成していき合成ノードを生成するノード合成手段と、
前記ノード合成手段が生成した合成ノードの内容を解析し、合成ノードの特徴を抽出する合成ノード特徴抽出手段と、
起点ノードが入力された初期段階では起点ノードを比較対象ノードとし、類似ノードが検出された後は合成ノードを比較対象ノードとし、前記関連ノード特徴抽出手段が抽出した関連ノードの特徴を、前記起点ノード特徴抽出手段若しくは前記合成ノード特徴抽出手段によって抽出された比較対象ノードの特徴と比較し、比較対象ノードに対する関連ノードの類似性を判定し、比較対象ノードに類似していると判定された関連ノードを類似ノードとして前記ノード合成手段に与える類似性判定手段と、
を有することを特徴とする情報抽出装置。
前記類似性判定手段は、起点ノードから少ないリンク数で到達できる関連ノードから順に類似性の判定処理を行い、関連ノードへ達するまでのリンク数が予め設定された閾値よりも大きくなった時点で、類似性の判定処理を終了することを特徴とする請求項５乃至７記載の情報抽出装置。
前記類似性判定手段は、起点ノードから少ないリンク数で到達できる関連ノードから順に類似性の判定処理を行い、非類似であると判定された関連ノードを介してのみ到達できる関連ノードに対しては類似性の判定処理を行わないことを特徴とする請求項５乃至７記載の情報抽出装置。
コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムにおける情報を検索する情報検索方法において、
起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、
２次ノード取得手段が、入力された起点ノードからリンクが張られた２次ノードを取得するステップと、
２次ノード特徴抽出手段が、前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出するステップと、
類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定するステップと、
ノード合成手段が、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するステップと、
検索手段が、情報抽出装置において合成されたノードを、検索対象の一単位として情報検索を実行するステップと、
を有することを特徴とする情報検索方法。
コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムにおける情報を検索する情報検索方法において、
起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、
２次ノード取得手段が、入力された起点ノードからリンクが張られた２次ノードを取得するステップと、
２次ノード特徴抽出手段が、前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出するステップと、
類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定するステップと、
ノード合成手段が、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するステップと、
検索手段が、情報抽出装置において合成されたノードを、クエリーとして情報検索を実行するステップと、
を有することを特徴とする情報検索方法。
情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムの情報をコンピュータに抽出させるための情報抽出プログラムを記録した記録媒体において、
起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段、
入力された起点ノードからリンクが張られた２次ノードを取得する２次ノード取得手段、
前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出する２次ノード特徴抽出手段、
前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定する類似性判定手段、
前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するノード合成手段、
としてコンピュータを機能させるための情報抽出プログラムを記録した記録媒体。
コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムからの情報を抽出する情報抽出方法において、
起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、
２次ノード取得手段が、入力された起点ノードからリンクが張られた２次ノードを取得するステップと、
２次ノード特徴抽出手段が、前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出するステップと、
類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と、前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定するステップと、
ノード合成手段が、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するステップと、
を有することを特徴とする情報抽出方法。
コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムからの情報を抽出する情報抽出方法において、
２次ノード取得手段が、起点ノードが入力されると、起点ノードの内容を解析し、入力された起点ノードからリンクが張られた２次ノードを取得するステップと、
起点ノード特徴抽出手段が、前記起点ノードの特徴を抽出するステップと、
２次ノード特徴抽出手段が、前記２次ノード取得手段が取得した２次ノードの内容を解析し、２次ノードの特徴を抽出するステップと、
類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と、前記２次ノード特徴抽出手段が抽出した２次ノードの特徴とを比較し、起点ノードに対する２次ノードの類似性を判定するステップと、
ノード合成手段が、前記類似性判定手段で類似であるとされた２次ノードを起点ノードに合成するステップと、
を有することを特徴とする情報抽出方法。