JPH113347A

JPH113347A - 情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体

Info

Publication number: JPH113347A
Application number: JP9153387A
Authority: JP
Inventors: Takehiro Nakayama; 雄大中山
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1997-06-11
Filing date: 1997-06-11
Publication date: 1999-01-06
Anticipated expiration: 2017-06-11
Also published as: JP3598738B2

Abstract

(57)【要約】【課題】意味的まとまりを持つ情報を一単位として情
報を抽出できるようにする。【解決手段】起点ノード特徴抽出手段１１は、起点ノ
ードが入力されると、起点ノードの内容を解析し、起点
ノードの特徴を抽出する。２次ノード取得手段１２は、
入力された起点ノードからリンクが張られたノード２，
３を２次ノードとして取得する。２次ノード特徴抽出手
段１３は、２次ノード取得手段１２が取得した２次ノー
ドの内容を解析し、各２次ノードの特徴を抽出する。類
似性判定手段１４は、起点ノード特徴抽出手段１１で得
られた起点ノードの特徴と２次ノード特徴抽出手段１３
で得られた各２次ノードの特徴とを比較し、起点ノード
に対する２次ノードの類似性を判定する。ノード合成手
段１５は、類似性判定手段１４で類似であるとされた２
次ノードを起点ノードに合成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報抽出装置、情報
検索方法及び情報抽出プログラムを記録した媒体に関
し、特に情報をノードとノード間のリンクで構成したハ
イパードキュメントシステムから情報を抽出する情報抽
出装置、その情報抽出装置を用いた情報検索方法及びそ
の情報抽出装置をコンピュータで実現するための情報抽
出プログラムを記録した媒体に関する。

【０００２】

【従来の技術】ハイパードキュメントシステムでは、取
り扱われる情報をいくつかの小さな単位（ノード）に分
割し、それらを関連付けて整理している（このような関
連付けを示す情報を、リンクと呼ぶ）。例えば、インタ
ーネット上では、ＷＷＷ(WorldWide Web)により、ハイ
パードキュメントシステムが構築されている。ＷＷＷの
情報は、ＨＴＭＬ(Hyper Text Markup Language)で記述
されている。このＨＴＭＬは、ノード間のリンクに意味
的制約がない。このようにノード間のリンクに意味的制
約を持たないシステムには、ドキュメントオーサ（作
者）が意のままにコンテンツとリンク構造を決めること
ができるという利点がある。そして、このようなハイパ
ードキュメントシステムにより、ドキュメントリーダ
（読者）は、ドキュメントオーサの構築したリンク構造
をたどり、そのドキュメントオーサが提供する全ての情
報に対してアクセスできる。

【０００３】ところで、インターネットなどのハイパー
ドキュメントシステムの情報量は膨大である。そのた
め、ドキュメントリーダが必要な情報を見つけ出すに
は、情報検索を支援するシステムが必要である。そのよ
うな検索を支援する従来技術としては、以下の２つがあ
る。

【０００４】第１の従来技術は、予めできるだけ大量の
ノードを（ランダムに）スキャンして各ノードの検索イ
ンデックスを用意しておき、ドキュメントリーダからの
クエリー（キーワードの組み合わせ）に対してマッチす
るものを提示するものである。なお、検索インデックス
作成およびクエリーとのマッチングに間する要素技術と
して、統計的言語処理手法であるベクタースペースモデ
ル（G. Salton & J. Allan, Text Retrieval Using the
Vector Processing Model, in Proc. of SDAIR94 ）が
考案されている。

【０００５】第２の従来技術は、予めできるだけ大量の
ノードを（ランダムに）スキャンして、それらをトピッ
クにより分類した木構造のディレクトリに割り当ててお
くものである。ドキュメントリーダは、欲する情報が含
まれると考えられるトピックをディレクトリ上に探し、
そこから目指す情報にアクセスする。なお、この技術を
実現するための要素技術として、自然言語処理を応用し
た自動文書分類手法（例えば、P. Jacobs, Joining Sta
tistics with NLP for Text Categorization,in Proc.
of Applied-ACL92 ）が提案されている。さらに、メデ
ィアを画像に拡張した自動文書分類手法（United State
s Patent: 5526443, T. Nakayama (FXPAL), Method and
apparatus for highlighting and categorizing docum
ents using coded word tokens, issue date:1996.6.1
1）も考案されている。

【０００６】

【発明が解決しようとする課題】しかし、これらの従来
技術では、１つのノード（例えば、１つのＨＴＭＬ文
書）を１つの検索対象単位とするため、ノードとリンク
による構造で概念を表現するというハイパードキュメン
トシステムの本質を捉えることができず、以下に示すよ
うな問題が生じている。

【０００７】ある情報をいくつのノードに分割してどの
ように構造化するかは、ドキュメントオーサの嗜好によ
るものであるにもかかわらず、ノードを一単位とするよ
うな検索では、ハイパーネットワーク上に構造化された
ノード群を、大局的にある１つの意味的まとまりを持つ
情報として捉えることができない。つまり、従来技術に
よる検索では、意味的に不完全な情報断片だけを検索対
象とすることになり、コンテキストが検索に反映されな
い。

【０００８】例えば、一人のドキュメントオーサが作成
した１つの意味的まとまりをもった情報が、複数のＨＴ
ＭＬ文書に分割されて表現されている場合、従来技術で
文書検索を行うと、各ＨＴＭＬ文書が個別の検索対象と
なる。ここで、ドキュメントリーダが「概念Ａ」に類似
する情報を検索すると、当該ドキュメントオーサが作成
した情報が全体として「概念Ａ」に類似していても、分
割された個々のノードが「概念Ａ」に類似していなけれ
ば、この情報（若しくは一部のノード）が検出されるこ
とはない。

【０００９】しかも、１つのノードを検索対象単位とす
ると、検索要求を表す概念をハイパーネットワーク上の
構造で表現することができないという問題点もある。さ
らには、ドキュメントオーサが、ある１つの意味的まと
まりを持つ情報を複数のノードに分割して構造化した場
合、従来の検索ではそれぞれのノードが個別に出力さ
れ、冗長性が生じるという問題点もある。一人のドキュ
メントオーサが１つの意味的まとまりを持つ情報として
作成した一連のＨＴＭＬ文書が個別に出力されると、検
索結果の量が膨れ上がってしまい、目的に合致した文書
を探し出すためのドキュメントリーダの労力が増加して
しまう。

【００１０】本発明はこのような点に鑑みてなされたも
のであり、意味的まとまりを持つ情報を一単位として情
報を抽出できる情報抽出装置を提供することを目的とす
る。また、本発明の別の目的は、意味的まとまりを持つ
情報を一単位として情報を抽出できる情報抽出装置を用
いた有効な情報検索方法を提供することである。

【００１１】また、本発明の他の目的は、意味的まとま
りを持つ情報を一単位として情報を抽出するための情報
抽出プログラムを記録した媒体を提供することである。

【００１２】

【課題を解決するための手段】本発明に係る情報抽出装
置では、上記課題を解決するために、情報の単位である
ノードとノード間のリンクで構成されたハイパードキュ
メントシステムから情報を抽出する情報抽出装置におい
て、起点ノードが入力されると、起点ノードの内容を解
析し、起点ノードの特徴を抽出する起点ノード特徴抽出
手段と、入力された起点ノードからリンクが張られた２
次ノードを取得する２次ノード取得手段と、前記２次の
ノード取得手段が取得した２次ノードの内容を解析し、
２次ノードの特徴を抽出する２次ノード特徴抽出手段
と、前記起点ノード特徴抽出手段が抽出した起点ノード
の特徴と前記２次ノード特徴抽出手段が抽出した２次ノ
ードの特徴とを比較し、起点ノードに対する２次ノード
の類似性を判定する類似性判定手段と、前記類似性判定
手段で類似であるとされた２次ノードを起点ノードに合
成するノード合成手段と、を有することを特徴とする情
報抽出装置が提供される。

【００１３】この情報抽出装置によれば、起点ノードが
入力されると、起点ノード特徴抽出手段によって起点ノ
ードの特徴が抽出されると共に、２次ノード取得手段に
よって、起点ノードからリンクが張られている２次ノー
ドが取得される。取得された２次ノードは、２次ノード
特徴抽出手段によって特徴が抽出される。そして、類似
性判定手段により起点ノードと２次ノードとの類似性が
判定され、類似した２次ノードが、ノード合成手段によ
って起点ノードに合成される。

【００１４】これにより、複数のノードに分割された情
報であっても、１つのまとまった情報として取り扱うこ
とが可能となる。また、本発明に係る情報検索方法で
は、上記課題を解決するために、情報の単位であるノー
ドとノード間のリンクで構成されたハイパードキュメン
トシステムにおける情報を検索する情報検索方法におい
て、起点ノードが入力されると、起点ノードの内容を解
析し、起点ノードの特徴を抽出する起点ノード特徴抽出
手段と、入力された起点ノードからリンクが張られた２
次ノードを取得する２次ノード取得手段と、前記２次の
ノード取得手段が取得した２次ノードの内容を解析し、
２次ノードの特徴を抽出する２次ノード特徴抽出手段
と、前記起点ノード特徴抽出手段が抽出した起点ノード
の特徴と前記２次ノード特徴抽出手段が抽出した２次ノ
ードの特徴とを比較し、起点ノードに対する２次ノード
の類似性を判定する類似性判定手段と、前記類似性判定
手段で類似であるとされた２次ノードを起点ノードに合
成するノード合成手段と、を有する情報抽出装置に対し
て起点ノードを入力し、前記情報抽出装置において合成
されたノードを、検索対象の一単位として情報検索を実
行する、ことを特徴とする情報検索方法が提供される。

【００１５】この情報検索方法によれば、起点ノード
と、その起点ノードからリンクが張られたノードとの内
容を１つの情報として情報検索を行うことができる。ま
た、本発明に係る情報抽出プログラムを記録した媒体で
は、情報の単位であるノードとノード間のリンクで構成
されたハイパードキュメントシステムの情報をコンピュ
ータに抽出させるための情報抽出プログラムを記録した
媒体において、起点ノードが入力されると、起点ノード
の内容を解析し、起点ノードの特徴を抽出する起点ノー
ド特徴抽出手段、入力された起点ノードからリンクが張
られた２次ノードを取得する２次ノード取得手段、前記
２次のノード取得手段が取得した２次ノードの内容を解
析し、２次ノードの特徴を抽出する２次ノード特徴抽出
手段、前記起点ノード特徴抽出手段が抽出した起点ノー
ドの特徴と前記２次ノード特徴抽出手段が抽出した２次
ノードの特徴とを比較し、起点ノードに対する２次ノー
ドの類似性を判定する類似性判定手段、前記類似性判定
手段で類似であるとされた２次ノードを起点ノードに合
成するノード合成手段、としてコンピュータを機能させ
るための情報抽出プログラムを記録した媒体が提供され
る。

【００１６】この情報抽出プログラムをコンピュータで
実行すれば、起点ノードが入力されると、起点ノードの
内容を解析し、起点ノードの特徴を抽出する起点ノード
特徴抽出手段と、入力された起点ノードからリンクが張
られた２次ノードを取得する２次ノード取得手段と、２
次のノード取得手段が取得した２次ノードの内容を解析
し、２次ノードの特徴を抽出する２次ノード特徴抽出手
段と、起点ノード特徴抽出手段が抽出した起点ノードの
特徴と２次ノード特徴抽出手段が抽出した２次ノードの
特徴とを比較し、起点ノードに対する２次ノードの類似
性を判定する類似性判定手段と、類似性判定手段で類似
であるとされた２次ノードを起点ノードに合成するノー
ド合成手段とを、コンピュータ上で構築することができ
る。その結果、意味的まとまりを持つ情報を一単位とし
た情報の抽出を、コンピュータに行わせることが可能と
なる。

【００１７】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は、第１の実施の形態に係る
情報抽出装置を示すブロック図である。ここで、一人の
ドキュメントオーサが、ある情報を３つのノード１〜３
に分割して、ドキュメントを作成した場合を考える。こ
の例では、ノード１から２つのノード２，３に対してリ
ンクが張られている。そして、情報抽出装置１０に対し
て、ノード１が起点ノードとして入力されたものとす
る。

【００１８】起点ノード特徴抽出手段１１は、起点ノー
ドが入力されると、起点ノードの内容を解析し、起点ノ
ードの特徴を抽出する。抽出した特徴は、起点ノード特
徴プロファイル１１ａとして類似性判定手段１４に渡さ
れる。ここで、ノードの特徴に関する情報とは、そのノ
ードの内容を特徴付ける単語とその重要度を示す値の対
の集合を指す。例えば、起点ノードに出現する各単語に
関する出現頻度、出現位置及び品詞の情報に基づいて重
み付けすることにより、起点ノード特徴プロファイル１
１ａを作成する。

【００１９】２次ノード取得手段１２は、入力された起
点ノードからリンクが張られたノード２，３を２次ノー
ドとして取得する。取得した２次ノードは、２次ノード
特徴抽出手段１３に渡される。

【００２０】２次ノード特徴抽出手段１３は、２次ノー
ド取得手段１２が取得した２次ノードの内容を解析し、
各２次ノードの特徴を抽出する。抽出した特徴は、２次
ノード特徴プロファイル１３ａとして類似性判定手段１
４に渡される。２次ノード特徴抽出手段１３も起点ノー
ド特徴抽出手段１１と同様に、２次ノードに出現する各
単語に関する出現頻度、出現位置及び品詞の情報に基づ
いて重み付けすることにより、２次ノード特徴プロファ
イル１３ａを作成することができる。

【００２１】類似性判定手段１４は、起点ノード特徴抽
出手段１１で得られた起点ノードの特徴と２次ノード特
徴抽出手段１３で得られた各２次ノードの特徴とを比較
し、起点ノードに対する２次ノードの類似性を判定す
る。起点ノードに類似すると判断された２次ノードの情
報は、ノード合成手段１５に渡される。ノード合成手段
１５は、類似性判定手段１４で類似であるとされた２次
ノードを起点ノードに合成する。

【００２２】これにより、起点ノードに対して、そのノ
ードに類似する２次ノードを合成した合成ノード４が得
られる。なお、この情報抽出装置に対する起点ノードの
入力は、例えば、従来のハイパードキュメントの情報検
索において予めノードを（ランダムに）スキャンした際
に得られたノードを、起点ノードとして入力する。この
場合、本発明の情報抽出装置１０から出力される合成ノ
ード４が検索対象となる。

【００２３】このような構成の情報抽出装置によって行
われる処理の詳細を、以下に説明する。まず、特徴抽出
の処理手順について説明する。

【００２４】図２は、特徴抽出処理の流れを示すフロー
チャートである。このフローチャートでは、起点ノード
を受け取った起点ノード特徴抽出手段１１の処理として
説明するが、２次ノードを受け取った２次ノード特徴抽
出手段１３が行う処理も同様の処理である。以下、各処
理をステップ番号に沿って説明する。〔Ｓ１〕起点ノードが与えられ、その情報ソースが起点
ノード特徴抽出手段１１に入力される。〔Ｓ２〕情報ソースから、ハイパードキュメントシステ
ム記述言語（例えば、ＨＴＭＬ）で定義されたタグを除
去する。〔Ｓ３〕既知の形態素解析技術を用いて、残されたテキ
ストから単語を抽出する。〔Ｓ４〕ステップＳ３で得られた単語の集合から重要単
語だけを抽出する。ここで、重要単語とは情報ソースの
内容を特徴付けている単語のことであり、例えば、名詞
だけを重要単語とするといった方法で抽出する。〔Ｓ５〕ステップＳ４で得られた重要単語に対して、出
現頻度や出現位置を考慮して、重み付けをする。すなわ
ち、出現頻度の高い単語ほど重要度を高くする。また、
出現位置が文書の先頭に近いほど重要度を高くする。〔Ｓ６〕最後に、重要単語とその重みとの組からなるリ
ストを作成し、これを起点ノード特徴プロファイル１１
ａとする。

【００２５】このようにして得られた、起点ノードの特
徴プロファイル１１ａ（単数）は、類似性判定手段１４
に渡される。また、起点ノードは、２次ノード取得手段
１２にも渡されており、２次ノード取得手段１２は、受
け取ったノード１の情報ソースに含まれるリンク情報を
検索し、そのリンク先のノードを２次ノードとして取得
する。例えば、起点ノードがＨＴＭＬで作成されていれ
ば、アンカータグ（＜Ａ＞．．．＜／Ａ＞）で囲まれた
領域内のＵＲＬ(Uniform Resource Locator)を抽出し、
そのＵＲＬで指定された文書（２次ノード）を取得す
る。

【００２６】２次ノード取得手段１２が取得した２次ノ
ードの集合は、２次ノード特徴抽出手段１３に渡され
る。そして、２次ノード抽出手段１２によって、図２に
示したフローチャートと同様の処理が実行され、各２次
ノードに対する２次ノード特徴プロファイル１３ａが作
成される。その２次ノードの特徴プロファイル１３ａ
（一般に複数）は、類似性判定手段１４に渡される。こ
れにより、類似性判定手段１４には、起点ノード特徴プ
ロファイル１１ａと複数の２次ノード特徴プロファイル
１３ａとが渡されたことになる。

【００２７】次に、図１の類似性判定手段１４において
実行される処理の流れの具体例を説明する。図３は、類
似性判定手段の処理手順を示すフローチャートである。
以下の処理をステップ番号に沿って説明する。〔Ｓ１１〕変数「ｎ」に対して、ｎ＝１という初期化を
行う。また、２次ノード取得手段１２が取得した２次ノ
ードの数を変数「ｍ」に代入する。ここで、２次ノード
特徴プロファイルは、１〜ｍの順番に並べられる。〔Ｓ１２〕起点ノードの特徴プロファイルを取得する。〔Ｓ１３〕ｎとｍの大小を比較して、ｎ＞ｍであれば処
理を終了し、そうでなければステップＳ１４に進む。〔Ｓ１４〕ｎ番目の、２次ノードの特徴プロファイルを
取得する。〔Ｓ１５〕ステップＳ１２で得られた起点ノード特徴プ
ロファイルとステップＳ１４で得られた２次ノード特徴
プロファイルとの類似度を計算する。この類似度計算に
は、既知のベクター内積演算手法を用いる。〔Ｓ１６〕ステップＳ１５で得られた類似度の値と閾値
を比較して、類似度＞閾値であれば、ステップＳ１７に
進み、そうでなければ、ステップＳ１８に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。類似度をベクター内積演算手法
で計算した場合には、閾値の値としては、例えば０．１
程度の値を設定する。〔Ｓ１７〕類似度が閾値より大きければ、ｎ番目の２次
ノードを起点ノードへ合成するノードの候補として記憶
する。〔Ｓ１８〕ｎの値に１を加算して、ステップＳ１３に進
む。

【００２８】これにより、順番が１〜ｍの各２次ノード
特徴プロファイルについて、起点ノード特徴プロファイ
ルとの間の類似性の有無が判定される。そして、ステッ
プＳ１７において、合成するノードの候補として記憶さ
れた２次ノードの集合と、起点ノードとがノード合成手
段１５に渡される。最後に、ノード合成手段１５が、起
点ノードに、類似性有りと判定された全ての２次ノード
を合成し、合成ノード４とする。

【００２９】このようにして得られた合成ノード４を情
報検索の対象とすれば、例えば、「概念Ａ」に類似する
情報を検索した場合に、ノード１単独では「概念Ａ」と
非類似であっても、ノード１と２次ノードとを合成した
合成ノードと「概念Ａ」とが類似していれば、検索結果
としてノード１を得ることができる。ノード１を得たユ
ーザは、そのノード１からリンクをたどり、目的の「概
念Ａ」に類似する情報の全てにアクセスできる。

【００３０】なお、起点ノード特徴抽出手段１１若しく
は２次ノード特徴抽出手段１３が重要単語の重み付けを
する際に、ＨＴＭＬなどのタグにより強調されている文
字を、重要度の高い単語とすることもできる。それに
は、図２の処理の順番を入れ替え、ステップＳ２の処理
を、ステップＳ５とステップＳ６との間で行う必要があ
る。さらに、ステップＳ３の単語抽出処理においては、
文字を強調するためのタグと、そのタグの中に記載され
ている文字とは、分離せずに抽出する。文字を強調する
タグに囲まれた領域から複数の単語を抽出する際には、
それぞれの単語に対して、タグの情報を付加しておく。
これにより、重要単語の重み付けをする際に、どの単語
が強調表示されていたのかを識別できる。

【００３１】次に、本発明の第２の実施の形態について
説明する。図４は、第２の実施の形態に係る情報抽出装
置の構成を示す図である。この実施の形態は、図１に示
した情報抽出装置１０に対して、ノードパス名による新
規ノード取得判定機能を付加した情報抽出装置２０の例
である。なお、この実施の形態における起点ノード特徴
抽出手段２１、２次ノード特徴抽出手段２３、類似性判
定手段２４及びノード合成手段２５は、図１に示すの同
名の構成要素と同様の機能を有しているため、これらの
機能の説明は省略する。

【００３２】この実施の形態の情報抽出装置２０におい
て、ノードパス名記憶手段２６は、起点ノードが入力さ
れた際に、起点ノードからノードパス名を抽出し、その
ノードパス名を格納する。したがって、初期状態では起
点ノードのパス名のみが記憶されている。そして、２次
ノード取得判定手段２８からの要求に応じて、格納して
いるノードパス名を送出するとともに、２次ノード取得
判定手段２８から順次送られる２次ノードのパス名を記
憶していく。

【００３３】２次ノードパス名取得手段２７は、起点ノ
ードとして入力されたノードからリンク付けられている
全ての２次ノードのパス名を抽出する。抽出したパス名
は、２次ノード取得判定手段２８に渡す。

【００３４】２次ノード取得判定手段２８は、ノードパ
ス名記憶手段２６において記憶されているノードパス名
と、２次ノードパス名取得手段２７から渡された２次ノ
ードのパス名が同一であるか否かを判定し、同一でない
と判定された２次ノードのパス名は、ノードパス名記憶
手段２６と２次ノード取得手段２２とに渡す。

【００３５】２次ノード取得手段２２の機能は、第１の
実施の形態の２次ノード取得手段１２（図１に示す）と
若干異なる。この実施の形態における２次ノード取得手
段２２は、起点ノードからリンクが張られている全ての
２次ノードを取得するのではなく、２次ノード取得判定
手段２８からパス名が渡された全ての２次ノードを取得
する。すなわち、２次ノード取得判定手段２８によりノ
ードパス名記憶手段２６に同一のパス名が存在しないと
判定された２次ノードのみを取得する。取得した２次ノ
ードは、２次ノード特徴抽出手段２３に渡す。

【００３６】ここで、上記の情報抽出装置２０に、ノー
ド１ａが起点ノードとして入力された場合を考える。な
お、ノード１ａには、ノード２ａ，３ａへのリンクが重
複して設けられているものとする。

【００３７】情報抽出装置２０にノード１ａが起点ノー
ドとして入力されると、起点ノード特徴抽出手段２１に
よって、ノード１ａの内容が解析され、ノード１ａの特
徴が起点ノード特徴プロファイルとして類似性判定手段
２４に渡される。また、ノードパス名記憶手段２６が初
期化され、ノード１ａのノードパス名がノードパス名記
憶手段２６に記憶される。さらに、２次ノードパス名取
得手段２７によって、ノード１ａからリンクが張られて
いるノード２ａ，３ａのパス名が抽出され、２次ノード
取得判定手段２８に渡される。この例では、ノード２
ａ，３ａのパス名は複数個抽出される。

【００３８】すると、２次ノード取得判定手段２８によ
り、ノード２ａ，３ａのパス名がノードパス名記憶手段
２６に格納されているか否かが判定される。ノード２
ａ、３ａのパス名は複数抽出されるため、最初の判定で
はノードパス名記憶手段２６には格納されていないと判
定され、そのノードパス名はノードパス名記憶手段２６
に格納されると共に、２次ノード取得手段２２に渡され
る。そして、２回目以降の判定では、ノード２ａ、３ａ
のパス名はノードパス名記憶手段２６に格納されている
と判定される。ノードパス名記憶手段２６に格納されて
いないと判定されたノードパス名のみが２次ノード取得
手段２２に渡されるため、結果的に、ノード２ａとノー
ド３ａとのノードパス名がそれぞれ１つずつ２次ノード
取得手段２２に渡される。

【００３９】２次ノード取得手段２２は、２次ノード取
得判定手段２８から受け取ったノード２ａ，３ａのパス
名に基づいて、それぞれのノード２ａ，３ａを取得す
る。取得したノード２ａ，３ａの内容は、２次ノード特
徴抽出手段２３に渡される。

【００４０】すると、２次ノード特徴抽出手段２３によ
りノード２ａ，３ａのそれぞれの内容の特徴が抽出さ
れ、その特徴に関する情報が類似性判定手段２４に渡さ
れる。そして、類似性判定手段２４により、起点ノード
特徴抽出手段２１で抽出された内容の特徴と２次ノード
特徴抽出手段２３で抽出された内容の特徴の比較が行わ
れ、類似性が判定される。類似であると判定された場合
には、そのノードの内容が、ノード合成手段２５によっ
て起点ノードに合成され、合成ノード４ａが生成され
る。

【００４１】これにより、２次ノードに対して重複して
リンクが張られている場合であっても、各２次ノードは
１度ずつしか取得されない。したがって、１つの２次ノ
ードが重複して起点ノードに合成されてしまうことがな
くなるとともに、無駄な処理を省くことができる。

【００４２】ところで、この第２の実施の形態を、後述
する関連ノードとの類似判断を行う場合（起点ノードか
らリンクをたどることによりアクセス可能な全てのノー
ド若しくはその一部との類似判断を行う場合）に適用す
ると、処理の効率を非常に向上させることができる。す
なわち、複数のノードから同じノードへリンクが張られ
ていることはよくあるため、その場合の重複した処理を
排除できる。

【００４３】次に、本発明の第３の実施の形態について
説明する。図５は、第３の実施の形態に係る情報抽出装
置の構成を示す図である。これは、ノードが存在するサ
ーバの情報による新規ノード取得判定機能を付加した情
報抽出装置３０の例である。なお、この実施の形態にお
ける起点ノード特徴抽出手段３１、２次ノード取得手段
３２、２次ノード特徴抽出手段３３、類似性判定手段３
４及びノード合成手段３５は、図１に示す同名の構成要
素と同様の機能を有しているため、これらの機能の説明
は省略する。

【００４４】この図において、起点サーバ名抽出手段３
６は、ある起点ノードが与えられたときに、そのノード
のパス名を解析してそのノードが存在するサーバを特定
する。そして、特定したサーバ名を記憶する。記憶され
たサーバ名は、２次ノード取得判定手段３８に渡され
る。

【００４５】２次ノードサーバ名抽出手段３７は、起点
ノードからリンク付けられている全ての２次ノードのパ
ス名を解析して、そのノードが存在するサーバを特定す
る。そして、特定したサーバ名と２次ノードのパス名と
の対を、２次ノードサーバ名情報として記憶する。

【００４６】２次ノード取得判定手段３８は、起点サー
バ名抽出手段３６に記憶された起点ノードのサーバ名
と、２次ノードサーバ名抽出手段３７に記憶された各２
次ノードのサーバ名とを既知のパタンマッチング技術を
用いて解析し、それらが同一のものであるか否かを判定
する。同一であると判断した場合には、該当する２次ノ
ードのサーバ名と対になっている２次ノードのパス名
を、２次ノード取得手段３２に渡す。

【００４７】ここで、サーバ４１に格納されているノー
ド４１ａを起点ノードとして入力する場合を考える。な
お、ノード４１ａからは、同じサーバ４１内のノード４
１ｂと、異なるサーバ４２内のノード４２ａに対してリ
ンクが張られているものとする。

【００４８】情報抽出装置３０にノード４１ａが起点ノ
ードとして入力されると、起点ノード特徴抽出手段３１
によって、ノード４１ａの内容が解析され、ノード４１
ａの特徴が起点ノード特徴プロファイルとして類似性判
定手段３４に渡される。また、起点サーバ名抽出手段３
６により、ノード４１ａが格納されているサーバ４１の
サーバ名が抽出され、記憶される。さらに、２次ノード
サーバ名抽出手段３７により、ノード４１ａからリンク
付けられている２つのノード４１ｂ，４２ａのパス名
と、そのパス名に含まれるサーバ名とが抽出され、それ
らの対が記憶される。

【００４９】そして、２次ノード取得判定手段３８によ
り、起点ノードであるノード４１ａのサーバ名と、２次
ノードであるノード４１ｂ，４２ａのサーバ名とが比較
され、同一か否かが判定される。その結果、ノード４１
ｂのサーバ名はノード４１ａのサーバ名と同一であり、
ノード４２ａのサーバ名はノード４１ａのサーバ名と異
なることが判定され、ノード４１ｂのパス名のみが２次
ノード取得手段３２に渡される。

【００５０】２次ノード取得手段３２は、２次ノード取
得判定手段３８から受け取ったノード４１ｂのパス名に
基づいて、そのノード４１ｂを取得する。取得したノー
ド４１ｂの内容は、２次ノード特徴抽出手段３３に渡さ
れる。すると、２次ノード特徴抽出手段３３によりノー
ド４１ｂの内容の特徴が抽出され、その特徴に関する情
報が類似性判定手段３４に渡される。そして、類似性判
定手段３４により、起点ノード特徴抽出手段３１で抽出
された内容の特徴と２次ノード特徴抽出手段３３で抽出
された内容の特徴の比較が行われ、類似性が判定され
る。類似であると判定された場合には、そのノードの内
容が、ノード合成手段３５によって起点ノードに合成さ
れ、合成ノード４１ｃが生成される。

【００５１】これにより、同一ノード内の２次ノードの
みが類似性判断の対象となり、他のサーバ内のノードへ
リンクが張られていても、そのノードにはアクセスしな
い。そのため、処理が簡略化され高速化が図れる。な
お、一人のドキュメントオーサが作成した１つの意味的
まとまりをもった情報は、同じサーバ内に格納されてい
ることがほとんどである。したがって、他のサーバに格
納された２次ノードを処理対象から除外しても、生成さ
れる合成ノード４１ｃには、ノード４１ａを作成したド
キュメントオーサの意図が十分に反映される。次に、本
発明の第４の実施の形態について説明する。

【００５２】図６は、第４の実施の形態に係る情報抽出
装置の構成を示す図である。この情報抽出装置５０は、
図１に示した情報抽出装置１０に、再帰的処理を付加し
たものである。なお、この実施の形態における起点ノー
ド特徴抽出手段５１及びノード合成手段２５は、図１に
示すの同名の構成要素と同様の機能を有しているため、
これらの機能の説明は省略する。

【００５３】関連ノード取得手段５２は、起点ノードが
入力された際に、そのノードからリンクが張られている
２次ノードを取得するとともに、取得したノードからさ
らにリンクが張られているノード（関連ノード）を順次
取得する。そして、他のノードへのリンクがなくなるま
で行う。この時の取得される２次ノードより後の各ノー
ドを、Ｎ次ノードとする（Ｎ＝３，４，．．．）。

【００５４】関連ノード特徴抽出手段５３は、関連ノー
ド取得手段５２が抽出した２次〜Ｎ次の各ノードの特徴
を抽出し、関連ノード特徴プロファイルを作成する。作
成した関連ノード特徴プロファイルは、類似性判定手段
５４に渡す。

【００５５】類似性判定手段５４は、関連ノード特徴抽
出手段５３が作成した関連ノード特徴プロファイルに基
づいて、起点ノードからリンクを辿ることによりアクセ
ス可能な全てのノードの起点ノードに対する類似性の判
断処理を行う。そして、類似しているノードの内容を、
ノード合成手段５５に渡す。類似性判定手段５４の処理
の詳細を以下に示す。

【００５６】図７は、再帰的な類似性判定処理の流れを
示すフローチャートである。この処理は全て類似性判定
手段５４によって行われる。〔Ｓ２１〕Ｎ＝２という初期化を行う。〔Ｓ２２〕Ｎ次ノードが存在するか否かが判定される。
存在すればステップＳ２３に進み、そうでなければ処理
を終了する。〔Ｓ２３〕ｐ＝１という初期化を行う。また、Ｎ次ノー
ドの個数をｍとする。〔Ｓ２４〕ｐとｍの大小を比較して、ｐ＞ｍであればス
テップＳ２９に進み、そうでなければステップＳ２５に
進む。〔Ｓ２５〕起点ノードとｐ番目のＮ次ノードの類似度を
前述の方法（既知のベクター内積演算手法）で計算す
る。〔Ｓ２６〕ステップＳ２５で得られた類似度の値と閾値
を比較して、類似度＞閾値であれば、ステップＳ２７に
進み、そうでなければ、ステップＳ２８に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。〔Ｓ２７〕ｐ番目のＮ次ノードを起点ノードへ合成する
ノードの候補として記憶する。〔Ｓ２８〕ｐの値に１を加算して、ステップＳ２４に進
む。〔Ｓ２９〕Ｎの値に１を加算して、ステップＳ２２に進
む。

【００５７】これにより、起点ノードからリンクを辿る
ことによりアクセス可能な全てのノードの中から、起点
ノードに類似した内容を有するものが抽出される。ここ
で、ノード６１を起点ノードとして入力する場合を考え
る（図６参照）。なお、ノード６１からは、２つのノー
ド６２，６３へリンクが張られている。これらのノード
６２，６３が２次ノードとなる。ノード６２，６３から
も他のノードへリンクが張られており、最終的にノード
６４〜６６までリンクが張られている。

【００５８】ノード６１が情報抽出装置５０に入力され
ると、起点ノード特徴抽出手段５１によって、ノード６
１の内容が解析され、ノード６１の特徴が起点ノード特
徴プロファイルとして類似性判定手段５４に渡される。
また、関連ノード取得手段５２によって、ノード６１か
らリンクが張られているノード６２，６３のノードパス
名を抽出し、ノード６２，６３を取得する。さらに、ノ
ード６２，６３からリンクを辿ることによりアクセスで
きるノードをＮ次のノード６４〜６６まで全て取得す
る。取得したノードは、関連ノード特徴抽出手段５３に
渡される。そして、関連ノード特徴抽出手段５３によっ
て各ノードの内容の特徴が抽出され、関連ノード特徴プ
ロファイルが作成される。すると、類似性判定手段５４
により、ノード６１に類似する内容を有している関連ノ
ードが全て抽出される。そして、抽出された全てのノー
ドが、ノード合成手段５５により起点ノードに合成さ
れ、合成ノード６１ａが生成される。

【００５９】このように、起点ノードから直接リンクが
張られている２次ノードに限らず、起点ノードからリン
クを辿ることによりアクセス可能な全てのノードを、類
似性の判断対象とすることにより、ドキュメントオーサ
が多階層によるハイパードキュメントを作成しても、そ
れらの全てを１つのまとまりとして情報抽出の対象とす
ることができる。

【００６０】次に、第５の実施の形態について説明す
る。この実施の形態は、ローカルな制約で制御される再
帰的処理を付加した情報抽出装置の例である。具体的に
は、Ｎ次ノードとその親のノードとの間の類似性に基づ
いて、そのノードを合成すべきか否かを判断するもので
ある。なお、この実施の形態に必要な構成要素は第４の
実施の形態と同じであるが、類似性判定手段が実行する
処理内容が異なる。そこで、第５の実施の形態における
類似性判定手段の処理手順を以下に説明する。

【００６１】図８は、第５の実施の形態における類似性
判定処理を示すフローチャートである。〔Ｓ３１〕Ｎ =２という初期化を行う。〔Ｓ３２〕Ｎ次ノードが存在するか否かが判定される。
存在すればステップＳ３３に進み、そうでなければ処理
を終了する。〔Ｓ３３〕ｐ＝１という初期化を行う。また、Ｎ次ノー
ドの個数をｍとする。〔Ｓ３４〕ｐとｍの大小を比較して、ｐ＞ｍであればス
テップＳ３９に進み、そうでなければステップＳ３５に
進む。〔Ｓ３５〕ｐ番目のＮ次ノードとその親ノード（つま
り、Ｎ−１次ノードのうち該ｐ番目のＮ次ノードをリン
クで指したもの）の類似度を既知のベクター内積演算手
法で計算する。〔Ｓ３６〕ステップＳ３５で得られた類似度の値と閾値
を比較して、類似度＞閾値であれば、ステップＳ３７に
進み、そうでなければ、ステップＳ３８に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。〔Ｓ３７〕ｐ番目のＮ次ノードを起点ノードへ合成する
ノードの候補として記憶する。〔Ｓ３８〕ｐの値に１を加算して、ステップＳ３４に進
む。〔Ｓ３９〕Ｎの値に１を加算して、ステップＳ３２に進
む。

【００６２】このような処理を類似性判定手段が行うこ
とにより、起点ノードでは本題の内容にあまり踏み込ま
ずに、２次ノード以降において詳細な記載をしている場
合であっても、親子関係にあるノード間で類似した内容
が記載されいれば、その記載内容を合成ノードに含める
ことができる。

【００６３】次に第６の実施の形態について説明する。
図９は、第６の実施の形態に係る情報抽出装置の構成を
示す図である。この実施の形態は、グローバルな制約で
制御される再帰的処理を付加した情報抽出装置の例であ
る。具体的には、類似していると判断されたノードをそ
の都度起点ノードに合成していき、関連ノードとそれ以
前に作成されている合成ノードとの間の類似性に基づ
き、そのノードを合成すべきか否かを判断するものであ
る。なお、この実施の形態における起点ノード特徴抽出
手段７１、関連ノード取得手段７２及び関連ノード特徴
抽出手段７３は、図６に示すの同名の構成要素と同様の
機能を有しているため、これらの機能の説明は省略す
る。

【００６４】類似性判定手段７４は、起点ノードが入力
された場合、及び類似した関連ノードが未検出の場合に
は、起点ノード特徴抽出手段７１が作成した起点ノード
特徴プロファイルと、関連ノード特徴抽出手段７３が作
成した関連ノード特徴プロファイルとの類似性を判断
し、類似してる場合にはノード合成手段７５へ、起点ノ
ードの内容と関連ノードの内容とを渡す。また、類似し
た関連ノードが検出された後は、後述する合成ノード特
徴抽出手段７６が作成した合成起点ノード特徴プロファ
イルと、関連ノード特徴抽出手段７３が作成した関連ノ
ード特徴プロファイルとの類似性を判断し、類似してる
場合にはノード合成手段７５へ、関連ノードの内容を渡
す。

【００６５】ノード合成手段７５は、類似性判定手段７
４から起点ノードの内容と関連ノードの内容とを受け取
ると、それらを合成し、その合成ノードを保持すると共
にその複製を合成ノード特徴抽出手段７６に渡す。ま
た、類似性判定手段７４から関連ノードを受け取ると、
それ以前に作成した合成ノードの内容と受け取った関連
ノードの内容とを合成し、その合成ノードを保持すると
共にその複製を合成ノード特徴抽出手段７６に渡す。ま
た、全ての関連ノードに関する類似性の判断が終了する
と、その時点で保持している合成ノード６１ｂを出力す
る。

【００６６】合成ノード特徴抽出手段７６は、ノード合
成手段７５から合成ノードを受け取ると、その合成ノー
ドの内容を解析して特徴部分を抽出し、合成ノード特徴
プロファイルを作成する。作成した合成ノード特徴プロ
ファイルは、類似性判定手段７４に渡す。

【００６７】図１０は、第６の実施の形態における類似
性判定及び合成ノード作成処理を示すフローチャートで
ある。〔Ｓ４１〕類似性判定手段７４が、Ｎ＝２という初期化
を行う。〔Ｓ４２〕類似性判定手段７４が、Ｎ次ノードが存在す
るか否かを判定する。存在すればステップＳ４３に進
み、そうでなければ処理を終了する。〔Ｓ４３〕類似性判定手段７４が、ｐ＝１という初期化
を行う。また、Ｎ次ノードの個数をｍとする。〔Ｓ４４〕類似性判定手段７４が、ｐとｍの大小を比較
して、ｐ＞ｍであればステップＳ５０に進み、そうでな
ければステップＳ４５に進む。〔Ｓ４５〕類似性判定手段７４が、ｐ番目のＮ次ノード
と合成ノード（つまり、この処理が行われるまでに合成
されて得られたノード合成作業は後述のステップＳ４７
において実施される）の類似度を前述の方法で計算す
る。〔Ｓ４６〕類似性判定手段７４が、ステップＳ４５で得
られた類似度の値と閾値を比較する。その結果、類似度
＞閾値であれば、ステップＳ４７に進み、そうでなけれ
ば、ステップＳ４９に進む。ここで、閾値は予め設定さ
れた値であり、その大小で類似性の許容範囲を調整す
る。〔Ｓ４７〕ノード合成手段７５が、ｐ番目のＮ次ノード
を合成ノードに合成する。なお、初期の合成ノードは起
点ノードを指す。〔Ｓ４８〕合成ノード特徴抽出手段７６が、ステップＳ
４７で作成された合成ノードの合成ノード特徴プロファ
イルを作成する。〔Ｓ４９〕類似性判定手段７４が、ｐの値に１を加算し
て、ステップＳ４４に進む。〔Ｓ５０〕類似性判定手段７４が、Ｎの値に１を加算し
て、ステップＳ４２に進む。

【００６８】このように類似したノードを順次合成して
いくことにより、１つの意味内容を持つ情報が細分化さ
れ、個々のノードの内容が希薄なものであっても、複数
の内容を合成した情報に基づいて個々の関連ノードの類
似性の判断を行うことができ、最終的に、ドキュメント
オーサの作成意図に沿った内容の合成ノードを得ること
ができる。

【００６９】次に、第４、第５、第６の各実施の形態の
変形例について説明する。この変形例は、最大のＮ次ノ
ードを予め設定しておくものである。すなわち、Ｎ次ノ
ードの最大をＭと設定しておき、各実施の形態の類似性
判定処理中の、ステップＳ２２、Ｓ３２、Ｓ４２（それ
ぞれ図７、図８、図１０に示す）の処理を、以下のよう
な処理に置き換える。〔Ｓ２２’〕Ｎ＞Ｍであるか否かを判断し、Ｎ＞Ｍでな
ければ次の処理（第４の実施の形態ではステップＳ２
３、第５の実施の形態ではステップＳ３３，第６の実施
の形態ではステップＳ４３）へ進み、Ｎ＞Ｍであれば処
理を終了する。ここで、Ｍは、予め設定される２以上の
自然数である。

【００７０】これにより、Ｎ＞Ｍとなった時点で処理を
終了させることができ、必要以上に深い階層のリンク先
まで類似性判定の対象とすることがなくなる。その結
果、処理の高速化が図れる。

【００７１】また、第４、第５、第６の各実施の形態の
変形例として、各実施の形態の類似性判定処理中の、ス
テップＳ２６、Ｓ３６、Ｓ４６（それぞれ図７、図８、
図１０に示す）の処理を、以下のような処理に置き換え
てもよい。〔Ｓ２６’〕直前のステップで得られた類似度の値と閾
値を比較して、類似度＞閾値であれば、合成候補への追
加ステップ（第４の実施の形態ではステップＳ２７、第
５の実施の形態ではステップＳ３７、第６の実施の形態
ではステップＳ４７）に進み、そうでなければ、類似で
ないと判定されたＮ次ノードからは、Ｎ＋１次ノードを
取得しないように設定した後、ｐに１を加算する処理
（第４の実施の形態ではステップＳ２８、第５の実施の
形態ではステップＳ３８、第６の実施の形態ではステッ
プＳ４９）に進む。

【００７２】これにより、本題から話題がそれたノード
よりも先のノードは類似性判定の対象から除外され、処
理の高速化が図れる。ところで、上記の各実施の形態
（若しくはその変形例）で得られた合成ノードを検索対
象の一単位とすれば、ハイパードキュメントの検索処理
の実効を向上させることができる。

【００７３】図１１は、検索の対象となるノードとリン
クの構造の例を示す図である。この図において、起点ノ
ード８１からは、２次ノード８２および２次ノード８３
にリンクがはられている。２次ノード８２，８３からも
Ｎ次ノード８４（Ｎ＝３，４，．．．）、Ｎ次ノード８
５（Ｎ＝３，４，．．．）、およびＮ次ノード８６（Ｎ
＝３，４，．．．）にリンクがはられている。従来のハ
イパードキュメント検索手法では、各個別ノード（この
例では６個）がそれぞれ検索対象であったが、本発明で
は、例えばノード８１、ノード８２、ノード８３、およ
びノード８５が類似であると判定された場合、これらす
べてのノードを合成してひとつの検索対象とすることが
できる。これにより、あるひとつの意味的まとまりを持
つ情報を複数のノードに分割して構造化しても、検索を
行った際にそれぞれのノードが個別に出力されることが
ない。そのため、検索を行ったユーザへの負担が軽減さ
れる。

【００７４】また上述の各実施の形態（若しくはその変
形例）で得られた合成ノードを、検索クエリーの一単位
とすることもできる。例えば、図１１において、ノード
８１が検索クエリーに指定され、そのときノード８１、
ノード８２、ノード８３、およびノード８５が類似であ
ると判定された場合、これらすべてのノードを合成して
ひとつの検索クエリーとしてもよい。

【００７５】これにより、ハイパードキュメントのリン
ク構造に関する情報の加味した検索を行うことができ、
より検索意図に沿った検索結果を得ることができる。な
お、上記の処理機能は、コンピュータによって実現する
ことができる。その場合、各情報抽出装置が有している
べき機能の処理内容は、コンピュータで読み取り可能な
記録媒体に記録されたプログラムに記述されており、こ
のプログラムをコンピュータで実行することにより、上
記処理がコンピュータで実現される。コンピュータで読
み取り可能な記録媒体としては、磁気記録装置や半導体
メモリ等がある。市場を流通させる場合には、ＣＤ−Ｒ
ＯＭやフロッピーディスケット等の可搬型記録媒体にプ
ログラムを格納して流通させたり、ネットワークを介し
て接続されたコンピュータの記憶装置に格納しておき、
ネットワークを通じて他のコンピュータに転送すること
もできる。コンピュータで実行する際には、コンピュー
タ内のハードディスク装置等にプログラムを格納してお
き、メインメモリにロードして実行する。

【００７６】

【発明の効果】以上説明したように本発明に係る情報抽
出装置では、起点ノードと、その起点ノードからリンク
が張られている２次ノードとの類似性を判定し、類似し
た２次ノードを起点ノードに合成するようにしたため、
意味的まとまりを持つ情報がハイパードキュメントのノ
ード群として構築されていても、それらを、ある１つの
意味的まとまりを持つ情報として捉えることが可能とな
る。

【００７７】また、本発明に係る情報検索方法では、情
報抽出装置で合成されたノードを検索の対象の一単位と
したため、起点ノードのみでは検索条件に合致しない場
合でも、合成されたノードが検索条件に適合していれば
当該ノードを検索結果として取得することができる。

【００７８】また、本発明に係る情報抽出プログラムを
格納した媒体では、格納されている情報抽出プログラム
をコンピュータで実行させることにより、起点ノードを
コンピュータへ入力すれば、起点ノードと、その起点ノ
ードに類似する２次ノードとを合成したノードを取得す
ることができ、ハイパードキュメントにおける意味的ま
とまりを持つ情報を一単位とした情報の抽出をコンピュ
ータに行わせることが可能となる。

【図面の簡単な説明】

【図１】第１の実施の形態に係る情報抽出装置を示すブ
ロック図である。

【図２】特徴抽出処理の流れを示すフローチャートであ
る。

【図３】類似性判定手段の処理手順を示すフローチャー
トである。

【図４】第２の実施の形態に係る情報抽出装置の構成を
示す図である。

【図５】第３の実施の形態に係る情報抽出装置の構成を
示す図である。

【図６】第４の実施の形態に係る情報抽出装置の構成を
示す図である。

【図７】再帰的な類似性判定処理の流れを示すフローチ
ャートである。

【図８】第５の実施の形態における類似性判定処理を示
すフローチャートである。

【図９】第６の実施の形態に係る情報抽出装置の構成を
示す図である。

【図１０】第６の実施の形態における類似性判定及び合
成ノード作成処理を示すフローチャートである。

【図１１】検索の対象となるノードとリンクの構造の例
を示す図である。

【符号の説明】

１〜３ノード４合成ノード１０情報抽出装置１１起点ノード特徴抽出手段１１ａ起点ノード特徴プロファイル１２２次ノード取得手段１３２次ノード特徴抽出手段１３ａ２次ノード特徴プロファイル１４類似性判定手段１５ノード合成手段

Claims

【特許請求の範囲】

【請求項１】情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからリンクが張られた２次ノード
を取得する２次ノード取得手段と、前記２次のノード取得手段が取得した２次ノードの内容
を解析し、２次ノードの特徴を抽出する２次ノード特徴
抽出手段と、前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記２次ノード特徴抽出手段が抽出した２次ノード
の特徴とを比較し、起点ノードに対する２次ノードの類
似性を判定する類似性判定手段と、前記類似性判定手段で類似であるとされた２次ノードを
起点ノードに合成するノード合成手段と、を有することを特徴とする情報抽出装置。
【請求項２】前記起点ノード特徴抽出手段は、起点ノ
ードに出現する単語に関する出現頻度、出現位置及び品
詞の情報に基づいて重み付けすることにより、起点ノー
ドの特徴を抽出し、前記２次ノード特徴抽出手段は、２次ノードに出現する
単語に関する出現頻度、出現位置及び品詞の情報に基づ
いて重み付けすることにより、２次ノードの特徴を抽出
する、ことを特徴とする請求項１記載の情報抽出装置。
【請求項３】ノードのパス名を保持するノードパス名
記憶手段と、入力された起点ノードからリンクが張られた２次ノード
のパス名を取得する２次ノードパス名取得手段と、前記２次ノードパス名取得手段が取得した２次ノードの
パス名が、前記ノードパス名記憶手段に保持されている
か否かを判定し、保持されていないと判定された２次ノ
ードを前記ノードパス名記憶手段に格納する２次ノード
取得判定手段とをさらに有し、前記２次ノード取得手段は、前記２次ノード取得判定手
段によって、前記ノードパス名記憶手段に保持されてい
ないと判定された２次ノードのみを取得することを特徴
とする請求項１の情報抽出装置。
【請求項４】入力された起点ノードのパス名から起点
ノードが存在するサーバ名を抽出する起点サーバ名抽出
手段と、入力された起点ノードからリンクが張られた２次ノード
から２次ノードが存在するサーバ名を抽出する２次ノー
ドサーバ名抽出手段と、前記２次ノードサーバ名抽出手段が抽出した２次ノード
のサーバ名が、前記起点サーバ名抽出手段が抽出した起
点ノードのサーバ名と同一であるか否かを判定する２次
ノード取得判定手段とをさらに有し、前記２次ノード取得手段は、前記２次ノード取得判定手
段により、起点ノードのサーバ名と同一のサーバ名であ
ると判定された２次ノードのみを取得することを特徴と
する請求項１記載の情報抽出装置。
【請求項５】情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからのリンクをたどることにより
アクセス可能な関連ノードを取得する関連ノード取得手
段と、前記関連ノード取得手段が取得した関連ノードの内容を
解析し、関連ノードの特徴を抽出する関連ノード特徴抽
出手段と、前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記関連ノード特徴抽出手段が抽出した関連ノード
の特徴とを比較し、起点ノードに対する関連ノードの類
似性を判定する類似性判定手段と、前記類似性判定手段で類似であるとされた関連ノードを
起点ノードに合成するノード合成手段と、を有することを特徴とする情報抽出装置。
【請求項６】情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからのリンクをたどることにより
アクセス可能な関連ノードを取得する関連ノード取得手
段と、前記関連ノード取得手段が取得した関連ノードの内容を
解析し、関連ノードの特徴を抽出する関連ノード特徴抽
出手段と、前記関連ノード特徴抽出手段が抽出した関連ノードの特
徴を、前記起点ノード特徴抽出手段若しくは前記関連ノ
ード特徴抽出手段によって抽出された親ノードの特徴と
比較し、親ノードに対する関連ノードの類似性を判定す
る類似性判定手段と、前記類似性判定手段で類似であるとされた関連ノードを
起点ノードに合成するノード合成手段と、を有することを特徴とする情報抽出装置。
【請求項７】情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからのリンクをたどることにより
アクセス可能な関連ノードを取得する関連ノード取得手
段と、前記関連ノード取得手段が取得した関連ノードの内容を
解析し、関連ノードの特徴を抽出する関連ノード特徴抽
出手段と、類似ノードが与えられるたびに、類似ノードを起点ノー
ドに合成していき合成ノードを生成するノード合成手段
と、前記ノード合成手段が生成した合成ノードの内容を解析
し、合成ノードの特徴を抽出する合成ノード特徴抽出手
段と、起点ノードが入力された初期段階では起点ノードを比較
対象ノードとし、類似ノードが検出された後は合成ノー
ドを比較対象ノードとし、前記関連ノード特徴抽出手段
が抽出した関連ノードの特徴を、前記起点ノード特徴抽
出手段若しくは前記合成ノード特徴抽出手段によって抽
出された比較対象ノードの特徴と比較し、比較対象ノー
ドに対する関連ノードの類似性を判定し、比較対象ノー
ドに類似していると判定された関連ノードを類似ノード
として前記ノード合成手段に与える類似性判定手段と、を有することを特徴とする情報抽出装置。
【請求項８】前記類似性判定手段は、起点ノードから
少ないリンク数で到達できる関連ノードから順に類似性
の判定処理を行い、関連ノードへ達するまでのリンク数
が予め設定された閾値よりも大きくなった時点で、類似
性の判定処理を終了することを特徴とする請求項５乃至
７記載の情報抽出装置。
【請求項９】前記類似性判定手段は、起点ノードから
少ないリンク数で到達できる関連ノードから順に類似性
の判定処理を行い、非類似であると判定された関連ノー
ドを介してのみ到達できる関連ノードに対しては類似性
の判定処理を行わないことを特徴とする請求項５乃至７
記載の情報抽出装置。
【請求項１０】情報の単位であるノードとノード間の
リンクで構成されたハイパードキュメントシステムにお
ける情報を検索する情報検索方法において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからリンクが張られた２次
ノードを取得する２次ノード取得手段と、前記２次のノ
ード取得手段が取得した２次ノードの内容を解析し、２
次ノードの特徴を抽出する２次ノード特徴抽出手段と、
前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記２次ノード特徴抽出手段が抽出した２次ノード
の特徴とを比較し、起点ノードに対する２次ノードの類
似性を判定する類似性判定手段と、前記類似性判定手段
で類似であるとされた２次ノードを起点ノードに合成す
るノード合成手段と、を有する情報抽出装置に対して起
点ノードを入力し、前記情報抽出装置において合成されたノードを、検索対
象の一単位として情報検索を実行する、ことを特徴とする情報検索方法。
【請求項１１】情報の単位であるノードとノード間の
リンクで構成されたハイパードキュメントシステムにお
ける情報を検索する情報検索方法において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからリンクが張られた２次
ノードを取得する２次ノード取得手段と、前記２次のノ
ード取得手段が取得した２次ノードの内容を解析し、２
次ノードの特徴を抽出する２次ノード特徴抽出手段と、
前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記２次ノード特徴抽出手段が抽出した２次ノード
の特徴とを比較し、起点ノードに対する２次ノードの類
似性を判定する類似性判定手段と、前記類似性判定手段
で類似であるとされた２次ノードを起点ノードに合成す
るノード合成手段と、を有する情報抽出装置に対して起
点ノードを入力し、前記情報抽出装置において合成されたノードを、クエリ
ーとして情報検索を実行することを特徴とする情報検索
方法。
【請求項１２】情報の単位であるノードとノード間の
リンクで構成されたハイパードキュメントシステムの情
報をコンピュータに抽出させるための情報抽出プログラ
ムを記録した媒体において、起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段、入力された起点ノードからリンクが張られた２次ノード
を取得する２次ノード取得手段、前記２次のノード取得手段が取得した２次ノードの内容
を解析し、２次ノードの特徴を抽出する２次ノード特徴
抽出手段、前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記２次ノード特徴抽出手段が抽出した２次ノード
の特徴とを比較し、起点ノードに対する２次ノードの類
似性を判定する類似性判定手段、前記類似性判定手段で類似であるとされた２次ノードを
起点ノードに合成するノード合成手段、としてコンピュータを機能させるための情報抽出プログ
ラムを記録した媒体。