JPH113347A - 情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体 - Google Patents

情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体

Info

Publication number
JPH113347A
JPH113347A JP9153387A JP15338797A JPH113347A JP H113347 A JPH113347 A JP H113347A JP 9153387 A JP9153387 A JP 9153387A JP 15338797 A JP15338797 A JP 15338797A JP H113347 A JPH113347 A JP H113347A
Authority
JP
Japan
Prior art keywords
node
feature
extracting
information
origin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9153387A
Other languages
English (en)
Other versions
JP3598738B2 (ja
Inventor
Takehiro Nakayama
雄大 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP15338797A priority Critical patent/JP3598738B2/ja
Publication of JPH113347A publication Critical patent/JPH113347A/ja
Application granted granted Critical
Publication of JP3598738B2 publication Critical patent/JP3598738B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 意味的まとまりを持つ情報を一単位として情
報を抽出できるようにする。 【解決手段】 起点ノード特徴抽出手段11は、起点ノ
ードが入力されると、起点ノードの内容を解析し、起点
ノードの特徴を抽出する。2次ノード取得手段12は、
入力された起点ノードからリンクが張られたノード2,
3を2次ノードとして取得する。2次ノード特徴抽出手
段13は、2次ノード取得手段12が取得した2次ノー
ドの内容を解析し、各2次ノードの特徴を抽出する。類
似性判定手段14は、起点ノード特徴抽出手段11で得
られた起点ノードの特徴と2次ノード特徴抽出手段13
で得られた各2次ノードの特徴とを比較し、起点ノード
に対する2次ノードの類似性を判定する。ノード合成手
段15は、類似性判定手段14で類似であるとされた2
次ノードを起点ノードに合成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報抽出装置、情報
検索方法及び情報抽出プログラムを記録した媒体に関
し、特に情報をノードとノード間のリンクで構成したハ
イパードキュメントシステムから情報を抽出する情報抽
出装置、その情報抽出装置を用いた情報検索方法及びそ
の情報抽出装置をコンピュータで実現するための情報抽
出プログラムを記録した媒体に関する。
【0002】
【従来の技術】ハイパードキュメントシステムでは、取
り扱われる情報をいくつかの小さな単位(ノード)に分
割し、それらを関連付けて整理している(このような関
連付けを示す情報を、リンクと呼ぶ)。例えば、インタ
ーネット上では、WWW(WorldWide Web)により、ハイ
パードキュメントシステムが構築されている。WWWの
情報は、HTML(Hyper Text Markup Language)で記述
されている。このHTMLは、ノード間のリンクに意味
的制約がない。このようにノード間のリンクに意味的制
約を持たないシステムには、ドキュメントオーサ(作
者)が意のままにコンテンツとリンク構造を決めること
ができるという利点がある。そして、このようなハイパ
ードキュメントシステムにより、ドキュメントリーダ
(読者)は、ドキュメントオーサの構築したリンク構造
をたどり、そのドキュメントオーサが提供する全ての情
報に対してアクセスできる。
【0003】ところで、インターネットなどのハイパー
ドキュメントシステムの情報量は膨大である。そのた
め、ドキュメントリーダが必要な情報を見つけ出すに
は、情報検索を支援するシステムが必要である。そのよ
うな検索を支援する従来技術としては、以下の2つがあ
る。
【0004】第1の従来技術は、予めできるだけ大量の
ノードを(ランダムに)スキャンして各ノードの検索イ
ンデックスを用意しておき、ドキュメントリーダからの
クエリー(キーワードの組み合わせ)に対してマッチす
るものを提示するものである。なお、検索インデックス
作成およびクエリーとのマッチングに間する要素技術と
して、統計的言語処理手法であるベクタースペースモデ
ル(G. Salton & J. Allan, Text Retrieval Using the
Vector Processing Model, in Proc. of SDAIR94 )が
考案されている。
【0005】第2の従来技術は、予めできるだけ大量の
ノードを(ランダムに)スキャンして、それらをトピッ
クにより分類した木構造のディレクトリに割り当ててお
くものである。ドキュメントリーダは、欲する情報が含
まれると考えられるトピックをディレクトリ上に探し、
そこから目指す情報にアクセスする。なお、この技術を
実現するための要素技術として、自然言語処理を応用し
た自動文書分類手法(例えば、P. Jacobs, Joining Sta
tistics with NLP for Text Categorization,in Proc.
of Applied-ACL92 )が提案されている。さらに、メデ
ィアを画像に拡張した自動文書分類手法(United State
s Patent: 5526443, T. Nakayama (FXPAL), Method and
apparatus for highlighting and categorizing docum
ents using coded word tokens, issue date:1996.6.1
1)も考案されている。
【0006】
【発明が解決しようとする課題】しかし、これらの従来
技術では、1つのノード(例えば、1つのHTML文
書)を1つの検索対象単位とするため、ノードとリンク
による構造で概念を表現するというハイパードキュメン
トシステムの本質を捉えることができず、以下に示すよ
うな問題が生じている。
【0007】ある情報をいくつのノードに分割してどの
ように構造化するかは、ドキュメントオーサの嗜好によ
るものであるにもかかわらず、ノードを一単位とするよ
うな検索では、ハイパーネットワーク上に構造化された
ノード群を、大局的にある1つの意味的まとまりを持つ
情報として捉えることができない。つまり、従来技術に
よる検索では、意味的に不完全な情報断片だけを検索対
象とすることになり、コンテキストが検索に反映されな
い。
【0008】例えば、一人のドキュメントオーサが作成
した1つの意味的まとまりをもった情報が、複数のHT
ML文書に分割されて表現されている場合、従来技術で
文書検索を行うと、各HTML文書が個別の検索対象と
なる。ここで、ドキュメントリーダが「概念A」に類似
する情報を検索すると、当該ドキュメントオーサが作成
した情報が全体として「概念A」に類似していても、分
割された個々のノードが「概念A」に類似していなけれ
ば、この情報(若しくは一部のノード)が検出されるこ
とはない。
【0009】しかも、1つのノードを検索対象単位とす
ると、検索要求を表す概念をハイパーネットワーク上の
構造で表現することができないという問題点もある。さ
らには、ドキュメントオーサが、ある1つの意味的まと
まりを持つ情報を複数のノードに分割して構造化した場
合、従来の検索ではそれぞれのノードが個別に出力さ
れ、冗長性が生じるという問題点もある。一人のドキュ
メントオーサが1つの意味的まとまりを持つ情報として
作成した一連のHTML文書が個別に出力されると、検
索結果の量が膨れ上がってしまい、目的に合致した文書
を探し出すためのドキュメントリーダの労力が増加して
しまう。
【0010】本発明はこのような点に鑑みてなされたも
のであり、意味的まとまりを持つ情報を一単位として情
報を抽出できる情報抽出装置を提供することを目的とす
る。また、本発明の別の目的は、意味的まとまりを持つ
情報を一単位として情報を抽出できる情報抽出装置を用
いた有効な情報検索方法を提供することである。
【0011】また、本発明の他の目的は、意味的まとま
りを持つ情報を一単位として情報を抽出するための情報
抽出プログラムを記録した媒体を提供することである。
【0012】
【課題を解決するための手段】本発明に係る情報抽出装
置では、上記課題を解決するために、情報の単位である
ノードとノード間のリンクで構成されたハイパードキュ
メントシステムから情報を抽出する情報抽出装置におい
て、起点ノードが入力されると、起点ノードの内容を解
析し、起点ノードの特徴を抽出する起点ノード特徴抽出
手段と、入力された起点ノードからリンクが張られた2
次ノードを取得する2次ノード取得手段と、前記2次の
ノード取得手段が取得した2次ノードの内容を解析し、
2次ノードの特徴を抽出する2次ノード特徴抽出手段
と、前記起点ノード特徴抽出手段が抽出した起点ノード
の特徴と前記2次ノード特徴抽出手段が抽出した2次ノ
ードの特徴とを比較し、起点ノードに対する2次ノード
の類似性を判定する類似性判定手段と、前記類似性判定
手段で類似であるとされた2次ノードを起点ノードに合
成するノード合成手段と、を有することを特徴とする情
報抽出装置が提供される。
【0013】この情報抽出装置によれば、起点ノードが
入力されると、起点ノード特徴抽出手段によって起点ノ
ードの特徴が抽出されると共に、2次ノード取得手段に
よって、起点ノードからリンクが張られている2次ノー
ドが取得される。取得された2次ノードは、2次ノード
特徴抽出手段によって特徴が抽出される。そして、類似
性判定手段により起点ノードと2次ノードとの類似性が
判定され、類似した2次ノードが、ノード合成手段によ
って起点ノードに合成される。
【0014】これにより、複数のノードに分割された情
報であっても、1つのまとまった情報として取り扱うこ
とが可能となる。また、本発明に係る情報検索方法で
は、上記課題を解決するために、情報の単位であるノー
ドとノード間のリンクで構成されたハイパードキュメン
トシステムにおける情報を検索する情報検索方法におい
て、起点ノードが入力されると、起点ノードの内容を解
析し、起点ノードの特徴を抽出する起点ノード特徴抽出
手段と、入力された起点ノードからリンクが張られた2
次ノードを取得する2次ノード取得手段と、前記2次の
ノード取得手段が取得した2次ノードの内容を解析し、
2次ノードの特徴を抽出する2次ノード特徴抽出手段
と、前記起点ノード特徴抽出手段が抽出した起点ノード
の特徴と前記2次ノード特徴抽出手段が抽出した2次ノ
ードの特徴とを比較し、起点ノードに対する2次ノード
の類似性を判定する類似性判定手段と、前記類似性判定
手段で類似であるとされた2次ノードを起点ノードに合
成するノード合成手段と、を有する情報抽出装置に対し
て起点ノードを入力し、前記情報抽出装置において合成
されたノードを、検索対象の一単位として情報検索を実
行する、ことを特徴とする情報検索方法が提供される。
【0015】この情報検索方法によれば、起点ノード
と、その起点ノードからリンクが張られたノードとの内
容を1つの情報として情報検索を行うことができる。ま
た、本発明に係る情報抽出プログラムを記録した媒体で
は、情報の単位であるノードとノード間のリンクで構成
されたハイパードキュメントシステムの情報をコンピュ
ータに抽出させるための情報抽出プログラムを記録した
媒体において、起点ノードが入力されると、起点ノード
の内容を解析し、起点ノードの特徴を抽出する起点ノー
ド特徴抽出手段、入力された起点ノードからリンクが張
られた2次ノードを取得する2次ノード取得手段、前記
2次のノード取得手段が取得した2次ノードの内容を解
析し、2次ノードの特徴を抽出する2次ノード特徴抽出
手段、前記起点ノード特徴抽出手段が抽出した起点ノー
ドの特徴と前記2次ノード特徴抽出手段が抽出した2次
ノードの特徴とを比較し、起点ノードに対する2次ノー
ドの類似性を判定する類似性判定手段、前記類似性判定
手段で類似であるとされた2次ノードを起点ノードに合
成するノード合成手段、としてコンピュータを機能させ
るための情報抽出プログラムを記録した媒体が提供され
る。
【0016】この情報抽出プログラムをコンピュータで
実行すれば、起点ノードが入力されると、起点ノードの
内容を解析し、起点ノードの特徴を抽出する起点ノード
特徴抽出手段と、入力された起点ノードからリンクが張
られた2次ノードを取得する2次ノード取得手段と、2
次のノード取得手段が取得した2次ノードの内容を解析
し、2次ノードの特徴を抽出する2次ノード特徴抽出手
段と、起点ノード特徴抽出手段が抽出した起点ノードの
特徴と2次ノード特徴抽出手段が抽出した2次ノードの
特徴とを比較し、起点ノードに対する2次ノードの類似
性を判定する類似性判定手段と、類似性判定手段で類似
であるとされた2次ノードを起点ノードに合成するノー
ド合成手段とを、コンピュータ上で構築することができ
る。その結果、意味的まとまりを持つ情報を一単位とし
た情報の抽出を、コンピュータに行わせることが可能と
なる。
【0017】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、第1の実施の形態に係る
情報抽出装置を示すブロック図である。ここで、一人の
ドキュメントオーサが、ある情報を3つのノード1〜3
に分割して、ドキュメントを作成した場合を考える。こ
の例では、ノード1から2つのノード2,3に対してリ
ンクが張られている。そして、情報抽出装置10に対し
て、ノード1が起点ノードとして入力されたものとす
る。
【0018】起点ノード特徴抽出手段11は、起点ノー
ドが入力されると、起点ノードの内容を解析し、起点ノ
ードの特徴を抽出する。抽出した特徴は、起点ノード特
徴プロファイル11aとして類似性判定手段14に渡さ
れる。ここで、ノードの特徴に関する情報とは、そのノ
ードの内容を特徴付ける単語とその重要度を示す値の対
の集合を指す。例えば、起点ノードに出現する各単語に
関する出現頻度、出現位置及び品詞の情報に基づいて重
み付けすることにより、起点ノード特徴プロファイル1
1aを作成する。
【0019】2次ノード取得手段12は、入力された起
点ノードからリンクが張られたノード2,3を2次ノー
ドとして取得する。取得した2次ノードは、2次ノード
特徴抽出手段13に渡される。
【0020】2次ノード特徴抽出手段13は、2次ノー
ド取得手段12が取得した2次ノードの内容を解析し、
各2次ノードの特徴を抽出する。抽出した特徴は、2次
ノード特徴プロファイル13aとして類似性判定手段1
4に渡される。2次ノード特徴抽出手段13も起点ノー
ド特徴抽出手段11と同様に、2次ノードに出現する各
単語に関する出現頻度、出現位置及び品詞の情報に基づ
いて重み付けすることにより、2次ノード特徴プロファ
イル13aを作成することができる。
【0021】類似性判定手段14は、起点ノード特徴抽
出手段11で得られた起点ノードの特徴と2次ノード特
徴抽出手段13で得られた各2次ノードの特徴とを比較
し、起点ノードに対する2次ノードの類似性を判定す
る。起点ノードに類似すると判断された2次ノードの情
報は、ノード合成手段15に渡される。ノード合成手段
15は、類似性判定手段14で類似であるとされた2次
ノードを起点ノードに合成する。
【0022】これにより、起点ノードに対して、そのノ
ードに類似する2次ノードを合成した合成ノード4が得
られる。なお、この情報抽出装置に対する起点ノードの
入力は、例えば、従来のハイパードキュメントの情報検
索において予めノードを(ランダムに)スキャンした際
に得られたノードを、起点ノードとして入力する。この
場合、本発明の情報抽出装置10から出力される合成ノ
ード4が検索対象となる。
【0023】このような構成の情報抽出装置によって行
われる処理の詳細を、以下に説明する。まず、特徴抽出
の処理手順について説明する。
【0024】図2は、特徴抽出処理の流れを示すフロー
チャートである。このフローチャートでは、起点ノード
を受け取った起点ノード特徴抽出手段11の処理として
説明するが、2次ノードを受け取った2次ノード特徴抽
出手段13が行う処理も同様の処理である。以下、各処
理をステップ番号に沿って説明する。 〔S1〕起点ノードが与えられ、その情報ソースが起点
ノード特徴抽出手段11に入力される。 〔S2〕情報ソースから、ハイパードキュメントシステ
ム記述言語(例えば、HTML)で定義されたタグを除
去する。 〔S3〕既知の形態素解析技術を用いて、残されたテキ
ストから単語を抽出する。 〔S4〕ステップS3で得られた単語の集合から重要単
語だけを抽出する。ここで、重要単語とは情報ソースの
内容を特徴付けている単語のことであり、例えば、名詞
だけを重要単語とするといった方法で抽出する。 〔S5〕ステップS4で得られた重要単語に対して、出
現頻度や出現位置を考慮して、重み付けをする。すなわ
ち、出現頻度の高い単語ほど重要度を高くする。また、
出現位置が文書の先頭に近いほど重要度を高くする。 〔S6〕最後に、重要単語とその重みとの組からなるリ
ストを作成し、これを起点ノード特徴プロファイル11
aとする。
【0025】このようにして得られた、起点ノードの特
徴プロファイル11a(単数)は、類似性判定手段14
に渡される。また、起点ノードは、2次ノード取得手段
12にも渡されており、2次ノード取得手段12は、受
け取ったノード1の情報ソースに含まれるリンク情報を
検索し、そのリンク先のノードを2次ノードとして取得
する。例えば、起点ノードがHTMLで作成されていれ
ば、アンカータグ(<A>...</A>)で囲まれた
領域内のURL(Uniform Resource Locator)を抽出し、
そのURLで指定された文書(2次ノード)を取得す
る。
【0026】2次ノード取得手段12が取得した2次ノ
ードの集合は、2次ノード特徴抽出手段13に渡され
る。そして、2次ノード抽出手段12によって、図2に
示したフローチャートと同様の処理が実行され、各2次
ノードに対する2次ノード特徴プロファイル13aが作
成される。その2次ノードの特徴プロファイル13a
(一般に複数)は、類似性判定手段14に渡される。こ
れにより、類似性判定手段14には、起点ノード特徴プ
ロファイル11aと複数の2次ノード特徴プロファイル
13aとが渡されたことになる。
【0027】次に、図1の類似性判定手段14において
実行される処理の流れの具体例を説明する。図3は、類
似性判定手段の処理手順を示すフローチャートである。
以下の処理をステップ番号に沿って説明する。 〔S11〕変数「n」に対して、n=1という初期化を
行う。また、2次ノード取得手段12が取得した2次ノ
ードの数を変数「m」に代入する。ここで、2次ノード
特徴プロファイルは、1〜mの順番に並べられる。 〔S12〕起点ノードの特徴プロファイルを取得する。 〔S13〕nとmの大小を比較して、n>mであれば処
理を終了し、そうでなければステップS14に進む。 〔S14〕n番目の、2次ノードの特徴プロファイルを
取得する。 〔S15〕ステップS12で得られた起点ノード特徴プ
ロファイルとステップS14で得られた2次ノード特徴
プロファイルとの類似度を計算する。この類似度計算に
は、既知のベクター内積演算手法を用いる。 〔S16〕ステップS15で得られた類似度の値と閾値
を比較して、類似度>閾値であれば、ステップS17に
進み、そうでなければ、ステップS18に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。類似度をベクター内積演算手法
で計算した場合には、閾値の値としては、例えば0.1
程度の値を設定する。 〔S17〕類似度が閾値より大きければ、n番目の2次
ノードを起点ノードへ合成するノードの候補として記憶
する。 〔S18〕nの値に1を加算して、ステップS13に進
む。
【0028】これにより、順番が1〜mの各2次ノード
特徴プロファイルについて、起点ノード特徴プロファイ
ルとの間の類似性の有無が判定される。そして、ステッ
プS17において、合成するノードの候補として記憶さ
れた2次ノードの集合と、起点ノードとがノード合成手
段15に渡される。最後に、ノード合成手段15が、起
点ノードに、類似性有りと判定された全ての2次ノード
を合成し、合成ノード4とする。
【0029】このようにして得られた合成ノード4を情
報検索の対象とすれば、例えば、「概念A」に類似する
情報を検索した場合に、ノード1単独では「概念A」と
非類似であっても、ノード1と2次ノードとを合成した
合成ノードと「概念A」とが類似していれば、検索結果
としてノード1を得ることができる。ノード1を得たユ
ーザは、そのノード1からリンクをたどり、目的の「概
念A」に類似する情報の全てにアクセスできる。
【0030】なお、起点ノード特徴抽出手段11若しく
は2次ノード特徴抽出手段13が重要単語の重み付けを
する際に、HTMLなどのタグにより強調されている文
字を、重要度の高い単語とすることもできる。それに
は、図2の処理の順番を入れ替え、ステップS2の処理
を、ステップS5とステップS6との間で行う必要があ
る。さらに、ステップS3の単語抽出処理においては、
文字を強調するためのタグと、そのタグの中に記載され
ている文字とは、分離せずに抽出する。文字を強調する
タグに囲まれた領域から複数の単語を抽出する際には、
それぞれの単語に対して、タグの情報を付加しておく。
これにより、重要単語の重み付けをする際に、どの単語
が強調表示されていたのかを識別できる。
【0031】次に、本発明の第2の実施の形態について
説明する。図4は、第2の実施の形態に係る情報抽出装
置の構成を示す図である。この実施の形態は、図1に示
した情報抽出装置10に対して、ノードパス名による新
規ノード取得判定機能を付加した情報抽出装置20の例
である。なお、この実施の形態における起点ノード特徴
抽出手段21、2次ノード特徴抽出手段23、類似性判
定手段24及びノード合成手段25は、図1に示すの同
名の構成要素と同様の機能を有しているため、これらの
機能の説明は省略する。
【0032】この実施の形態の情報抽出装置20におい
て、ノードパス名記憶手段26は、起点ノードが入力さ
れた際に、起点ノードからノードパス名を抽出し、その
ノードパス名を格納する。したがって、初期状態では起
点ノードのパス名のみが記憶されている。そして、2次
ノード取得判定手段28からの要求に応じて、格納して
いるノードパス名を送出するとともに、2次ノード取得
判定手段28から順次送られる2次ノードのパス名を記
憶していく。
【0033】2次ノードパス名取得手段27は、起点ノ
ードとして入力されたノードからリンク付けられている
全ての2次ノードのパス名を抽出する。抽出したパス名
は、2次ノード取得判定手段28に渡す。
【0034】2次ノード取得判定手段28は、ノードパ
ス名記憶手段26において記憶されているノードパス名
と、2次ノードパス名取得手段27から渡された2次ノ
ードのパス名が同一であるか否かを判定し、同一でない
と判定された2次ノードのパス名は、ノードパス名記憶
手段26と2次ノード取得手段22とに渡す。
【0035】2次ノード取得手段22の機能は、第1の
実施の形態の2次ノード取得手段12(図1に示す)と
若干異なる。この実施の形態における2次ノード取得手
段22は、起点ノードからリンクが張られている全ての
2次ノードを取得するのではなく、2次ノード取得判定
手段28からパス名が渡された全ての2次ノードを取得
する。すなわち、2次ノード取得判定手段28によりノ
ードパス名記憶手段26に同一のパス名が存在しないと
判定された2次ノードのみを取得する。取得した2次ノ
ードは、2次ノード特徴抽出手段23に渡す。
【0036】ここで、上記の情報抽出装置20に、ノー
ド1aが起点ノードとして入力された場合を考える。な
お、ノード1aには、ノード2a,3aへのリンクが重
複して設けられているものとする。
【0037】情報抽出装置20にノード1aが起点ノー
ドとして入力されると、起点ノード特徴抽出手段21に
よって、ノード1aの内容が解析され、ノード1aの特
徴が起点ノード特徴プロファイルとして類似性判定手段
24に渡される。また、ノードパス名記憶手段26が初
期化され、ノード1aのノードパス名がノードパス名記
憶手段26に記憶される。さらに、2次ノードパス名取
得手段27によって、ノード1aからリンクが張られて
いるノード2a,3aのパス名が抽出され、2次ノード
取得判定手段28に渡される。この例では、ノード2
a,3aのパス名は複数個抽出される。
【0038】すると、2次ノード取得判定手段28によ
り、ノード2a,3aのパス名がノードパス名記憶手段
26に格納されているか否かが判定される。ノード2
a、3aのパス名は複数抽出されるため、最初の判定で
はノードパス名記憶手段26には格納されていないと判
定され、そのノードパス名はノードパス名記憶手段26
に格納されると共に、2次ノード取得手段22に渡され
る。そして、2回目以降の判定では、ノード2a、3a
のパス名はノードパス名記憶手段26に格納されている
と判定される。ノードパス名記憶手段26に格納されて
いないと判定されたノードパス名のみが2次ノード取得
手段22に渡されるため、結果的に、ノード2aとノー
ド3aとのノードパス名がそれぞれ1つずつ2次ノード
取得手段22に渡される。
【0039】2次ノード取得手段22は、2次ノード取
得判定手段28から受け取ったノード2a,3aのパス
名に基づいて、それぞれのノード2a,3aを取得す
る。取得したノード2a,3aの内容は、2次ノード特
徴抽出手段23に渡される。
【0040】すると、2次ノード特徴抽出手段23によ
りノード2a,3aのそれぞれの内容の特徴が抽出さ
れ、その特徴に関する情報が類似性判定手段24に渡さ
れる。そして、類似性判定手段24により、起点ノード
特徴抽出手段21で抽出された内容の特徴と2次ノード
特徴抽出手段23で抽出された内容の特徴の比較が行わ
れ、類似性が判定される。類似であると判定された場合
には、そのノードの内容が、ノード合成手段25によっ
て起点ノードに合成され、合成ノード4aが生成され
る。
【0041】これにより、2次ノードに対して重複して
リンクが張られている場合であっても、各2次ノードは
1度ずつしか取得されない。したがって、1つの2次ノ
ードが重複して起点ノードに合成されてしまうことがな
くなるとともに、無駄な処理を省くことができる。
【0042】ところで、この第2の実施の形態を、後述
する関連ノードとの類似判断を行う場合(起点ノードか
らリンクをたどることによりアクセス可能な全てのノー
ド若しくはその一部との類似判断を行う場合)に適用す
ると、処理の効率を非常に向上させることができる。す
なわち、複数のノードから同じノードへリンクが張られ
ていることはよくあるため、その場合の重複した処理を
排除できる。
【0043】次に、本発明の第3の実施の形態について
説明する。図5は、第3の実施の形態に係る情報抽出装
置の構成を示す図である。これは、ノードが存在するサ
ーバの情報による新規ノード取得判定機能を付加した情
報抽出装置30の例である。なお、この実施の形態にお
ける起点ノード特徴抽出手段31、2次ノード取得手段
32、2次ノード特徴抽出手段33、類似性判定手段3
4及びノード合成手段35は、図1に示す同名の構成要
素と同様の機能を有しているため、これらの機能の説明
は省略する。
【0044】この図において、起点サーバ名抽出手段3
6は、ある起点ノードが与えられたときに、そのノード
のパス名を解析してそのノードが存在するサーバを特定
する。そして、特定したサーバ名を記憶する。記憶され
たサーバ名は、2次ノード取得判定手段38に渡され
る。
【0045】2次ノードサーバ名抽出手段37は、起点
ノードからリンク付けられている全ての2次ノードのパ
ス名を解析して、そのノードが存在するサーバを特定す
る。そして、特定したサーバ名と2次ノードのパス名と
の対を、2次ノードサーバ名情報として記憶する。
【0046】2次ノード取得判定手段38は、起点サー
バ名抽出手段36に記憶された起点ノードのサーバ名
と、2次ノードサーバ名抽出手段37に記憶された各2
次ノードのサーバ名とを既知のパタンマッチング技術を
用いて解析し、それらが同一のものであるか否かを判定
する。同一であると判断した場合には、該当する2次ノ
ードのサーバ名と対になっている2次ノードのパス名
を、2次ノード取得手段32に渡す。
【0047】ここで、サーバ41に格納されているノー
ド41aを起点ノードとして入力する場合を考える。な
お、ノード41aからは、同じサーバ41内のノード4
1bと、異なるサーバ42内のノード42aに対してリ
ンクが張られているものとする。
【0048】情報抽出装置30にノード41aが起点ノ
ードとして入力されると、起点ノード特徴抽出手段31
によって、ノード41aの内容が解析され、ノード41
aの特徴が起点ノード特徴プロファイルとして類似性判
定手段34に渡される。また、起点サーバ名抽出手段3
6により、ノード41aが格納されているサーバ41の
サーバ名が抽出され、記憶される。さらに、2次ノード
サーバ名抽出手段37により、ノード41aからリンク
付けられている2つのノード41b,42aのパス名
と、そのパス名に含まれるサーバ名とが抽出され、それ
らの対が記憶される。
【0049】そして、2次ノード取得判定手段38によ
り、起点ノードであるノード41aのサーバ名と、2次
ノードであるノード41b,42aのサーバ名とが比較
され、同一か否かが判定される。その結果、ノード41
bのサーバ名はノード41aのサーバ名と同一であり、
ノード42aのサーバ名はノード41aのサーバ名と異
なることが判定され、ノード41bのパス名のみが2次
ノード取得手段32に渡される。
【0050】2次ノード取得手段32は、2次ノード取
得判定手段38から受け取ったノード41bのパス名に
基づいて、そのノード41bを取得する。取得したノー
ド41bの内容は、2次ノード特徴抽出手段33に渡さ
れる。すると、2次ノード特徴抽出手段33によりノー
ド41bの内容の特徴が抽出され、その特徴に関する情
報が類似性判定手段34に渡される。そして、類似性判
定手段34により、起点ノード特徴抽出手段31で抽出
された内容の特徴と2次ノード特徴抽出手段33で抽出
された内容の特徴の比較が行われ、類似性が判定され
る。類似であると判定された場合には、そのノードの内
容が、ノード合成手段35によって起点ノードに合成さ
れ、合成ノード41cが生成される。
【0051】これにより、同一ノード内の2次ノードの
みが類似性判断の対象となり、他のサーバ内のノードへ
リンクが張られていても、そのノードにはアクセスしな
い。そのため、処理が簡略化され高速化が図れる。な
お、一人のドキュメントオーサが作成した1つの意味的
まとまりをもった情報は、同じサーバ内に格納されてい
ることがほとんどである。したがって、他のサーバに格
納された2次ノードを処理対象から除外しても、生成さ
れる合成ノード41cには、ノード41aを作成したド
キュメントオーサの意図が十分に反映される。次に、本
発明の第4の実施の形態について説明する。
【0052】図6は、第4の実施の形態に係る情報抽出
装置の構成を示す図である。この情報抽出装置50は、
図1に示した情報抽出装置10に、再帰的処理を付加し
たものである。なお、この実施の形態における起点ノー
ド特徴抽出手段51及びノード合成手段25は、図1に
示すの同名の構成要素と同様の機能を有しているため、
これらの機能の説明は省略する。
【0053】関連ノード取得手段52は、起点ノードが
入力された際に、そのノードからリンクが張られている
2次ノードを取得するとともに、取得したノードからさ
らにリンクが張られているノード(関連ノード)を順次
取得する。そして、他のノードへのリンクがなくなるま
で行う。この時の取得される2次ノードより後の各ノー
ドを、N次ノードとする(N=3,4,...)。
【0054】関連ノード特徴抽出手段53は、関連ノー
ド取得手段52が抽出した2次〜N次の各ノードの特徴
を抽出し、関連ノード特徴プロファイルを作成する。作
成した関連ノード特徴プロファイルは、類似性判定手段
54に渡す。
【0055】類似性判定手段54は、関連ノード特徴抽
出手段53が作成した関連ノード特徴プロファイルに基
づいて、起点ノードからリンクを辿ることによりアクセ
ス可能な全てのノードの起点ノードに対する類似性の判
断処理を行う。そして、類似しているノードの内容を、
ノード合成手段55に渡す。類似性判定手段54の処理
の詳細を以下に示す。
【0056】図7は、再帰的な類似性判定処理の流れを
示すフローチャートである。この処理は全て類似性判定
手段54によって行われる。 〔S21〕N=2という初期化を行う。 〔S22〕N次ノードが存在するか否かが判定される。
存在すればステップS23に進み、そうでなければ処理
を終了する。 〔S23〕p=1という初期化を行う。また、N次ノー
ドの個数をmとする。 〔S24〕pとmの大小を比較して、p>mであればス
テップS29に進み、そうでなければステップS25に
進む。 〔S25〕起点ノードとp番目のN次ノードの類似度を
前述の方法(既知のベクター内積演算手法)で計算す
る。 〔S26〕ステップS25で得られた類似度の値と閾値
を比較して、類似度>閾値であれば、ステップS27に
進み、そうでなければ、ステップS28に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。 〔S27〕p番目のN次ノードを起点ノードへ合成する
ノードの候補として記憶する。 〔S28〕pの値に1を加算して、ステップS24に進
む。 〔S29〕Nの値に1を加算して、ステップS22に進
む。
【0057】これにより、起点ノードからリンクを辿る
ことによりアクセス可能な全てのノードの中から、起点
ノードに類似した内容を有するものが抽出される。ここ
で、ノード61を起点ノードとして入力する場合を考え
る(図6参照)。なお、ノード61からは、2つのノー
ド62,63へリンクが張られている。これらのノード
62,63が2次ノードとなる。ノード62,63から
も他のノードへリンクが張られており、最終的にノード
64〜66までリンクが張られている。
【0058】ノード61が情報抽出装置50に入力され
ると、起点ノード特徴抽出手段51によって、ノード6
1の内容が解析され、ノード61の特徴が起点ノード特
徴プロファイルとして類似性判定手段54に渡される。
また、関連ノード取得手段52によって、ノード61か
らリンクが張られているノード62,63のノードパス
名を抽出し、ノード62,63を取得する。さらに、ノ
ード62,63からリンクを辿ることによりアクセスで
きるノードをN次のノード64〜66まで全て取得す
る。取得したノードは、関連ノード特徴抽出手段53に
渡される。そして、関連ノード特徴抽出手段53によっ
て各ノードの内容の特徴が抽出され、関連ノード特徴プ
ロファイルが作成される。すると、類似性判定手段54
により、ノード61に類似する内容を有している関連ノ
ードが全て抽出される。そして、抽出された全てのノー
ドが、ノード合成手段55により起点ノードに合成さ
れ、合成ノード61aが生成される。
【0059】このように、起点ノードから直接リンクが
張られている2次ノードに限らず、起点ノードからリン
クを辿ることによりアクセス可能な全てのノードを、類
似性の判断対象とすることにより、ドキュメントオーサ
が多階層によるハイパードキュメントを作成しても、そ
れらの全てを1つのまとまりとして情報抽出の対象とす
ることができる。
【0060】次に、第5の実施の形態について説明す
る。この実施の形態は、ローカルな制約で制御される再
帰的処理を付加した情報抽出装置の例である。具体的に
は、N次ノードとその親のノードとの間の類似性に基づ
いて、そのノードを合成すべきか否かを判断するもので
ある。なお、この実施の形態に必要な構成要素は第4の
実施の形態と同じであるが、類似性判定手段が実行する
処理内容が異なる。そこで、第5の実施の形態における
類似性判定手段の処理手順を以下に説明する。
【0061】図8は、第5の実施の形態における類似性
判定処理を示すフローチャートである。 〔S31〕N =2という初期化を行う。 〔S32〕N次ノードが存在するか否かが判定される。
存在すればステップS33に進み、そうでなければ処理
を終了する。 〔S33〕p=1という初期化を行う。また、N次ノー
ドの個数をmとする。 〔S34〕pとmの大小を比較して、p>mであればス
テップS39に進み、そうでなければステップS35に
進む。 〔S35〕p番目のN次ノードとその親ノード(つま
り、N−1次ノードのうち該p番目のN次ノードをリン
クで指したもの)の類似度を既知のベクター内積演算手
法で計算する。 〔S36〕ステップS35で得られた類似度の値と閾値
を比較して、類似度>閾値であれば、ステップS37に
進み、そうでなければ、ステップS38に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。 〔S37〕p番目のN次ノードを起点ノードへ合成する
ノードの候補として記憶する。 〔S38〕pの値に1を加算して、ステップS34に進
む。 〔S39〕Nの値に1を加算して、ステップS32に進
む。
【0062】このような処理を類似性判定手段が行うこ
とにより、起点ノードでは本題の内容にあまり踏み込ま
ずに、2次ノード以降において詳細な記載をしている場
合であっても、親子関係にあるノード間で類似した内容
が記載されいれば、その記載内容を合成ノードに含める
ことができる。
【0063】次に第6の実施の形態について説明する。
図9は、第6の実施の形態に係る情報抽出装置の構成を
示す図である。この実施の形態は、グローバルな制約で
制御される再帰的処理を付加した情報抽出装置の例であ
る。具体的には、類似していると判断されたノードをそ
の都度起点ノードに合成していき、関連ノードとそれ以
前に作成されている合成ノードとの間の類似性に基づ
き、そのノードを合成すべきか否かを判断するものであ
る。なお、この実施の形態における起点ノード特徴抽出
手段71、関連ノード取得手段72及び関連ノード特徴
抽出手段73は、図6に示すの同名の構成要素と同様の
機能を有しているため、これらの機能の説明は省略す
る。
【0064】類似性判定手段74は、起点ノードが入力
された場合、及び類似した関連ノードが未検出の場合に
は、起点ノード特徴抽出手段71が作成した起点ノード
特徴プロファイルと、関連ノード特徴抽出手段73が作
成した関連ノード特徴プロファイルとの類似性を判断
し、類似してる場合にはノード合成手段75へ、起点ノ
ードの内容と関連ノードの内容とを渡す。また、類似し
た関連ノードが検出された後は、後述する合成ノード特
徴抽出手段76が作成した合成起点ノード特徴プロファ
イルと、関連ノード特徴抽出手段73が作成した関連ノ
ード特徴プロファイルとの類似性を判断し、類似してる
場合にはノード合成手段75へ、関連ノードの内容を渡
す。
【0065】ノード合成手段75は、類似性判定手段7
4から起点ノードの内容と関連ノードの内容とを受け取
ると、それらを合成し、その合成ノードを保持すると共
にその複製を合成ノード特徴抽出手段76に渡す。ま
た、類似性判定手段74から関連ノードを受け取ると、
それ以前に作成した合成ノードの内容と受け取った関連
ノードの内容とを合成し、その合成ノードを保持すると
共にその複製を合成ノード特徴抽出手段76に渡す。ま
た、全ての関連ノードに関する類似性の判断が終了する
と、その時点で保持している合成ノード61bを出力す
る。
【0066】合成ノード特徴抽出手段76は、ノード合
成手段75から合成ノードを受け取ると、その合成ノー
ドの内容を解析して特徴部分を抽出し、合成ノード特徴
プロファイルを作成する。作成した合成ノード特徴プロ
ファイルは、類似性判定手段74に渡す。
【0067】図10は、第6の実施の形態における類似
性判定及び合成ノード作成処理を示すフローチャートで
ある。 〔S41〕類似性判定手段74が、N=2という初期化
を行う。 〔S42〕類似性判定手段74が、N次ノードが存在す
るか否かを判定する。存在すればステップS43に進
み、そうでなければ処理を終了する。 〔S43〕類似性判定手段74が、p=1という初期化
を行う。また、N次ノードの個数をmとする。 〔S44〕類似性判定手段74が、pとmの大小を比較
して、p>mであればステップS50に進み、そうでな
ければステップS45に進む。 〔S45〕類似性判定手段74が、p番目のN次ノード
と合成ノード(つまり、この処理が行われるまでに合成
されて得られたノード合成作業は後述のステップS47
において実施される)の類似度を前述の方法で計算す
る。 〔S46〕類似性判定手段74が、ステップS45で得
られた類似度の値と閾値を比較する。その結果、類似度
>閾値であれば、ステップS47に進み、そうでなけれ
ば、ステップS49に進む。ここで、閾値は予め設定さ
れた値であり、その大小で類似性の許容範囲を調整す
る。 〔S47〕ノード合成手段75が、p番目のN次ノード
を合成ノードに合成する。なお、初期の合成ノードは起
点ノードを指す。 〔S48〕合成ノード特徴抽出手段76が、ステップS
47で作成された合成ノードの合成ノード特徴プロファ
イルを作成する。 〔S49〕類似性判定手段74が、pの値に1を加算し
て、ステップS44に進む。 〔S50〕類似性判定手段74が、Nの値に1を加算し
て、ステップS42に進む。
【0068】このように類似したノードを順次合成して
いくことにより、1つの意味内容を持つ情報が細分化さ
れ、個々のノードの内容が希薄なものであっても、複数
の内容を合成した情報に基づいて個々の関連ノードの類
似性の判断を行うことができ、最終的に、ドキュメント
オーサの作成意図に沿った内容の合成ノードを得ること
ができる。
【0069】次に、第4、第5、第6の各実施の形態の
変形例について説明する。この変形例は、最大のN次ノ
ードを予め設定しておくものである。すなわち、N次ノ
ードの最大をMと設定しておき、各実施の形態の類似性
判定処理中の、ステップS22、S32、S42(それ
ぞれ図7、図8、図10に示す)の処理を、以下のよう
な処理に置き換える。 〔S22’〕N>Mであるか否かを判断し、N>Mでな
ければ次の処理(第4の実施の形態ではステップS2
3、第5の実施の形態ではステップS33,第6の実施
の形態ではステップS43)へ進み、N>Mであれば処
理を終了する。ここで、Mは、予め設定される2以上の
自然数である。
【0070】これにより、N>Mとなった時点で処理を
終了させることができ、必要以上に深い階層のリンク先
まで類似性判定の対象とすることがなくなる。その結
果、処理の高速化が図れる。
【0071】また、第4、第5、第6の各実施の形態の
変形例として、各実施の形態の類似性判定処理中の、ス
テップS26、S36、S46(それぞれ図7、図8、
図10に示す)の処理を、以下のような処理に置き換え
てもよい。 〔S26’〕直前のステップで得られた類似度の値と閾
値を比較して、類似度>閾値であれば、合成候補への追
加ステップ(第4の実施の形態ではステップS27、第
5の実施の形態ではステップS37、第6の実施の形態
ではステップS47)に進み、そうでなければ、類似で
ないと判定されたN次ノードからは、N+1次ノードを
取得しないように設定した後、pに1を加算する処理
(第4の実施の形態ではステップS28、第5の実施の
形態ではステップS38、第6の実施の形態ではステッ
プS49)に進む。
【0072】これにより、本題から話題がそれたノード
よりも先のノードは類似性判定の対象から除外され、処
理の高速化が図れる。ところで、上記の各実施の形態
(若しくはその変形例)で得られた合成ノードを検索対
象の一単位とすれば、ハイパードキュメントの検索処理
の実効を向上させることができる。
【0073】図11は、検索の対象となるノードとリン
クの構造の例を示す図である。この図において、起点ノ
ード81からは、2次ノード82および2次ノード83
にリンクがはられている。2次ノード82,83からも
N次ノード84(N=3,4,...)、N次ノード8
5(N=3,4,...)、およびN次ノード86(N
=3,4,...)にリンクがはられている。従来のハ
イパードキュメント検索手法では、各個別ノード(この
例では6個)がそれぞれ検索対象であったが、本発明で
は、例えばノード81、ノード82、ノード83、およ
びノード85が類似であると判定された場合、これらす
べてのノードを合成してひとつの検索対象とすることが
できる。これにより、あるひとつの意味的まとまりを持
つ情報を複数のノードに分割して構造化しても、検索を
行った際にそれぞれのノードが個別に出力されることが
ない。そのため、検索を行ったユーザへの負担が軽減さ
れる。
【0074】また上述の各実施の形態(若しくはその変
形例)で得られた合成ノードを、検索クエリーの一単位
とすることもできる。例えば、図11において、ノード
81が検索クエリーに指定され、そのときノード81、
ノード82、ノード83、およびノード85が類似であ
ると判定された場合、これらすべてのノードを合成して
ひとつの検索クエリーとしてもよい。
【0075】これにより、ハイパードキュメントのリン
ク構造に関する情報の加味した検索を行うことができ、
より検索意図に沿った検索結果を得ることができる。な
お、上記の処理機能は、コンピュータによって実現する
ことができる。その場合、各情報抽出装置が有している
べき機能の処理内容は、コンピュータで読み取り可能な
記録媒体に記録されたプログラムに記述されており、こ
のプログラムをコンピュータで実行することにより、上
記処理がコンピュータで実現される。コンピュータで読
み取り可能な記録媒体としては、磁気記録装置や半導体
メモリ等がある。市場を流通させる場合には、CD−R
OMやフロッピーディスケット等の可搬型記録媒体にプ
ログラムを格納して流通させたり、ネットワークを介し
て接続されたコンピュータの記憶装置に格納しておき、
ネットワークを通じて他のコンピュータに転送すること
もできる。コンピュータで実行する際には、コンピュー
タ内のハードディスク装置等にプログラムを格納してお
き、メインメモリにロードして実行する。
【0076】
【発明の効果】以上説明したように本発明に係る情報抽
出装置では、起点ノードと、その起点ノードからリンク
が張られている2次ノードとの類似性を判定し、類似し
た2次ノードを起点ノードに合成するようにしたため、
意味的まとまりを持つ情報がハイパードキュメントのノ
ード群として構築されていても、それらを、ある1つの
意味的まとまりを持つ情報として捉えることが可能とな
る。
【0077】また、本発明に係る情報検索方法では、情
報抽出装置で合成されたノードを検索の対象の一単位と
したため、起点ノードのみでは検索条件に合致しない場
合でも、合成されたノードが検索条件に適合していれば
当該ノードを検索結果として取得することができる。
【0078】また、本発明に係る情報抽出プログラムを
格納した媒体では、格納されている情報抽出プログラム
をコンピュータで実行させることにより、起点ノードを
コンピュータへ入力すれば、起点ノードと、その起点ノ
ードに類似する2次ノードとを合成したノードを取得す
ることができ、ハイパードキュメントにおける意味的ま
とまりを持つ情報を一単位とした情報の抽出をコンピュ
ータに行わせることが可能となる。
【図面の簡単な説明】
【図1】第1の実施の形態に係る情報抽出装置を示すブ
ロック図である。
【図2】特徴抽出処理の流れを示すフローチャートであ
る。
【図3】類似性判定手段の処理手順を示すフローチャー
トである。
【図4】第2の実施の形態に係る情報抽出装置の構成を
示す図である。
【図5】第3の実施の形態に係る情報抽出装置の構成を
示す図である。
【図6】第4の実施の形態に係る情報抽出装置の構成を
示す図である。
【図7】再帰的な類似性判定処理の流れを示すフローチ
ャートである。
【図8】第5の実施の形態における類似性判定処理を示
すフローチャートである。
【図9】第6の実施の形態に係る情報抽出装置の構成を
示す図である。
【図10】第6の実施の形態における類似性判定及び合
成ノード作成処理を示すフローチャートである。
【図11】検索の対象となるノードとリンクの構造の例
を示す図である。
【符号の説明】
1〜3 ノード 4 合成ノード 10 情報抽出装置 11 起点ノード特徴抽出手段 11a 起点ノード特徴プロファイル 12 2次ノード取得手段 13 2次ノード特徴抽出手段 13a 2次ノード特徴プロファイル 14 類似性判定手段 15 ノード合成手段

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 情報の単位であるノードとノード間のリ
    ンクで構成されたハイパードキュメントシステムから情
    報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段と、 入力された起点ノードからリンクが張られた2次ノード
    を取得する2次ノード取得手段と、 前記2次のノード取得手段が取得した2次ノードの内容
    を解析し、2次ノードの特徴を抽出する2次ノード特徴
    抽出手段と、 前記起点ノード特徴抽出手段が抽出した起点ノードの特
    徴と前記2次ノード特徴抽出手段が抽出した2次ノード
    の特徴とを比較し、起点ノードに対する2次ノードの類
    似性を判定する類似性判定手段と、 前記類似性判定手段で類似であるとされた2次ノードを
    起点ノードに合成するノード合成手段と、 を有することを特徴とする情報抽出装置。
  2. 【請求項2】 前記起点ノード特徴抽出手段は、起点ノ
    ードに出現する単語に関する出現頻度、出現位置及び品
    詞の情報に基づいて重み付けすることにより、起点ノー
    ドの特徴を抽出し、 前記2次ノード特徴抽出手段は、2次ノードに出現する
    単語に関する出現頻度、出現位置及び品詞の情報に基づ
    いて重み付けすることにより、2次ノードの特徴を抽出
    する、 ことを特徴とする請求項1記載の情報抽出装置。
  3. 【請求項3】 ノードのパス名を保持するノードパス名
    記憶手段と、 入力された起点ノードからリンクが張られた2次ノード
    のパス名を取得する2次ノードパス名取得手段と、 前記2次ノードパス名取得手段が取得した2次ノードの
    パス名が、前記ノードパス名記憶手段に保持されている
    か否かを判定し、保持されていないと判定された2次ノ
    ードを前記ノードパス名記憶手段に格納する2次ノード
    取得判定手段とをさらに有し、 前記2次ノード取得手段は、前記2次ノード取得判定手
    段によって、前記ノードパス名記憶手段に保持されてい
    ないと判定された2次ノードのみを取得することを特徴
    とする請求項1の情報抽出装置。
  4. 【請求項4】 入力された起点ノードのパス名から起点
    ノードが存在するサーバ名を抽出する起点サーバ名抽出
    手段と、 入力された起点ノードからリンクが張られた2次ノード
    から2次ノードが存在するサーバ名を抽出する2次ノー
    ドサーバ名抽出手段と、 前記2次ノードサーバ名抽出手段が抽出した2次ノード
    のサーバ名が、前記起点サーバ名抽出手段が抽出した起
    点ノードのサーバ名と同一であるか否かを判定する2次
    ノード取得判定手段とをさらに有し、 前記2次ノード取得手段は、前記2次ノード取得判定手
    段により、起点ノードのサーバ名と同一のサーバ名であ
    ると判定された2次ノードのみを取得することを特徴と
    する請求項1記載の情報抽出装置。
  5. 【請求項5】 情報の単位であるノードとノード間のリ
    ンクで構成されたハイパードキュメントシステムから情
    報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段と、 入力された起点ノードからのリンクをたどることにより
    アクセス可能な関連ノードを取得する関連ノード取得手
    段と、 前記関連ノード取得手段が取得した関連ノードの内容を
    解析し、関連ノードの特徴を抽出する関連ノード特徴抽
    出手段と、 前記起点ノード特徴抽出手段が抽出した起点ノードの特
    徴と前記関連ノード特徴抽出手段が抽出した関連ノード
    の特徴とを比較し、起点ノードに対する関連ノードの類
    似性を判定する類似性判定手段と、 前記類似性判定手段で類似であるとされた関連ノードを
    起点ノードに合成するノード合成手段と、 を有することを特徴とする情報抽出装置。
  6. 【請求項6】 情報の単位であるノードとノード間のリ
    ンクで構成されたハイパードキュメントシステムから情
    報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段と、 入力された起点ノードからのリンクをたどることにより
    アクセス可能な関連ノードを取得する関連ノード取得手
    段と、 前記関連ノード取得手段が取得した関連ノードの内容を
    解析し、関連ノードの特徴を抽出する関連ノード特徴抽
    出手段と、 前記関連ノード特徴抽出手段が抽出した関連ノードの特
    徴を、前記起点ノード特徴抽出手段若しくは前記関連ノ
    ード特徴抽出手段によって抽出された親ノードの特徴と
    比較し、親ノードに対する関連ノードの類似性を判定す
    る類似性判定手段と、 前記類似性判定手段で類似であるとされた関連ノードを
    起点ノードに合成するノード合成手段と、 を有することを特徴とする情報抽出装置。
  7. 【請求項7】 情報の単位であるノードとノード間のリ
    ンクで構成されたハイパードキュメントシステムから情
    報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段と、 入力された起点ノードからのリンクをたどることにより
    アクセス可能な関連ノードを取得する関連ノード取得手
    段と、 前記関連ノード取得手段が取得した関連ノードの内容を
    解析し、関連ノードの特徴を抽出する関連ノード特徴抽
    出手段と、 類似ノードが与えられるたびに、類似ノードを起点ノー
    ドに合成していき合成ノードを生成するノード合成手段
    と、 前記ノード合成手段が生成した合成ノードの内容を解析
    し、合成ノードの特徴を抽出する合成ノード特徴抽出手
    段と、 起点ノードが入力された初期段階では起点ノードを比較
    対象ノードとし、類似ノードが検出された後は合成ノー
    ドを比較対象ノードとし、前記関連ノード特徴抽出手段
    が抽出した関連ノードの特徴を、前記起点ノード特徴抽
    出手段若しくは前記合成ノード特徴抽出手段によって抽
    出された比較対象ノードの特徴と比較し、比較対象ノー
    ドに対する関連ノードの類似性を判定し、比較対象ノー
    ドに類似していると判定された関連ノードを類似ノード
    として前記ノード合成手段に与える類似性判定手段と、 を有することを特徴とする情報抽出装置。
  8. 【請求項8】 前記類似性判定手段は、起点ノードから
    少ないリンク数で到達できる関連ノードから順に類似性
    の判定処理を行い、関連ノードへ達するまでのリンク数
    が予め設定された閾値よりも大きくなった時点で、類似
    性の判定処理を終了することを特徴とする請求項5乃至
    7記載の情報抽出装置。
  9. 【請求項9】 前記類似性判定手段は、起点ノードから
    少ないリンク数で到達できる関連ノードから順に類似性
    の判定処理を行い、非類似であると判定された関連ノー
    ドを介してのみ到達できる関連ノードに対しては類似性
    の判定処理を行わないことを特徴とする請求項5乃至7
    記載の情報抽出装置。
  10. 【請求項10】 情報の単位であるノードとノード間の
    リンクで構成されたハイパードキュメントシステムにお
    ける情報を検索する情報検索方法において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段と、入力された起点ノードからリンクが張られた2次
    ノードを取得する2次ノード取得手段と、前記2次のノ
    ード取得手段が取得した2次ノードの内容を解析し、2
    次ノードの特徴を抽出する2次ノード特徴抽出手段と、
    前記起点ノード特徴抽出手段が抽出した起点ノードの特
    徴と前記2次ノード特徴抽出手段が抽出した2次ノード
    の特徴とを比較し、起点ノードに対する2次ノードの類
    似性を判定する類似性判定手段と、前記類似性判定手段
    で類似であるとされた2次ノードを起点ノードに合成す
    るノード合成手段と、を有する情報抽出装置に対して起
    点ノードを入力し、 前記情報抽出装置において合成されたノードを、検索対
    象の一単位として情報検索を実行する、 ことを特徴とする情報検索方法。
  11. 【請求項11】 情報の単位であるノードとノード間の
    リンクで構成されたハイパードキュメントシステムにお
    ける情報を検索する情報検索方法において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段と、入力された起点ノードからリンクが張られた2次
    ノードを取得する2次ノード取得手段と、前記2次のノ
    ード取得手段が取得した2次ノードの内容を解析し、2
    次ノードの特徴を抽出する2次ノード特徴抽出手段と、
    前記起点ノード特徴抽出手段が抽出した起点ノードの特
    徴と前記2次ノード特徴抽出手段が抽出した2次ノード
    の特徴とを比較し、起点ノードに対する2次ノードの類
    似性を判定する類似性判定手段と、前記類似性判定手段
    で類似であるとされた2次ノードを起点ノードに合成す
    るノード合成手段と、を有する情報抽出装置に対して起
    点ノードを入力し、 前記情報抽出装置において合成されたノードを、クエリ
    ーとして情報検索を実行することを特徴とする情報検索
    方法。
  12. 【請求項12】 情報の単位であるノードとノード間の
    リンクで構成されたハイパードキュメントシステムの情
    報をコンピュータに抽出させるための情報抽出プログラ
    ムを記録した媒体において、 起点ノードが入力されると、起点ノードの内容を解析
    し、起点ノードの特徴を抽出する起点ノード特徴抽出手
    段、 入力された起点ノードからリンクが張られた2次ノード
    を取得する2次ノード取得手段、 前記2次のノード取得手段が取得した2次ノードの内容
    を解析し、2次ノードの特徴を抽出する2次ノード特徴
    抽出手段、 前記起点ノード特徴抽出手段が抽出した起点ノードの特
    徴と前記2次ノード特徴抽出手段が抽出した2次ノード
    の特徴とを比較し、起点ノードに対する2次ノードの類
    似性を判定する類似性判定手段、 前記類似性判定手段で類似であるとされた2次ノードを
    起点ノードに合成するノード合成手段、 としてコンピュータを機能させるための情報抽出プログ
    ラムを記録した媒体。
JP15338797A 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法 Expired - Fee Related JP3598738B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15338797A JP3598738B2 (ja) 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15338797A JP3598738B2 (ja) 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法

Publications (2)

Publication Number Publication Date
JPH113347A true JPH113347A (ja) 1999-01-06
JP3598738B2 JP3598738B2 (ja) 2004-12-08

Family

ID=15561378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15338797A Expired - Fee Related JP3598738B2 (ja) 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法

Country Status (1)

Country Link
JP (1) JP3598738B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075859A (ja) * 1999-08-31 2001-03-23 Just Syst Corp 情報巡回獲得装置
JP2010134952A (ja) * 2010-01-20 2010-06-17 Seiko Epson Corp 画像データの管理
JP2012242859A (ja) * 2011-05-13 2012-12-10 Nippon Hoso Kyokai <Nhk> グラフ生成装置およびプログラム
EP4390798A1 (en) 2022-12-20 2024-06-26 Fujitsu Limited Flow control method, flow control program, and information processing device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075859A (ja) * 1999-08-31 2001-03-23 Just Syst Corp 情報巡回獲得装置
JP2010134952A (ja) * 2010-01-20 2010-06-17 Seiko Epson Corp 画像データの管理
JP2012242859A (ja) * 2011-05-13 2012-12-10 Nippon Hoso Kyokai <Nhk> グラフ生成装置およびプログラム
EP4390798A1 (en) 2022-12-20 2024-06-26 Fujitsu Limited Flow control method, flow control program, and information processing device

Also Published As

Publication number Publication date
JP3598738B2 (ja) 2004-12-08

Similar Documents

Publication Publication Date Title
US6904429B2 (en) Information retrieval apparatus and information retrieval method
US6167370A (en) Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7805288B2 (en) Corpus expansion system and method thereof
US7024405B2 (en) Method and apparatus for improved internet searching
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Sivakumar Effectual web content mining using noise removal from web pages
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP2001188802A (ja) 情報検索装置及び情報検索方法
JP3598738B2 (ja) 情報抽出装置、情報検索方法及び情報抽出方法
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
JPH11272709A (ja) ファイル検索方式
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR100621737B1 (ko) 웹사이트 자동 분류방법
Kaddu et al. To extract informative content from online web pages by using hybrid approach
JP3637756B2 (ja) 情報検索装置、情報検索方法および記録媒体
Tsapatsoulis Web image indexing using WICE and a learning-free language model
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2004157830A (ja) 情報検索プログラム
CN116910054A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070924

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees