JPH113347A - 情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体 - Google Patents
情報抽出装置、情報検索方法及び情報抽出プログラムを記録した媒体Info
- Publication number
- JPH113347A JPH113347A JP9153387A JP15338797A JPH113347A JP H113347 A JPH113347 A JP H113347A JP 9153387 A JP9153387 A JP 9153387A JP 15338797 A JP15338797 A JP 15338797A JP H113347 A JPH113347 A JP H113347A
- Authority
- JP
- Japan
- Prior art keywords
- node
- feature
- extracting
- information
- origin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
報を抽出できるようにする。 【解決手段】 起点ノード特徴抽出手段11は、起点ノ
ードが入力されると、起点ノードの内容を解析し、起点
ノードの特徴を抽出する。2次ノード取得手段12は、
入力された起点ノードからリンクが張られたノード2,
3を2次ノードとして取得する。2次ノード特徴抽出手
段13は、2次ノード取得手段12が取得した2次ノー
ドの内容を解析し、各2次ノードの特徴を抽出する。類
似性判定手段14は、起点ノード特徴抽出手段11で得
られた起点ノードの特徴と2次ノード特徴抽出手段13
で得られた各2次ノードの特徴とを比較し、起点ノード
に対する2次ノードの類似性を判定する。ノード合成手
段15は、類似性判定手段14で類似であるとされた2
次ノードを起点ノードに合成する。
Description
検索方法及び情報抽出プログラムを記録した媒体に関
し、特に情報をノードとノード間のリンクで構成したハ
イパードキュメントシステムから情報を抽出する情報抽
出装置、その情報抽出装置を用いた情報検索方法及びそ
の情報抽出装置をコンピュータで実現するための情報抽
出プログラムを記録した媒体に関する。
り扱われる情報をいくつかの小さな単位(ノード)に分
割し、それらを関連付けて整理している(このような関
連付けを示す情報を、リンクと呼ぶ)。例えば、インタ
ーネット上では、WWW(WorldWide Web)により、ハイ
パードキュメントシステムが構築されている。WWWの
情報は、HTML(Hyper Text Markup Language)で記述
されている。このHTMLは、ノード間のリンクに意味
的制約がない。このようにノード間のリンクに意味的制
約を持たないシステムには、ドキュメントオーサ(作
者)が意のままにコンテンツとリンク構造を決めること
ができるという利点がある。そして、このようなハイパ
ードキュメントシステムにより、ドキュメントリーダ
(読者)は、ドキュメントオーサの構築したリンク構造
をたどり、そのドキュメントオーサが提供する全ての情
報に対してアクセスできる。
ドキュメントシステムの情報量は膨大である。そのた
め、ドキュメントリーダが必要な情報を見つけ出すに
は、情報検索を支援するシステムが必要である。そのよ
うな検索を支援する従来技術としては、以下の2つがあ
る。
ノードを(ランダムに)スキャンして各ノードの検索イ
ンデックスを用意しておき、ドキュメントリーダからの
クエリー(キーワードの組み合わせ)に対してマッチす
るものを提示するものである。なお、検索インデックス
作成およびクエリーとのマッチングに間する要素技術と
して、統計的言語処理手法であるベクタースペースモデ
ル(G. Salton & J. Allan, Text Retrieval Using the
Vector Processing Model, in Proc. of SDAIR94 )が
考案されている。
ノードを(ランダムに)スキャンして、それらをトピッ
クにより分類した木構造のディレクトリに割り当ててお
くものである。ドキュメントリーダは、欲する情報が含
まれると考えられるトピックをディレクトリ上に探し、
そこから目指す情報にアクセスする。なお、この技術を
実現するための要素技術として、自然言語処理を応用し
た自動文書分類手法(例えば、P. Jacobs, Joining Sta
tistics with NLP for Text Categorization,in Proc.
of Applied-ACL92 )が提案されている。さらに、メデ
ィアを画像に拡張した自動文書分類手法(United State
s Patent: 5526443, T. Nakayama (FXPAL), Method and
apparatus for highlighting and categorizing docum
ents using coded word tokens, issue date:1996.6.1
1)も考案されている。
技術では、1つのノード(例えば、1つのHTML文
書)を1つの検索対象単位とするため、ノードとリンク
による構造で概念を表現するというハイパードキュメン
トシステムの本質を捉えることができず、以下に示すよ
うな問題が生じている。
ように構造化するかは、ドキュメントオーサの嗜好によ
るものであるにもかかわらず、ノードを一単位とするよ
うな検索では、ハイパーネットワーク上に構造化された
ノード群を、大局的にある1つの意味的まとまりを持つ
情報として捉えることができない。つまり、従来技術に
よる検索では、意味的に不完全な情報断片だけを検索対
象とすることになり、コンテキストが検索に反映されな
い。
した1つの意味的まとまりをもった情報が、複数のHT
ML文書に分割されて表現されている場合、従来技術で
文書検索を行うと、各HTML文書が個別の検索対象と
なる。ここで、ドキュメントリーダが「概念A」に類似
する情報を検索すると、当該ドキュメントオーサが作成
した情報が全体として「概念A」に類似していても、分
割された個々のノードが「概念A」に類似していなけれ
ば、この情報(若しくは一部のノード)が検出されるこ
とはない。
ると、検索要求を表す概念をハイパーネットワーク上の
構造で表現することができないという問題点もある。さ
らには、ドキュメントオーサが、ある1つの意味的まと
まりを持つ情報を複数のノードに分割して構造化した場
合、従来の検索ではそれぞれのノードが個別に出力さ
れ、冗長性が生じるという問題点もある。一人のドキュ
メントオーサが1つの意味的まとまりを持つ情報として
作成した一連のHTML文書が個別に出力されると、検
索結果の量が膨れ上がってしまい、目的に合致した文書
を探し出すためのドキュメントリーダの労力が増加して
しまう。
のであり、意味的まとまりを持つ情報を一単位として情
報を抽出できる情報抽出装置を提供することを目的とす
る。また、本発明の別の目的は、意味的まとまりを持つ
情報を一単位として情報を抽出できる情報抽出装置を用
いた有効な情報検索方法を提供することである。
りを持つ情報を一単位として情報を抽出するための情報
抽出プログラムを記録した媒体を提供することである。
置では、上記課題を解決するために、情報の単位である
ノードとノード間のリンクで構成されたハイパードキュ
メントシステムから情報を抽出する情報抽出装置におい
て、起点ノードが入力されると、起点ノードの内容を解
析し、起点ノードの特徴を抽出する起点ノード特徴抽出
手段と、入力された起点ノードからリンクが張られた2
次ノードを取得する2次ノード取得手段と、前記2次の
ノード取得手段が取得した2次ノードの内容を解析し、
2次ノードの特徴を抽出する2次ノード特徴抽出手段
と、前記起点ノード特徴抽出手段が抽出した起点ノード
の特徴と前記2次ノード特徴抽出手段が抽出した2次ノ
ードの特徴とを比較し、起点ノードに対する2次ノード
の類似性を判定する類似性判定手段と、前記類似性判定
手段で類似であるとされた2次ノードを起点ノードに合
成するノード合成手段と、を有することを特徴とする情
報抽出装置が提供される。
入力されると、起点ノード特徴抽出手段によって起点ノ
ードの特徴が抽出されると共に、2次ノード取得手段に
よって、起点ノードからリンクが張られている2次ノー
ドが取得される。取得された2次ノードは、2次ノード
特徴抽出手段によって特徴が抽出される。そして、類似
性判定手段により起点ノードと2次ノードとの類似性が
判定され、類似した2次ノードが、ノード合成手段によ
って起点ノードに合成される。
報であっても、1つのまとまった情報として取り扱うこ
とが可能となる。また、本発明に係る情報検索方法で
は、上記課題を解決するために、情報の単位であるノー
ドとノード間のリンクで構成されたハイパードキュメン
トシステムにおける情報を検索する情報検索方法におい
て、起点ノードが入力されると、起点ノードの内容を解
析し、起点ノードの特徴を抽出する起点ノード特徴抽出
手段と、入力された起点ノードからリンクが張られた2
次ノードを取得する2次ノード取得手段と、前記2次の
ノード取得手段が取得した2次ノードの内容を解析し、
2次ノードの特徴を抽出する2次ノード特徴抽出手段
と、前記起点ノード特徴抽出手段が抽出した起点ノード
の特徴と前記2次ノード特徴抽出手段が抽出した2次ノ
ードの特徴とを比較し、起点ノードに対する2次ノード
の類似性を判定する類似性判定手段と、前記類似性判定
手段で類似であるとされた2次ノードを起点ノードに合
成するノード合成手段と、を有する情報抽出装置に対し
て起点ノードを入力し、前記情報抽出装置において合成
されたノードを、検索対象の一単位として情報検索を実
行する、ことを特徴とする情報検索方法が提供される。
と、その起点ノードからリンクが張られたノードとの内
容を1つの情報として情報検索を行うことができる。ま
た、本発明に係る情報抽出プログラムを記録した媒体で
は、情報の単位であるノードとノード間のリンクで構成
されたハイパードキュメントシステムの情報をコンピュ
ータに抽出させるための情報抽出プログラムを記録した
媒体において、起点ノードが入力されると、起点ノード
の内容を解析し、起点ノードの特徴を抽出する起点ノー
ド特徴抽出手段、入力された起点ノードからリンクが張
られた2次ノードを取得する2次ノード取得手段、前記
2次のノード取得手段が取得した2次ノードの内容を解
析し、2次ノードの特徴を抽出する2次ノード特徴抽出
手段、前記起点ノード特徴抽出手段が抽出した起点ノー
ドの特徴と前記2次ノード特徴抽出手段が抽出した2次
ノードの特徴とを比較し、起点ノードに対する2次ノー
ドの類似性を判定する類似性判定手段、前記類似性判定
手段で類似であるとされた2次ノードを起点ノードに合
成するノード合成手段、としてコンピュータを機能させ
るための情報抽出プログラムを記録した媒体が提供され
る。
実行すれば、起点ノードが入力されると、起点ノードの
内容を解析し、起点ノードの特徴を抽出する起点ノード
特徴抽出手段と、入力された起点ノードからリンクが張
られた2次ノードを取得する2次ノード取得手段と、2
次のノード取得手段が取得した2次ノードの内容を解析
し、2次ノードの特徴を抽出する2次ノード特徴抽出手
段と、起点ノード特徴抽出手段が抽出した起点ノードの
特徴と2次ノード特徴抽出手段が抽出した2次ノードの
特徴とを比較し、起点ノードに対する2次ノードの類似
性を判定する類似性判定手段と、類似性判定手段で類似
であるとされた2次ノードを起点ノードに合成するノー
ド合成手段とを、コンピュータ上で構築することができ
る。その結果、意味的まとまりを持つ情報を一単位とし
た情報の抽出を、コンピュータに行わせることが可能と
なる。
を参照して説明する。図1は、第1の実施の形態に係る
情報抽出装置を示すブロック図である。ここで、一人の
ドキュメントオーサが、ある情報を3つのノード1〜3
に分割して、ドキュメントを作成した場合を考える。こ
の例では、ノード1から2つのノード2,3に対してリ
ンクが張られている。そして、情報抽出装置10に対し
て、ノード1が起点ノードとして入力されたものとす
る。
ドが入力されると、起点ノードの内容を解析し、起点ノ
ードの特徴を抽出する。抽出した特徴は、起点ノード特
徴プロファイル11aとして類似性判定手段14に渡さ
れる。ここで、ノードの特徴に関する情報とは、そのノ
ードの内容を特徴付ける単語とその重要度を示す値の対
の集合を指す。例えば、起点ノードに出現する各単語に
関する出現頻度、出現位置及び品詞の情報に基づいて重
み付けすることにより、起点ノード特徴プロファイル1
1aを作成する。
点ノードからリンクが張られたノード2,3を2次ノー
ドとして取得する。取得した2次ノードは、2次ノード
特徴抽出手段13に渡される。
ド取得手段12が取得した2次ノードの内容を解析し、
各2次ノードの特徴を抽出する。抽出した特徴は、2次
ノード特徴プロファイル13aとして類似性判定手段1
4に渡される。2次ノード特徴抽出手段13も起点ノー
ド特徴抽出手段11と同様に、2次ノードに出現する各
単語に関する出現頻度、出現位置及び品詞の情報に基づ
いて重み付けすることにより、2次ノード特徴プロファ
イル13aを作成することができる。
出手段11で得られた起点ノードの特徴と2次ノード特
徴抽出手段13で得られた各2次ノードの特徴とを比較
し、起点ノードに対する2次ノードの類似性を判定す
る。起点ノードに類似すると判断された2次ノードの情
報は、ノード合成手段15に渡される。ノード合成手段
15は、類似性判定手段14で類似であるとされた2次
ノードを起点ノードに合成する。
ードに類似する2次ノードを合成した合成ノード4が得
られる。なお、この情報抽出装置に対する起点ノードの
入力は、例えば、従来のハイパードキュメントの情報検
索において予めノードを(ランダムに)スキャンした際
に得られたノードを、起点ノードとして入力する。この
場合、本発明の情報抽出装置10から出力される合成ノ
ード4が検索対象となる。
われる処理の詳細を、以下に説明する。まず、特徴抽出
の処理手順について説明する。
チャートである。このフローチャートでは、起点ノード
を受け取った起点ノード特徴抽出手段11の処理として
説明するが、2次ノードを受け取った2次ノード特徴抽
出手段13が行う処理も同様の処理である。以下、各処
理をステップ番号に沿って説明する。 〔S1〕起点ノードが与えられ、その情報ソースが起点
ノード特徴抽出手段11に入力される。 〔S2〕情報ソースから、ハイパードキュメントシステ
ム記述言語(例えば、HTML)で定義されたタグを除
去する。 〔S3〕既知の形態素解析技術を用いて、残されたテキ
ストから単語を抽出する。 〔S4〕ステップS3で得られた単語の集合から重要単
語だけを抽出する。ここで、重要単語とは情報ソースの
内容を特徴付けている単語のことであり、例えば、名詞
だけを重要単語とするといった方法で抽出する。 〔S5〕ステップS4で得られた重要単語に対して、出
現頻度や出現位置を考慮して、重み付けをする。すなわ
ち、出現頻度の高い単語ほど重要度を高くする。また、
出現位置が文書の先頭に近いほど重要度を高くする。 〔S6〕最後に、重要単語とその重みとの組からなるリ
ストを作成し、これを起点ノード特徴プロファイル11
aとする。
徴プロファイル11a(単数)は、類似性判定手段14
に渡される。また、起点ノードは、2次ノード取得手段
12にも渡されており、2次ノード取得手段12は、受
け取ったノード1の情報ソースに含まれるリンク情報を
検索し、そのリンク先のノードを2次ノードとして取得
する。例えば、起点ノードがHTMLで作成されていれ
ば、アンカータグ(<A>...</A>)で囲まれた
領域内のURL(Uniform Resource Locator)を抽出し、
そのURLで指定された文書(2次ノード)を取得す
る。
ードの集合は、2次ノード特徴抽出手段13に渡され
る。そして、2次ノード抽出手段12によって、図2に
示したフローチャートと同様の処理が実行され、各2次
ノードに対する2次ノード特徴プロファイル13aが作
成される。その2次ノードの特徴プロファイル13a
(一般に複数)は、類似性判定手段14に渡される。こ
れにより、類似性判定手段14には、起点ノード特徴プ
ロファイル11aと複数の2次ノード特徴プロファイル
13aとが渡されたことになる。
実行される処理の流れの具体例を説明する。図3は、類
似性判定手段の処理手順を示すフローチャートである。
以下の処理をステップ番号に沿って説明する。 〔S11〕変数「n」に対して、n=1という初期化を
行う。また、2次ノード取得手段12が取得した2次ノ
ードの数を変数「m」に代入する。ここで、2次ノード
特徴プロファイルは、1〜mの順番に並べられる。 〔S12〕起点ノードの特徴プロファイルを取得する。 〔S13〕nとmの大小を比較して、n>mであれば処
理を終了し、そうでなければステップS14に進む。 〔S14〕n番目の、2次ノードの特徴プロファイルを
取得する。 〔S15〕ステップS12で得られた起点ノード特徴プ
ロファイルとステップS14で得られた2次ノード特徴
プロファイルとの類似度を計算する。この類似度計算に
は、既知のベクター内積演算手法を用いる。 〔S16〕ステップS15で得られた類似度の値と閾値
を比較して、類似度>閾値であれば、ステップS17に
進み、そうでなければ、ステップS18に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。類似度をベクター内積演算手法
で計算した場合には、閾値の値としては、例えば0.1
程度の値を設定する。 〔S17〕類似度が閾値より大きければ、n番目の2次
ノードを起点ノードへ合成するノードの候補として記憶
する。 〔S18〕nの値に1を加算して、ステップS13に進
む。
特徴プロファイルについて、起点ノード特徴プロファイ
ルとの間の類似性の有無が判定される。そして、ステッ
プS17において、合成するノードの候補として記憶さ
れた2次ノードの集合と、起点ノードとがノード合成手
段15に渡される。最後に、ノード合成手段15が、起
点ノードに、類似性有りと判定された全ての2次ノード
を合成し、合成ノード4とする。
報検索の対象とすれば、例えば、「概念A」に類似する
情報を検索した場合に、ノード1単独では「概念A」と
非類似であっても、ノード1と2次ノードとを合成した
合成ノードと「概念A」とが類似していれば、検索結果
としてノード1を得ることができる。ノード1を得たユ
ーザは、そのノード1からリンクをたどり、目的の「概
念A」に類似する情報の全てにアクセスできる。
は2次ノード特徴抽出手段13が重要単語の重み付けを
する際に、HTMLなどのタグにより強調されている文
字を、重要度の高い単語とすることもできる。それに
は、図2の処理の順番を入れ替え、ステップS2の処理
を、ステップS5とステップS6との間で行う必要があ
る。さらに、ステップS3の単語抽出処理においては、
文字を強調するためのタグと、そのタグの中に記載され
ている文字とは、分離せずに抽出する。文字を強調する
タグに囲まれた領域から複数の単語を抽出する際には、
それぞれの単語に対して、タグの情報を付加しておく。
これにより、重要単語の重み付けをする際に、どの単語
が強調表示されていたのかを識別できる。
説明する。図4は、第2の実施の形態に係る情報抽出装
置の構成を示す図である。この実施の形態は、図1に示
した情報抽出装置10に対して、ノードパス名による新
規ノード取得判定機能を付加した情報抽出装置20の例
である。なお、この実施の形態における起点ノード特徴
抽出手段21、2次ノード特徴抽出手段23、類似性判
定手段24及びノード合成手段25は、図1に示すの同
名の構成要素と同様の機能を有しているため、これらの
機能の説明は省略する。
て、ノードパス名記憶手段26は、起点ノードが入力さ
れた際に、起点ノードからノードパス名を抽出し、その
ノードパス名を格納する。したがって、初期状態では起
点ノードのパス名のみが記憶されている。そして、2次
ノード取得判定手段28からの要求に応じて、格納して
いるノードパス名を送出するとともに、2次ノード取得
判定手段28から順次送られる2次ノードのパス名を記
憶していく。
ードとして入力されたノードからリンク付けられている
全ての2次ノードのパス名を抽出する。抽出したパス名
は、2次ノード取得判定手段28に渡す。
ス名記憶手段26において記憶されているノードパス名
と、2次ノードパス名取得手段27から渡された2次ノ
ードのパス名が同一であるか否かを判定し、同一でない
と判定された2次ノードのパス名は、ノードパス名記憶
手段26と2次ノード取得手段22とに渡す。
実施の形態の2次ノード取得手段12(図1に示す)と
若干異なる。この実施の形態における2次ノード取得手
段22は、起点ノードからリンクが張られている全ての
2次ノードを取得するのではなく、2次ノード取得判定
手段28からパス名が渡された全ての2次ノードを取得
する。すなわち、2次ノード取得判定手段28によりノ
ードパス名記憶手段26に同一のパス名が存在しないと
判定された2次ノードのみを取得する。取得した2次ノ
ードは、2次ノード特徴抽出手段23に渡す。
ド1aが起点ノードとして入力された場合を考える。な
お、ノード1aには、ノード2a,3aへのリンクが重
複して設けられているものとする。
ドとして入力されると、起点ノード特徴抽出手段21に
よって、ノード1aの内容が解析され、ノード1aの特
徴が起点ノード特徴プロファイルとして類似性判定手段
24に渡される。また、ノードパス名記憶手段26が初
期化され、ノード1aのノードパス名がノードパス名記
憶手段26に記憶される。さらに、2次ノードパス名取
得手段27によって、ノード1aからリンクが張られて
いるノード2a,3aのパス名が抽出され、2次ノード
取得判定手段28に渡される。この例では、ノード2
a,3aのパス名は複数個抽出される。
り、ノード2a,3aのパス名がノードパス名記憶手段
26に格納されているか否かが判定される。ノード2
a、3aのパス名は複数抽出されるため、最初の判定で
はノードパス名記憶手段26には格納されていないと判
定され、そのノードパス名はノードパス名記憶手段26
に格納されると共に、2次ノード取得手段22に渡され
る。そして、2回目以降の判定では、ノード2a、3a
のパス名はノードパス名記憶手段26に格納されている
と判定される。ノードパス名記憶手段26に格納されて
いないと判定されたノードパス名のみが2次ノード取得
手段22に渡されるため、結果的に、ノード2aとノー
ド3aとのノードパス名がそれぞれ1つずつ2次ノード
取得手段22に渡される。
得判定手段28から受け取ったノード2a,3aのパス
名に基づいて、それぞれのノード2a,3aを取得す
る。取得したノード2a,3aの内容は、2次ノード特
徴抽出手段23に渡される。
りノード2a,3aのそれぞれの内容の特徴が抽出さ
れ、その特徴に関する情報が類似性判定手段24に渡さ
れる。そして、類似性判定手段24により、起点ノード
特徴抽出手段21で抽出された内容の特徴と2次ノード
特徴抽出手段23で抽出された内容の特徴の比較が行わ
れ、類似性が判定される。類似であると判定された場合
には、そのノードの内容が、ノード合成手段25によっ
て起点ノードに合成され、合成ノード4aが生成され
る。
リンクが張られている場合であっても、各2次ノードは
1度ずつしか取得されない。したがって、1つの2次ノ
ードが重複して起点ノードに合成されてしまうことがな
くなるとともに、無駄な処理を省くことができる。
する関連ノードとの類似判断を行う場合(起点ノードか
らリンクをたどることによりアクセス可能な全てのノー
ド若しくはその一部との類似判断を行う場合)に適用す
ると、処理の効率を非常に向上させることができる。す
なわち、複数のノードから同じノードへリンクが張られ
ていることはよくあるため、その場合の重複した処理を
排除できる。
説明する。図5は、第3の実施の形態に係る情報抽出装
置の構成を示す図である。これは、ノードが存在するサ
ーバの情報による新規ノード取得判定機能を付加した情
報抽出装置30の例である。なお、この実施の形態にお
ける起点ノード特徴抽出手段31、2次ノード取得手段
32、2次ノード特徴抽出手段33、類似性判定手段3
4及びノード合成手段35は、図1に示す同名の構成要
素と同様の機能を有しているため、これらの機能の説明
は省略する。
6は、ある起点ノードが与えられたときに、そのノード
のパス名を解析してそのノードが存在するサーバを特定
する。そして、特定したサーバ名を記憶する。記憶され
たサーバ名は、2次ノード取得判定手段38に渡され
る。
ノードからリンク付けられている全ての2次ノードのパ
ス名を解析して、そのノードが存在するサーバを特定す
る。そして、特定したサーバ名と2次ノードのパス名と
の対を、2次ノードサーバ名情報として記憶する。
バ名抽出手段36に記憶された起点ノードのサーバ名
と、2次ノードサーバ名抽出手段37に記憶された各2
次ノードのサーバ名とを既知のパタンマッチング技術を
用いて解析し、それらが同一のものであるか否かを判定
する。同一であると判断した場合には、該当する2次ノ
ードのサーバ名と対になっている2次ノードのパス名
を、2次ノード取得手段32に渡す。
ド41aを起点ノードとして入力する場合を考える。な
お、ノード41aからは、同じサーバ41内のノード4
1bと、異なるサーバ42内のノード42aに対してリ
ンクが張られているものとする。
ードとして入力されると、起点ノード特徴抽出手段31
によって、ノード41aの内容が解析され、ノード41
aの特徴が起点ノード特徴プロファイルとして類似性判
定手段34に渡される。また、起点サーバ名抽出手段3
6により、ノード41aが格納されているサーバ41の
サーバ名が抽出され、記憶される。さらに、2次ノード
サーバ名抽出手段37により、ノード41aからリンク
付けられている2つのノード41b,42aのパス名
と、そのパス名に含まれるサーバ名とが抽出され、それ
らの対が記憶される。
り、起点ノードであるノード41aのサーバ名と、2次
ノードであるノード41b,42aのサーバ名とが比較
され、同一か否かが判定される。その結果、ノード41
bのサーバ名はノード41aのサーバ名と同一であり、
ノード42aのサーバ名はノード41aのサーバ名と異
なることが判定され、ノード41bのパス名のみが2次
ノード取得手段32に渡される。
得判定手段38から受け取ったノード41bのパス名に
基づいて、そのノード41bを取得する。取得したノー
ド41bの内容は、2次ノード特徴抽出手段33に渡さ
れる。すると、2次ノード特徴抽出手段33によりノー
ド41bの内容の特徴が抽出され、その特徴に関する情
報が類似性判定手段34に渡される。そして、類似性判
定手段34により、起点ノード特徴抽出手段31で抽出
された内容の特徴と2次ノード特徴抽出手段33で抽出
された内容の特徴の比較が行われ、類似性が判定され
る。類似であると判定された場合には、そのノードの内
容が、ノード合成手段35によって起点ノードに合成さ
れ、合成ノード41cが生成される。
みが類似性判断の対象となり、他のサーバ内のノードへ
リンクが張られていても、そのノードにはアクセスしな
い。そのため、処理が簡略化され高速化が図れる。な
お、一人のドキュメントオーサが作成した1つの意味的
まとまりをもった情報は、同じサーバ内に格納されてい
ることがほとんどである。したがって、他のサーバに格
納された2次ノードを処理対象から除外しても、生成さ
れる合成ノード41cには、ノード41aを作成したド
キュメントオーサの意図が十分に反映される。次に、本
発明の第4の実施の形態について説明する。
装置の構成を示す図である。この情報抽出装置50は、
図1に示した情報抽出装置10に、再帰的処理を付加し
たものである。なお、この実施の形態における起点ノー
ド特徴抽出手段51及びノード合成手段25は、図1に
示すの同名の構成要素と同様の機能を有しているため、
これらの機能の説明は省略する。
入力された際に、そのノードからリンクが張られている
2次ノードを取得するとともに、取得したノードからさ
らにリンクが張られているノード(関連ノード)を順次
取得する。そして、他のノードへのリンクがなくなるま
で行う。この時の取得される2次ノードより後の各ノー
ドを、N次ノードとする(N=3,4,...)。
ド取得手段52が抽出した2次〜N次の各ノードの特徴
を抽出し、関連ノード特徴プロファイルを作成する。作
成した関連ノード特徴プロファイルは、類似性判定手段
54に渡す。
出手段53が作成した関連ノード特徴プロファイルに基
づいて、起点ノードからリンクを辿ることによりアクセ
ス可能な全てのノードの起点ノードに対する類似性の判
断処理を行う。そして、類似しているノードの内容を、
ノード合成手段55に渡す。類似性判定手段54の処理
の詳細を以下に示す。
示すフローチャートである。この処理は全て類似性判定
手段54によって行われる。 〔S21〕N=2という初期化を行う。 〔S22〕N次ノードが存在するか否かが判定される。
存在すればステップS23に進み、そうでなければ処理
を終了する。 〔S23〕p=1という初期化を行う。また、N次ノー
ドの個数をmとする。 〔S24〕pとmの大小を比較して、p>mであればス
テップS29に進み、そうでなければステップS25に
進む。 〔S25〕起点ノードとp番目のN次ノードの類似度を
前述の方法(既知のベクター内積演算手法)で計算す
る。 〔S26〕ステップS25で得られた類似度の値と閾値
を比較して、類似度>閾値であれば、ステップS27に
進み、そうでなければ、ステップS28に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。 〔S27〕p番目のN次ノードを起点ノードへ合成する
ノードの候補として記憶する。 〔S28〕pの値に1を加算して、ステップS24に進
む。 〔S29〕Nの値に1を加算して、ステップS22に進
む。
ことによりアクセス可能な全てのノードの中から、起点
ノードに類似した内容を有するものが抽出される。ここ
で、ノード61を起点ノードとして入力する場合を考え
る(図6参照)。なお、ノード61からは、2つのノー
ド62,63へリンクが張られている。これらのノード
62,63が2次ノードとなる。ノード62,63から
も他のノードへリンクが張られており、最終的にノード
64〜66までリンクが張られている。
ると、起点ノード特徴抽出手段51によって、ノード6
1の内容が解析され、ノード61の特徴が起点ノード特
徴プロファイルとして類似性判定手段54に渡される。
また、関連ノード取得手段52によって、ノード61か
らリンクが張られているノード62,63のノードパス
名を抽出し、ノード62,63を取得する。さらに、ノ
ード62,63からリンクを辿ることによりアクセスで
きるノードをN次のノード64〜66まで全て取得す
る。取得したノードは、関連ノード特徴抽出手段53に
渡される。そして、関連ノード特徴抽出手段53によっ
て各ノードの内容の特徴が抽出され、関連ノード特徴プ
ロファイルが作成される。すると、類似性判定手段54
により、ノード61に類似する内容を有している関連ノ
ードが全て抽出される。そして、抽出された全てのノー
ドが、ノード合成手段55により起点ノードに合成さ
れ、合成ノード61aが生成される。
張られている2次ノードに限らず、起点ノードからリン
クを辿ることによりアクセス可能な全てのノードを、類
似性の判断対象とすることにより、ドキュメントオーサ
が多階層によるハイパードキュメントを作成しても、そ
れらの全てを1つのまとまりとして情報抽出の対象とす
ることができる。
る。この実施の形態は、ローカルな制約で制御される再
帰的処理を付加した情報抽出装置の例である。具体的に
は、N次ノードとその親のノードとの間の類似性に基づ
いて、そのノードを合成すべきか否かを判断するもので
ある。なお、この実施の形態に必要な構成要素は第4の
実施の形態と同じであるが、類似性判定手段が実行する
処理内容が異なる。そこで、第5の実施の形態における
類似性判定手段の処理手順を以下に説明する。
判定処理を示すフローチャートである。 〔S31〕N =2という初期化を行う。 〔S32〕N次ノードが存在するか否かが判定される。
存在すればステップS33に進み、そうでなければ処理
を終了する。 〔S33〕p=1という初期化を行う。また、N次ノー
ドの個数をmとする。 〔S34〕pとmの大小を比較して、p>mであればス
テップS39に進み、そうでなければステップS35に
進む。 〔S35〕p番目のN次ノードとその親ノード(つま
り、N−1次ノードのうち該p番目のN次ノードをリン
クで指したもの)の類似度を既知のベクター内積演算手
法で計算する。 〔S36〕ステップS35で得られた類似度の値と閾値
を比較して、類似度>閾値であれば、ステップS37に
進み、そうでなければ、ステップS38に進む。ここ
で、閾値は予め設定された値であり、その大小で類似性
の許容範囲を調整する。 〔S37〕p番目のN次ノードを起点ノードへ合成する
ノードの候補として記憶する。 〔S38〕pの値に1を加算して、ステップS34に進
む。 〔S39〕Nの値に1を加算して、ステップS32に進
む。
とにより、起点ノードでは本題の内容にあまり踏み込ま
ずに、2次ノード以降において詳細な記載をしている場
合であっても、親子関係にあるノード間で類似した内容
が記載されいれば、その記載内容を合成ノードに含める
ことができる。
図9は、第6の実施の形態に係る情報抽出装置の構成を
示す図である。この実施の形態は、グローバルな制約で
制御される再帰的処理を付加した情報抽出装置の例であ
る。具体的には、類似していると判断されたノードをそ
の都度起点ノードに合成していき、関連ノードとそれ以
前に作成されている合成ノードとの間の類似性に基づ
き、そのノードを合成すべきか否かを判断するものであ
る。なお、この実施の形態における起点ノード特徴抽出
手段71、関連ノード取得手段72及び関連ノード特徴
抽出手段73は、図6に示すの同名の構成要素と同様の
機能を有しているため、これらの機能の説明は省略す
る。
された場合、及び類似した関連ノードが未検出の場合に
は、起点ノード特徴抽出手段71が作成した起点ノード
特徴プロファイルと、関連ノード特徴抽出手段73が作
成した関連ノード特徴プロファイルとの類似性を判断
し、類似してる場合にはノード合成手段75へ、起点ノ
ードの内容と関連ノードの内容とを渡す。また、類似し
た関連ノードが検出された後は、後述する合成ノード特
徴抽出手段76が作成した合成起点ノード特徴プロファ
イルと、関連ノード特徴抽出手段73が作成した関連ノ
ード特徴プロファイルとの類似性を判断し、類似してる
場合にはノード合成手段75へ、関連ノードの内容を渡
す。
4から起点ノードの内容と関連ノードの内容とを受け取
ると、それらを合成し、その合成ノードを保持すると共
にその複製を合成ノード特徴抽出手段76に渡す。ま
た、類似性判定手段74から関連ノードを受け取ると、
それ以前に作成した合成ノードの内容と受け取った関連
ノードの内容とを合成し、その合成ノードを保持すると
共にその複製を合成ノード特徴抽出手段76に渡す。ま
た、全ての関連ノードに関する類似性の判断が終了する
と、その時点で保持している合成ノード61bを出力す
る。
成手段75から合成ノードを受け取ると、その合成ノー
ドの内容を解析して特徴部分を抽出し、合成ノード特徴
プロファイルを作成する。作成した合成ノード特徴プロ
ファイルは、類似性判定手段74に渡す。
性判定及び合成ノード作成処理を示すフローチャートで
ある。 〔S41〕類似性判定手段74が、N=2という初期化
を行う。 〔S42〕類似性判定手段74が、N次ノードが存在す
るか否かを判定する。存在すればステップS43に進
み、そうでなければ処理を終了する。 〔S43〕類似性判定手段74が、p=1という初期化
を行う。また、N次ノードの個数をmとする。 〔S44〕類似性判定手段74が、pとmの大小を比較
して、p>mであればステップS50に進み、そうでな
ければステップS45に進む。 〔S45〕類似性判定手段74が、p番目のN次ノード
と合成ノード(つまり、この処理が行われるまでに合成
されて得られたノード合成作業は後述のステップS47
において実施される)の類似度を前述の方法で計算す
る。 〔S46〕類似性判定手段74が、ステップS45で得
られた類似度の値と閾値を比較する。その結果、類似度
>閾値であれば、ステップS47に進み、そうでなけれ
ば、ステップS49に進む。ここで、閾値は予め設定さ
れた値であり、その大小で類似性の許容範囲を調整す
る。 〔S47〕ノード合成手段75が、p番目のN次ノード
を合成ノードに合成する。なお、初期の合成ノードは起
点ノードを指す。 〔S48〕合成ノード特徴抽出手段76が、ステップS
47で作成された合成ノードの合成ノード特徴プロファ
イルを作成する。 〔S49〕類似性判定手段74が、pの値に1を加算し
て、ステップS44に進む。 〔S50〕類似性判定手段74が、Nの値に1を加算し
て、ステップS42に進む。
いくことにより、1つの意味内容を持つ情報が細分化さ
れ、個々のノードの内容が希薄なものであっても、複数
の内容を合成した情報に基づいて個々の関連ノードの類
似性の判断を行うことができ、最終的に、ドキュメント
オーサの作成意図に沿った内容の合成ノードを得ること
ができる。
変形例について説明する。この変形例は、最大のN次ノ
ードを予め設定しておくものである。すなわち、N次ノ
ードの最大をMと設定しておき、各実施の形態の類似性
判定処理中の、ステップS22、S32、S42(それ
ぞれ図7、図8、図10に示す)の処理を、以下のよう
な処理に置き換える。 〔S22’〕N>Mであるか否かを判断し、N>Mでな
ければ次の処理(第4の実施の形態ではステップS2
3、第5の実施の形態ではステップS33,第6の実施
の形態ではステップS43)へ進み、N>Mであれば処
理を終了する。ここで、Mは、予め設定される2以上の
自然数である。
終了させることができ、必要以上に深い階層のリンク先
まで類似性判定の対象とすることがなくなる。その結
果、処理の高速化が図れる。
変形例として、各実施の形態の類似性判定処理中の、ス
テップS26、S36、S46(それぞれ図7、図8、
図10に示す)の処理を、以下のような処理に置き換え
てもよい。 〔S26’〕直前のステップで得られた類似度の値と閾
値を比較して、類似度>閾値であれば、合成候補への追
加ステップ(第4の実施の形態ではステップS27、第
5の実施の形態ではステップS37、第6の実施の形態
ではステップS47)に進み、そうでなければ、類似で
ないと判定されたN次ノードからは、N+1次ノードを
取得しないように設定した後、pに1を加算する処理
(第4の実施の形態ではステップS28、第5の実施の
形態ではステップS38、第6の実施の形態ではステッ
プS49)に進む。
よりも先のノードは類似性判定の対象から除外され、処
理の高速化が図れる。ところで、上記の各実施の形態
(若しくはその変形例)で得られた合成ノードを検索対
象の一単位とすれば、ハイパードキュメントの検索処理
の実効を向上させることができる。
クの構造の例を示す図である。この図において、起点ノ
ード81からは、2次ノード82および2次ノード83
にリンクがはられている。2次ノード82,83からも
N次ノード84(N=3,4,...)、N次ノード8
5(N=3,4,...)、およびN次ノード86(N
=3,4,...)にリンクがはられている。従来のハ
イパードキュメント検索手法では、各個別ノード(この
例では6個)がそれぞれ検索対象であったが、本発明で
は、例えばノード81、ノード82、ノード83、およ
びノード85が類似であると判定された場合、これらす
べてのノードを合成してひとつの検索対象とすることが
できる。これにより、あるひとつの意味的まとまりを持
つ情報を複数のノードに分割して構造化しても、検索を
行った際にそれぞれのノードが個別に出力されることが
ない。そのため、検索を行ったユーザへの負担が軽減さ
れる。
形例)で得られた合成ノードを、検索クエリーの一単位
とすることもできる。例えば、図11において、ノード
81が検索クエリーに指定され、そのときノード81、
ノード82、ノード83、およびノード85が類似であ
ると判定された場合、これらすべてのノードを合成して
ひとつの検索クエリーとしてもよい。
ク構造に関する情報の加味した検索を行うことができ、
より検索意図に沿った検索結果を得ることができる。な
お、上記の処理機能は、コンピュータによって実現する
ことができる。その場合、各情報抽出装置が有している
べき機能の処理内容は、コンピュータで読み取り可能な
記録媒体に記録されたプログラムに記述されており、こ
のプログラムをコンピュータで実行することにより、上
記処理がコンピュータで実現される。コンピュータで読
み取り可能な記録媒体としては、磁気記録装置や半導体
メモリ等がある。市場を流通させる場合には、CD−R
OMやフロッピーディスケット等の可搬型記録媒体にプ
ログラムを格納して流通させたり、ネットワークを介し
て接続されたコンピュータの記憶装置に格納しておき、
ネットワークを通じて他のコンピュータに転送すること
もできる。コンピュータで実行する際には、コンピュー
タ内のハードディスク装置等にプログラムを格納してお
き、メインメモリにロードして実行する。
出装置では、起点ノードと、その起点ノードからリンク
が張られている2次ノードとの類似性を判定し、類似し
た2次ノードを起点ノードに合成するようにしたため、
意味的まとまりを持つ情報がハイパードキュメントのノ
ード群として構築されていても、それらを、ある1つの
意味的まとまりを持つ情報として捉えることが可能とな
る。
報抽出装置で合成されたノードを検索の対象の一単位と
したため、起点ノードのみでは検索条件に合致しない場
合でも、合成されたノードが検索条件に適合していれば
当該ノードを検索結果として取得することができる。
格納した媒体では、格納されている情報抽出プログラム
をコンピュータで実行させることにより、起点ノードを
コンピュータへ入力すれば、起点ノードと、その起点ノ
ードに類似する2次ノードとを合成したノードを取得す
ることができ、ハイパードキュメントにおける意味的ま
とまりを持つ情報を一単位とした情報の抽出をコンピュ
ータに行わせることが可能となる。
ロック図である。
る。
トである。
示す図である。
示す図である。
示す図である。
ャートである。
すフローチャートである。
示す図である。
成ノード作成処理を示すフローチャートである。
を示す図である。
Claims (12)
- 【請求項1】 情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、 入力された起点ノードからリンクが張られた2次ノード
を取得する2次ノード取得手段と、 前記2次のノード取得手段が取得した2次ノードの内容
を解析し、2次ノードの特徴を抽出する2次ノード特徴
抽出手段と、 前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記2次ノード特徴抽出手段が抽出した2次ノード
の特徴とを比較し、起点ノードに対する2次ノードの類
似性を判定する類似性判定手段と、 前記類似性判定手段で類似であるとされた2次ノードを
起点ノードに合成するノード合成手段と、 を有することを特徴とする情報抽出装置。 - 【請求項2】 前記起点ノード特徴抽出手段は、起点ノ
ードに出現する単語に関する出現頻度、出現位置及び品
詞の情報に基づいて重み付けすることにより、起点ノー
ドの特徴を抽出し、 前記2次ノード特徴抽出手段は、2次ノードに出現する
単語に関する出現頻度、出現位置及び品詞の情報に基づ
いて重み付けすることにより、2次ノードの特徴を抽出
する、 ことを特徴とする請求項1記載の情報抽出装置。 - 【請求項3】 ノードのパス名を保持するノードパス名
記憶手段と、 入力された起点ノードからリンクが張られた2次ノード
のパス名を取得する2次ノードパス名取得手段と、 前記2次ノードパス名取得手段が取得した2次ノードの
パス名が、前記ノードパス名記憶手段に保持されている
か否かを判定し、保持されていないと判定された2次ノ
ードを前記ノードパス名記憶手段に格納する2次ノード
取得判定手段とをさらに有し、 前記2次ノード取得手段は、前記2次ノード取得判定手
段によって、前記ノードパス名記憶手段に保持されてい
ないと判定された2次ノードのみを取得することを特徴
とする請求項1の情報抽出装置。 - 【請求項4】 入力された起点ノードのパス名から起点
ノードが存在するサーバ名を抽出する起点サーバ名抽出
手段と、 入力された起点ノードからリンクが張られた2次ノード
から2次ノードが存在するサーバ名を抽出する2次ノー
ドサーバ名抽出手段と、 前記2次ノードサーバ名抽出手段が抽出した2次ノード
のサーバ名が、前記起点サーバ名抽出手段が抽出した起
点ノードのサーバ名と同一であるか否かを判定する2次
ノード取得判定手段とをさらに有し、 前記2次ノード取得手段は、前記2次ノード取得判定手
段により、起点ノードのサーバ名と同一のサーバ名であ
ると判定された2次ノードのみを取得することを特徴と
する請求項1記載の情報抽出装置。 - 【請求項5】 情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、 入力された起点ノードからのリンクをたどることにより
アクセス可能な関連ノードを取得する関連ノード取得手
段と、 前記関連ノード取得手段が取得した関連ノードの内容を
解析し、関連ノードの特徴を抽出する関連ノード特徴抽
出手段と、 前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記関連ノード特徴抽出手段が抽出した関連ノード
の特徴とを比較し、起点ノードに対する関連ノードの類
似性を判定する類似性判定手段と、 前記類似性判定手段で類似であるとされた関連ノードを
起点ノードに合成するノード合成手段と、 を有することを特徴とする情報抽出装置。 - 【請求項6】 情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、 入力された起点ノードからのリンクをたどることにより
アクセス可能な関連ノードを取得する関連ノード取得手
段と、 前記関連ノード取得手段が取得した関連ノードの内容を
解析し、関連ノードの特徴を抽出する関連ノード特徴抽
出手段と、 前記関連ノード特徴抽出手段が抽出した関連ノードの特
徴を、前記起点ノード特徴抽出手段若しくは前記関連ノ
ード特徴抽出手段によって抽出された親ノードの特徴と
比較し、親ノードに対する関連ノードの類似性を判定す
る類似性判定手段と、 前記類似性判定手段で類似であるとされた関連ノードを
起点ノードに合成するノード合成手段と、 を有することを特徴とする情報抽出装置。 - 【請求項7】 情報の単位であるノードとノード間のリ
ンクで構成されたハイパードキュメントシステムから情
報を抽出する情報抽出装置において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、 入力された起点ノードからのリンクをたどることにより
アクセス可能な関連ノードを取得する関連ノード取得手
段と、 前記関連ノード取得手段が取得した関連ノードの内容を
解析し、関連ノードの特徴を抽出する関連ノード特徴抽
出手段と、 類似ノードが与えられるたびに、類似ノードを起点ノー
ドに合成していき合成ノードを生成するノード合成手段
と、 前記ノード合成手段が生成した合成ノードの内容を解析
し、合成ノードの特徴を抽出する合成ノード特徴抽出手
段と、 起点ノードが入力された初期段階では起点ノードを比較
対象ノードとし、類似ノードが検出された後は合成ノー
ドを比較対象ノードとし、前記関連ノード特徴抽出手段
が抽出した関連ノードの特徴を、前記起点ノード特徴抽
出手段若しくは前記合成ノード特徴抽出手段によって抽
出された比較対象ノードの特徴と比較し、比較対象ノー
ドに対する関連ノードの類似性を判定し、比較対象ノー
ドに類似していると判定された関連ノードを類似ノード
として前記ノード合成手段に与える類似性判定手段と、 を有することを特徴とする情報抽出装置。 - 【請求項8】 前記類似性判定手段は、起点ノードから
少ないリンク数で到達できる関連ノードから順に類似性
の判定処理を行い、関連ノードへ達するまでのリンク数
が予め設定された閾値よりも大きくなった時点で、類似
性の判定処理を終了することを特徴とする請求項5乃至
7記載の情報抽出装置。 - 【請求項9】 前記類似性判定手段は、起点ノードから
少ないリンク数で到達できる関連ノードから順に類似性
の判定処理を行い、非類似であると判定された関連ノー
ドを介してのみ到達できる関連ノードに対しては類似性
の判定処理を行わないことを特徴とする請求項5乃至7
記載の情報抽出装置。 - 【請求項10】 情報の単位であるノードとノード間の
リンクで構成されたハイパードキュメントシステムにお
ける情報を検索する情報検索方法において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからリンクが張られた2次
ノードを取得する2次ノード取得手段と、前記2次のノ
ード取得手段が取得した2次ノードの内容を解析し、2
次ノードの特徴を抽出する2次ノード特徴抽出手段と、
前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記2次ノード特徴抽出手段が抽出した2次ノード
の特徴とを比較し、起点ノードに対する2次ノードの類
似性を判定する類似性判定手段と、前記類似性判定手段
で類似であるとされた2次ノードを起点ノードに合成す
るノード合成手段と、を有する情報抽出装置に対して起
点ノードを入力し、 前記情報抽出装置において合成されたノードを、検索対
象の一単位として情報検索を実行する、 ことを特徴とする情報検索方法。 - 【請求項11】 情報の単位であるノードとノード間の
リンクで構成されたハイパードキュメントシステムにお
ける情報を検索する情報検索方法において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段と、入力された起点ノードからリンクが張られた2次
ノードを取得する2次ノード取得手段と、前記2次のノ
ード取得手段が取得した2次ノードの内容を解析し、2
次ノードの特徴を抽出する2次ノード特徴抽出手段と、
前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記2次ノード特徴抽出手段が抽出した2次ノード
の特徴とを比較し、起点ノードに対する2次ノードの類
似性を判定する類似性判定手段と、前記類似性判定手段
で類似であるとされた2次ノードを起点ノードに合成す
るノード合成手段と、を有する情報抽出装置に対して起
点ノードを入力し、 前記情報抽出装置において合成されたノードを、クエリ
ーとして情報検索を実行することを特徴とする情報検索
方法。 - 【請求項12】 情報の単位であるノードとノード間の
リンクで構成されたハイパードキュメントシステムの情
報をコンピュータに抽出させるための情報抽出プログラ
ムを記録した媒体において、 起点ノードが入力されると、起点ノードの内容を解析
し、起点ノードの特徴を抽出する起点ノード特徴抽出手
段、 入力された起点ノードからリンクが張られた2次ノード
を取得する2次ノード取得手段、 前記2次のノード取得手段が取得した2次ノードの内容
を解析し、2次ノードの特徴を抽出する2次ノード特徴
抽出手段、 前記起点ノード特徴抽出手段が抽出した起点ノードの特
徴と前記2次ノード特徴抽出手段が抽出した2次ノード
の特徴とを比較し、起点ノードに対する2次ノードの類
似性を判定する類似性判定手段、 前記類似性判定手段で類似であるとされた2次ノードを
起点ノードに合成するノード合成手段、 としてコンピュータを機能させるための情報抽出プログ
ラムを記録した媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15338797A JP3598738B2 (ja) | 1997-06-11 | 1997-06-11 | 情報抽出装置、情報検索方法及び情報抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15338797A JP3598738B2 (ja) | 1997-06-11 | 1997-06-11 | 情報抽出装置、情報検索方法及び情報抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH113347A true JPH113347A (ja) | 1999-01-06 |
JP3598738B2 JP3598738B2 (ja) | 2004-12-08 |
Family
ID=15561378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15338797A Expired - Fee Related JP3598738B2 (ja) | 1997-06-11 | 1997-06-11 | 情報抽出装置、情報検索方法及び情報抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3598738B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075859A (ja) * | 1999-08-31 | 2001-03-23 | Just Syst Corp | 情報巡回獲得装置 |
JP2010134952A (ja) * | 2010-01-20 | 2010-06-17 | Seiko Epson Corp | 画像データの管理 |
JP2012242859A (ja) * | 2011-05-13 | 2012-12-10 | Nippon Hoso Kyokai <Nhk> | グラフ生成装置およびプログラム |
EP4390798A1 (en) | 2022-12-20 | 2024-06-26 | Fujitsu Limited | Flow control method, flow control program, and information processing device |
-
1997
- 1997-06-11 JP JP15338797A patent/JP3598738B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001075859A (ja) * | 1999-08-31 | 2001-03-23 | Just Syst Corp | 情報巡回獲得装置 |
JP2010134952A (ja) * | 2010-01-20 | 2010-06-17 | Seiko Epson Corp | 画像データの管理 |
JP2012242859A (ja) * | 2011-05-13 | 2012-12-10 | Nippon Hoso Kyokai <Nhk> | グラフ生成装置およびプログラム |
EP4390798A1 (en) | 2022-12-20 | 2024-06-26 | Fujitsu Limited | Flow control method, flow control program, and information processing device |
Also Published As
Publication number | Publication date |
---|---|
JP3598738B2 (ja) | 2004-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6904429B2 (en) | Information retrieval apparatus and information retrieval method | |
US6167370A (en) | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures | |
JP3849318B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US7805288B2 (en) | Corpus expansion system and method thereof | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
JP3577972B2 (ja) | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 | |
US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
US20040010556A1 (en) | Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program | |
JP2001188802A (ja) | 情報検索装置及び情報検索方法 | |
JP3598738B2 (ja) | 情報抽出装置、情報検索方法及び情報抽出方法 | |
JP2003196294A (ja) | 知識分析システムおよび知識分析方法 | |
JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
JPH11272709A (ja) | ファイル検索方式 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR100621737B1 (ko) | 웹사이트 자동 분류방법 | |
Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
JP3637756B2 (ja) | 情報検索装置、情報検索方法および記録媒体 | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
JPH10207896A (ja) | 検索用語拡張方法及び装置及び情報検索方法及び装置 | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2004157830A (ja) | 情報検索プログラム | |
CN116910054A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040906 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070924 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080924 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100924 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |