JP3598738B2 - 情報抽出装置、情報検索方法及び情報抽出方法 - Google Patents

情報抽出装置、情報検索方法及び情報抽出方法 Download PDF

Info

Publication number
JP3598738B2
JP3598738B2 JP15338797A JP15338797A JP3598738B2 JP 3598738 B2 JP3598738 B2 JP 3598738B2 JP 15338797 A JP15338797 A JP 15338797A JP 15338797 A JP15338797 A JP 15338797A JP 3598738 B2 JP3598738 B2 JP 3598738B2
Authority
JP
Japan
Prior art keywords
node
feature
origin
information
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15338797A
Other languages
English (en)
Other versions
JPH113347A (ja
Inventor
雄大 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP15338797A priority Critical patent/JP3598738B2/ja
Publication of JPH113347A publication Critical patent/JPH113347A/ja
Application granted granted Critical
Publication of JP3598738B2 publication Critical patent/JP3598738B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は情報抽出装置、情報検索方法及び情報抽出方法に関し、特に情報をノードとノード間のリンクで構成したハイパードキュメントシステムから情報を抽出する情報抽出装置、その情報抽出装置を用いた情報検索方法及び情報抽出方法に関する。
【0002】
【従来の技術】
ハイパードキュメントシステムでは、取り扱われる情報をいくつかの小さな単位(ノード)に分割し、それらを関連付けて整理している(このような関連付けを示す情報を、リンクと呼ぶ)。例えば、インターネット上では、WWW(World Wide Web)により、ハイパードキュメントシステムが構築されている。WWWの情報は、HTML(Hyper Text Markup Language)で記述されている。このHTMLは、ノード間のリンクに意味的制約がない。このようにノード間のリンクに意味的制約を持たないシステムには、ドキュメントオーサ(作者)が意のままにコンテンツとリンク構造を決めることができるという利点がある。そして、このようなハイパードキュメントシステムにより、ドキュメントリーダ(読者)は、ドキュメントオーサの構築したリンク構造をたどり、そのドキュメントオーサが提供する全ての情報に対してアクセスできる。
【0003】
ところで、インターネットなどのハイパードキュメントシステムの情報量は膨大である。そのため、ドキュメントリーダが必要な情報を見つけ出すには、情報検索を支援するシステムが必要である。そのような検索を支援する従来技術としては、以下の2つがある。
【0004】
第1の従来技術は、予めできるだけ大量のノードを(ランダムに)スキャンして各ノードの検索インデックスを用意しておき、ドキュメントリーダからのクエリー(キーワードの組み合わせ)に対してマッチするものを提示するものである。なお、検索インデックス作成およびクエリーとのマッチングに間する要素技術として、統計的言語処理手法であるベクタースペースモデル(G. Salton & J. Allan, Text Retrieval Using the Vector Processing Model, in Proc. of SDAIR94 )が考案されている。
【0005】
第2の従来技術は、予めできるだけ大量のノードを(ランダムに)スキャンして、それらをトピックにより分類した木構造のディレクトリに割り当てておくものである。ドキュメントリーダは、欲する情報が含まれると考えられるトピックをディレクトリ上に探し、そこから目指す情報にアクセスする。なお、この技術を実現するための要素技術として、自然言語処理を応用した自動文書分類手法(例えば、P. Jacobs, Joining Statistics with NLP for Text Categorization, in Proc. of Applied−ACL92 )が提案されている。さらに、メディアを画像に拡張した自動文書分類手法(United States Patent: 5526443, T. Nakayama (FXPAL), Method and apparatus for highlighting and categorizing documents using coded word tokens, issue date:1996.6.11)も考案されている。
【0006】
【発明が解決しようとする課題】
しかし、これらの従来技術では、1つのノード(例えば、1つのHTML文書)を1つの検索対象単位とするため、ノードとリンクによる構造で概念を表現するというハイパードキュメントシステムの本質を捉えることができず、以下に示すような問題が生じている。
【0007】
ある情報をいくつのノードに分割してどのように構造化するかは、ドキュメントオーサの嗜好によるものであるにもかかわらず、ノードを一単位とするような検索では、ハイパーネットワーク上に構造化されたノード群を、大局的にある1つの意味的まとまりを持つ情報として捉えることができない。つまり、従来技術による検索では、意味的に不完全な情報断片だけを検索対象とすることになり、コンテキストが検索に反映されない。
【0008】
例えば、一人のドキュメントオーサが作成した1つの意味的まとまりをもった情報が、複数のHTML文書に分割されて表現されている場合、従来技術で文書検索を行うと、各HTML文書が個別の検索対象となる。ここで、ドキュメントリーダが「概念A」に類似する情報を検索すると、当該ドキュメントオーサが作成した情報が全体として「概念A」に類似していても、分割された個々のノードが「概念A」に類似していなければ、この情報(若しくは一部のノード)が検出されることはない。
【0009】
しかも、1つのノードを検索対象単位とすると、検索要求を表す概念をハイパーネットワーク上の構造で表現することができないという問題点もある。
さらには、ドキュメントオーサが、ある1つの意味的まとまりを持つ情報を複数のノードに分割して構造化した場合、従来の検索ではそれぞれのノードが個別に出力され、冗長性が生じるという問題点もある。一人のドキュメントオーサが1つの意味的まとまりを持つ情報として作成した一連のHTML文書が個別に出力されると、検索結果の量が膨れ上がってしまい、目的に合致した文書を探し出すためのドキュメントリーダの労力が増加してしまう。
【0010】
本発明はこのような点に鑑みてなされたものであり、意味的まとまりを持つ情報を一単位として情報を抽出できる情報抽出装置を提供することを目的とする。また、本発明の別の目的は、意味的まとまりを持つ情報を一単位として情報を抽出できる情報抽出装置を用いた有効な情報検索方法を提供することである。
【0011】
また、本発明の他の目的は、意味的まとまりを持つ情報を一単位として情報を抽出できる情報抽出方法を提供することである。
【0012】
【課題を解決するための手段】
本発明に係る情報抽出装置では、上記課題を解決するために、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、入力された起点ノードからリンクが張られた2次ノードを取得する2次ノード取得手段と、前記2次のノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出する2次ノード特徴抽出手段と、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定する類似性判定手段と、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するノード合成手段と、を有することを特徴とする情報抽出装置が提供される。
【0013】
この情報抽出装置によれば、起点ノードが入力されると、起点ノード特徴抽出手段によって起点ノードの特徴が抽出されると共に、2次ノード取得手段によって、起点ノードからリンクが張られている2次ノードが取得される。取得された2次ノードは、2次ノード特徴抽出手段によって特徴が抽出される。そして、類似性判定手段により起点ノードと2次ノードとの類似性が判定され、類似した2次ノードが、ノード合成手段によって起点ノードに合成される。
【0014】
これにより、複数のノードに分割された情報であっても、1つのまとまった情報として取り扱うことが可能となる。
また、本発明に係る情報検索方法では、上記課題を解決するために、コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムにおける情報を検索する情報検索方法において、起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、2次ノード取得手段が、入力された起点ノードからリンクが張られた2次ノードを取得するステップと、2次ノード特徴抽出手段が、前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出するステップと、類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定するステップと、ノード合成手段が、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するステップと、検索手段が、情報抽出装置において合成されたノードを、検索対象の一単位として情報検索を実行するステップと、を有することを特徴とする情報検索方法が提供される。
【0015】
この情報検索方法によれば、起点ノードと、その起点ノードからリンクが張られたノードとの内容を1つの情報として情報検索を行うことができる。
また、本発明に係る情報抽出プログラムを記録した媒体では、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムの情報をコンピュータに抽出させるための情報抽出プログラムを記録した媒体において、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段、入力された起点ノードからリンクが張られた2次ノードを取得する2次ノード取得手段、前記2次のノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出する2次ノード特徴抽出手段、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定する類似性判定手段、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するノード合成手段、としてコンピュータを機能させるための情報抽出プログラムを記録した媒体が提供される。
【0016】
この情報抽出プログラムをコンピュータで実行すれば、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、入力された起点ノードからリンクが張られた2次ノードを取得する2次ノード取得手段と、2次のノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出する2次ノード特徴抽出手段と、起点ノード特徴抽出手段が抽出した起点ノードの特徴と2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定する類似性判定手段と、類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するノード合成手段とを、コンピュータ上で構築することができる。その結果、意味的まとまりを持つ情報を一単位とした情報の抽出を、コンピュータに行わせることが可能となる。
【0017】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図1は、第1の実施の形態に係る情報抽出装置を示すブロック図である。ここで、一人のドキュメントオーサが、ある情報を3つのノード1〜3に分割して、ドキュメントを作成した場合を考える。この例では、ノード1から2つのノード2,3に対してリンクが張られている。そして、情報抽出装置10に対して、ノード1が起点ノードとして入力されたものとする。
【0018】
起点ノード特徴抽出手段11は、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する。抽出した特徴は、起点ノード特徴プロファイル11aとして類似性判定手段14に渡される。ここで、ノードの特徴に関する情報とは、そのノードの内容を特徴付ける単語とその重要度を示す値の対の集合を指す。例えば、起点ノードに出現する各単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、起点ノード特徴プロファイル11aを作成する。
【0019】
2次ノード取得手段12は、入力された起点ノードからリンクが張られたノード2,3を2次ノードとして取得する。取得した2次ノードは、2次ノード特徴抽出手段13に渡される。
【0020】
2次ノード特徴抽出手段13は、2次ノード取得手段12が取得した2次ノードの内容を解析し、各2次ノードの特徴を抽出する。抽出した特徴は、2次ノード特徴プロファイル13aとして類似性判定手段14に渡される。2次ノード特徴抽出手段13も起点ノード特徴抽出手段11と同様に、2次ノードに出現する各単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、2次ノード特徴プロファイル13aを作成することができる。
【0021】
類似性判定手段14は、起点ノード特徴抽出手段11で得られた起点ノードの特徴と2次ノード特徴抽出手段13で得られた各2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定する。起点ノードに類似すると判断された2次ノードの情報は、ノード合成手段15に渡される。ノード合成手段15は、類似性判定手段14で類似であるとされた2次ノードを起点ノードに合成する。
【0022】
これにより、起点ノードに対して、そのノードに類似する2次ノードを合成した合成ノード4が得られる。
なお、この情報抽出装置に対する起点ノードの入力は、例えば、従来のハイパードキュメントの情報検索において予めノードを(ランダムに)スキャンした際に得られたノードを、起点ノードとして入力する。この場合、本発明の情報抽出装置10から出力される合成ノード4が検索対象となる。
【0023】
このような構成の情報抽出装置によって行われる処理の詳細を、以下に説明する。
まず、特徴抽出の処理手順について説明する。
【0024】
図2は、特徴抽出処理の流れを示すフローチャートである。このフローチャートでは、起点ノードを受け取った起点ノード特徴抽出手段11の処理として説明するが、2次ノードを受け取った2次ノード特徴抽出手段13が行う処理も同様の処理である。以下、各処理をステップ番号に沿って説明する。
〔S1〕起点ノードが与えられ、その情報ソースが起点ノード特徴抽出手段11に入力される。
〔S2〕情報ソースから、ハイパードキュメントシステム記述言語(例えば、HTML)で定義されたタグを除去する。
〔S3〕既知の形態素解析技術を用いて、残されたテキストから単語を抽出する。
〔S4〕ステップS3で得られた単語の集合から重要単語だけを抽出する。ここで、重要単語とは情報ソースの内容を特徴付けている単語のことであり、例えば、名詞だけを重要単語とするといった方法で抽出する。
〔S5〕ステップS4で得られた重要単語に対して、出現頻度や出現位置を考慮して、重み付けをする。すなわち、出現頻度の高い単語ほど重要度を高くする。また、出現位置が文書の先頭に近いほど重要度を高くする。
〔S6〕最後に、重要単語とその重みとの組からなるリストを作成し、これを起点ノード特徴プロファイル11aとする。
【0025】
このようにして得られた、起点ノードの特徴プロファイル11a(単数)は、類似性判定手段14に渡される。
また、起点ノードは、2次ノード取得手段12にも渡されており、2次ノード取得手段12は、受け取ったノード1の情報ソースに含まれるリンク情報を検索し、そのリンク先のノードを2次ノードとして取得する。例えば、起点ノードがHTMLで作成されていれば、アンカータグ(<A>...</A>)で囲まれた領域内のURL(Uniform Resource Locator)を抽出し、そのURLで指定された文書(2次ノード)を取得する。
【0026】
2次ノード取得手段12が取得した2次ノードの集合は、2次ノード特徴抽出手段13に渡される。そして、2次ノード抽出手段12によって、図2に示したフローチャートと同様の処理が実行され、各2次ノードに対する2次ノード特徴プロファイル13aが作成される。その2次ノードの特徴プロファイル13a(一般に複数)は、類似性判定手段14に渡される。これにより、類似性判定手段14には、起点ノード特徴プロファイル11aと複数の2次ノード特徴プロファイル13aとが渡されたことになる。
【0027】
次に、図1の類似性判定手段14において実行される処理の流れの具体例を説明する。
図3は、類似性判定手段の処理手順を示すフローチャートである。以下の処理をステップ番号に沿って説明する。
〔S11〕変数「n」に対して、n=1という初期化を行う。また、2次ノード取得手段12が取得した2次ノードの数を変数「m」に代入する。ここで、2次ノード特徴プロファイルは、1〜mの順番に並べられる。
〔S12〕起点ノードの特徴プロファイルを取得する。
〔S13〕nとmの大小を比較して、n>mであれば処理を終了し、そうでなければステップS14に進む。
〔S14〕n番目の、2次ノードの特徴プロファイルを取得する。
〔S15〕ステップS12で得られた起点ノード特徴プロファイルとステップS14で得られた2次ノード特徴プロファイルとの類似度を計算する。この類似度計算には、既知のベクター内積演算手法を用いる。
〔S16〕ステップS15で得られた類似度の値と閾値を比較して、類似度>閾値であれば、ステップS17に進み、そうでなければ、ステップS18に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。類似度をベクター内積演算手法で計算した場合には、閾値の値としては、例えば0.1程度の値を設定する。
〔S17〕類似度が閾値より大きければ、n番目の2次ノードを起点ノードへ合成するノードの候補として記憶する。
〔S18〕nの値に1を加算して、ステップS13に進む。
【0028】
これにより、順番が1〜mの各2次ノード特徴プロファイルについて、起点ノード特徴プロファイルとの間の類似性の有無が判定される。そして、ステップS17において、合成するノードの候補として記憶された2次ノードの集合と、起点ノードとがノード合成手段15に渡される。最後に、ノード合成手段15が、起点ノードに、類似性有りと判定された全ての2次ノードを合成し、合成ノード4とする。
【0029】
このようにして得られた合成ノード4を情報検索の対象とすれば、例えば、「概念A」に類似する情報を検索した場合に、ノード1単独では「概念A」と非類似であっても、ノード1と2次ノードとを合成した合成ノードと「概念A」とが類似していれば、検索結果としてノード1を得ることができる。ノード1を得たユーザは、そのノード1からリンクをたどり、目的の「概念A」に類似する情報の全てにアクセスできる。
【0030】
なお、起点ノード特徴抽出手段11若しくは2次ノード特徴抽出手段13が重要単語の重み付けをする際に、HTMLなどのタグにより強調されている文字を、重要度の高い単語とすることもできる。それには、図2の処理の順番を入れ替え、ステップS2の処理を、ステップS5とステップS6との間で行う必要がある。さらに、ステップS3の単語抽出処理においては、文字を強調するためのタグと、そのタグの中に記載されている文字とは、分離せずに抽出する。文字を強調するタグに囲まれた領域から複数の単語を抽出する際には、それぞれの単語に対して、タグの情報を付加しておく。これにより、重要単語の重み付けをする際に、どの単語が強調表示されていたのかを識別できる。
【0031】
次に、本発明の第2の実施の形態について説明する。
図4は、第2の実施の形態に係る情報抽出装置の構成を示す図である。この実施の形態は、図1に示した情報抽出装置10に対して、ノードパス名による新規ノード取得判定機能を付加した情報抽出装置20の例である。なお、この実施の形態における起点ノード特徴抽出手段21、2次ノード特徴抽出手段23、類似性判定手段24及びノード合成手段25は、図1に示すの同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【0032】
この実施の形態の情報抽出装置20において、ノードパス名記憶手段26は、起点ノードが入力された際に、起点ノードからノードパス名を抽出し、そのノードパス名を格納する。したがって、初期状態では起点ノードのパス名のみが記憶されている。そして、2次ノード取得判定手段28からの要求に応じて、格納しているノードパス名を送出するとともに、2次ノード取得判定手段28から順次送られる2次ノードのパス名を記憶していく。
【0033】
2次ノードパス名取得手段27は、起点ノードとして入力されたノードからリンク付けられている全ての2次ノードのパス名を抽出する。抽出したパス名は、2次ノード取得判定手段28に渡す。
【0034】
2次ノード取得判定手段28は、ノードパス名記憶手段26において記憶されているノードパス名と、2次ノードパス名取得手段27から渡された2次ノードのパス名が同一であるか否かを判定し、同一でないと判定された2次ノードのパス名は、ノードパス名記憶手段26と2次ノード取得手段22とに渡す。
【0035】
2次ノード取得手段22の機能は、第1の実施の形態の2次ノード取得手段12(図1に示す)と若干異なる。この実施の形態における2次ノード取得手段22は、起点ノードからリンクが張られている全ての2次ノードを取得するのではなく、2次ノード取得判定手段28からパス名が渡された全ての2次ノードを取得する。すなわち、2次ノード取得判定手段28によりノードパス名記憶手段26に同一のパス名が存在しないと判定された2次ノードのみを取得する。取得した2次ノードは、2次ノード特徴抽出手段23に渡す。
【0036】
ここで、上記の情報抽出装置20に、ノード1aが起点ノードとして入力された場合を考える。なお、ノード1aには、ノード2a,3aへのリンクが重複して設けられているものとする。
【0037】
情報抽出装置20にノード1aが起点ノードとして入力されると、起点ノード特徴抽出手段21によって、ノード1aの内容が解析され、ノード1aの特徴が起点ノード特徴プロファイルとして類似性判定手段24に渡される。また、ノードパス名記憶手段26が初期化され、ノード1aのノードパス名がノードパス名記憶手段26に記憶される。さらに、2次ノードパス名取得手段27によって、ノード1aからリンクが張られているノード2a,3aのパス名が抽出され、2次ノード取得判定手段28に渡される。この例では、ノード2a,3aのパス名は複数個抽出される。
【0038】
すると、2次ノード取得判定手段28により、ノード2a,3aのパス名がノードパス名記憶手段26に格納されているか否かが判定される。ノード2a、3aのパス名は複数抽出されるため、最初の判定ではノードパス名記憶手段26には格納されていないと判定され、そのノードパス名はノードパス名記憶手段26に格納されると共に、2次ノード取得手段22に渡される。そして、2回目以降の判定では、ノード2a、3aのパス名はノードパス名記憶手段26に格納されていると判定される。ノードパス名記憶手段26に格納されていないと判定されたノードパス名のみが2次ノード取得手段22に渡されるため、結果的に、ノード2aとノード3aとのノードパス名がそれぞれ1つずつ2次ノード取得手段22に渡される。
【0039】
2次ノード取得手段22は、2次ノード取得判定手段28から受け取ったノード2a,3aのパス名に基づいて、それぞれのノード2a,3aを取得する。取得したノード2a,3aの内容は、2次ノード特徴抽出手段23に渡される。
【0040】
すると、2次ノード特徴抽出手段23によりノード2a,3aのそれぞれの内容の特徴が抽出され、その特徴に関する情報が類似性判定手段24に渡される。そして、類似性判定手段24により、起点ノード特徴抽出手段21で抽出された内容の特徴と2次ノード特徴抽出手段23で抽出された内容の特徴の比較が行われ、類似性が判定される。類似であると判定された場合には、そのノードの内容が、ノード合成手段25によって起点ノードに合成され、合成ノード4aが生成される。
【0041】
これにより、2次ノードに対して重複してリンクが張られている場合であっても、各2次ノードは1度ずつしか取得されない。したがって、1つの2次ノードが重複して起点ノードに合成されてしまうことがなくなるとともに、無駄な処理を省くことができる。
【0042】
ところで、この第2の実施の形態を、後述する関連ノードとの類似判断を行う場合(起点ノードからリンクをたどることによりアクセス可能な全てのノード若しくはその一部との類似判断を行う場合)に適用すると、処理の効率を非常に向上させることができる。すなわち、複数のノードから同じノードへリンクが張られていることはよくあるため、その場合の重複した処理を排除できる。
【0043】
次に、本発明の第3の実施の形態について説明する。
図5は、第3の実施の形態に係る情報抽出装置の構成を示す図である。これは、ノードが存在するサーバの情報による新規ノード取得判定機能を付加した情報抽出装置30の例である。なお、この実施の形態における起点ノード特徴抽出手段31、2次ノード取得手段32、2次ノード特徴抽出手段33、類似性判定手段34及びノード合成手段35は、図1に示す同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【0044】
この図において、起点サーバ名抽出手段36は、ある起点ノードが与えられたときに、そのノードのパス名を解析してそのノードが存在するサーバを特定する。そして、特定したサーバ名を記憶する。記憶されたサーバ名は、2次ノード取得判定手段38に渡される。
【0045】
2次ノードサーバ名抽出手段37は、起点ノードからリンク付けられている全ての2次ノードのパス名を解析して、そのノードが存在するサーバを特定する。そして、特定したサーバ名と2次ノードのパス名との対を、2次ノードサーバ名情報として記憶する。
【0046】
2次ノード取得判定手段38は、起点サーバ名抽出手段36に記憶された起点ノードのサーバ名と、2次ノードサーバ名抽出手段37に記憶された各2次ノードのサーバ名とを既知のパタンマッチング技術を用いて解析し、それらが同一のものであるか否かを判定する。同一であると判断した場合には、該当する2次ノードのサーバ名と対になっている2次ノードのパス名を、2次ノード取得手段32に渡す。
【0047】
ここで、サーバ41に格納されているノード41aを起点ノードとして入力する場合を考える。なお、ノード41aからは、同じサーバ41内のノード41bと、異なるサーバ42内のノード42aに対してリンクが張られているものとする。
【0048】
情報抽出装置30にノード41aが起点ノードとして入力されると、起点ノード特徴抽出手段31によって、ノード41aの内容が解析され、ノード41aの特徴が起点ノード特徴プロファイルとして類似性判定手段34に渡される。また、起点サーバ名抽出手段36により、ノード41aが格納されているサーバ41のサーバ名が抽出され、記憶される。さらに、2次ノードサーバ名抽出手段37により、ノード41aからリンク付けられている2つのノード41b,42aのパス名と、そのパス名に含まれるサーバ名とが抽出され、それらの対が記憶される。
【0049】
そして、2次ノード取得判定手段38により、起点ノードであるノード41aのサーバ名と、2次ノードであるノード41b,42aのサーバ名とが比較され、同一か否かが判定される。その結果、ノード41bのサーバ名はノード41aのサーバ名と同一であり、ノード42aのサーバ名はノード41aのサーバ名と異なることが判定され、ノード41bのパス名のみが2次ノード取得手段32に渡される。
【0050】
2次ノード取得手段32は、2次ノード取得判定手段38から受け取ったノード41bのパス名に基づいて、そのノード41bを取得する。取得したノード41bの内容は、2次ノード特徴抽出手段33に渡される。すると、2次ノード特徴抽出手段33によりノード41bの内容の特徴が抽出され、その特徴に関する情報が類似性判定手段34に渡される。そして、類似性判定手段34により、起点ノード特徴抽出手段31で抽出された内容の特徴と2次ノード特徴抽出手段33で抽出された内容の特徴の比較が行われ、類似性が判定される。類似であると判定された場合には、そのノードの内容が、ノード合成手段35によって起点ノードに合成され、合成ノード41cが生成される。
【0051】
これにより、同一ノード内の2次ノードのみが類似性判断の対象となり、他のサーバ内のノードへリンクが張られていても、そのノードにはアクセスしない。そのため、処理が簡略化され高速化が図れる。なお、一人のドキュメントオーサが作成した1つの意味的まとまりをもった情報は、同じサーバ内に格納されていることがほとんどである。したがって、他のサーバに格納された2次ノードを処理対象から除外しても、生成される合成ノード41cには、ノード41aを作成したドキュメントオーサの意図が十分に反映される。
次に、本発明の第4の実施の形態について説明する。
【0052】
図6は、第4の実施の形態に係る情報抽出装置の構成を示す図である。この情報抽出装置50は、図1に示した情報抽出装置10に、再帰的処理を付加したものである。なお、この実施の形態における起点ノード特徴抽出手段51及びノード合成手段25は、図1に示すの同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【0053】
関連ノード取得手段52は、起点ノードが入力された際に、そのノードからリンクが張られている2次ノードを取得するとともに、取得したノードからさらにリンクが張られているノード(関連ノード)を順次取得する。そして、他のノードへのリンクがなくなるまで行う。この時の取得される2次ノードより後の各ノードを、N次ノードとする(N=3,4,...)。
【0054】
関連ノード特徴抽出手段53は、関連ノード取得手段52が抽出した2次〜N次の各ノードの特徴を抽出し、関連ノード特徴プロファイルを作成する。作成した関連ノード特徴プロファイルは、類似性判定手段54に渡す。
【0055】
類似性判定手段54は、関連ノード特徴抽出手段53が作成した関連ノード特徴プロファイルに基づいて、起点ノードからリンクを辿ることによりアクセス可能な全てのノードの起点ノードに対する類似性の判断処理を行う。そして、類似しているノードの内容を、ノード合成手段55に渡す。類似性判定手段54の処理の詳細を以下に示す。
【0056】
図7は、再帰的な類似性判定処理の流れを示すフローチャートである。この処理は全て類似性判定手段54によって行われる。
〔S21〕N=2という初期化を行う。
〔S22〕N次ノードが存在するか否かが判定される。存在すればステップS23に進み、そうでなければ処理を終了する。
〔S23〕p=1という初期化を行う。また、N次ノードの個数をmとする。
〔S24〕pとmの大小を比較して、p>mであればステップS29に進み、そうでなければステップS25に進む。
〔S25〕起点ノードとp番目のN次ノードの類似度を前述の方法(既知のベクター内積演算手法)で計算する。
〔S26〕ステップS25で得られた類似度の値と閾値を比較して、類似度>閾値であれば、ステップS27に進み、そうでなければ、ステップS28に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。
〔S27〕p番目のN次ノードを起点ノードへ合成するノードの候補として記憶する。
〔S28〕pの値に1を加算して、ステップS24に進む。
〔S29〕Nの値に1を加算して、ステップS22に進む。
【0057】
これにより、起点ノードからリンクを辿ることによりアクセス可能な全てのノードの中から、起点ノードに類似した内容を有するものが抽出される。
ここで、ノード61を起点ノードとして入力する場合を考える(図6参照)。なお、ノード61からは、2つのノード62,63へリンクが張られている。これらのノード62,63が2次ノードとなる。ノード62,63からも他のノードへリンクが張られており、最終的にノード64〜66までリンクが張られている。
【0058】
ノード61が情報抽出装置50に入力されると、起点ノード特徴抽出手段51によって、ノード61の内容が解析され、ノード61の特徴が起点ノード特徴プロファイルとして類似性判定手段54に渡される。また、関連ノード取得手段52によって、ノード61からリンクが張られているノード62,63のノードパス名を抽出し、ノード62,63を取得する。さらに、ノード62,63からリンクを辿ることによりアクセスできるノードをN次のノード64〜66まで全て取得する。取得したノードは、関連ノード特徴抽出手段53に渡される。そして、関連ノード特徴抽出手段53によって各ノードの内容の特徴が抽出され、関連ノード特徴プロファイルが作成される。すると、類似性判定手段54により、ノード61に類似する内容を有している関連ノードが全て抽出される。そして、抽出された全てのノードが、ノード合成手段55により起点ノードに合成され、合成ノード61aが生成される。
【0059】
このように、起点ノードから直接リンクが張られている2次ノードに限らず、起点ノードからリンクを辿ることによりアクセス可能な全てのノードを、類似性の判断対象とすることにより、ドキュメントオーサが多階層によるハイパードキュメントを作成しても、それらの全てを1つのまとまりとして情報抽出の対象とすることができる。
【0060】
次に、第5の実施の形態について説明する。この実施の形態は、ローカルな制約で制御される再帰的処理を付加した情報抽出装置の例である。具体的には、N次ノードとその親のノードとの間の類似性に基づいて、そのノードを合成すべきか否かを判断するものである。なお、この実施の形態に必要な構成要素は第4の実施の形態と同じであるが、類似性判定手段が実行する処理内容が異なる。そこで、第5の実施の形態における類似性判定手段の処理手順を以下に説明する。
【0061】
図8は、第5の実施の形態における類似性判定処理を示すフローチャートである。
〔S31〕N =2という初期化を行う。
〔S32〕N次ノードが存在するか否かが判定される。存在すればステップS33に進み、そうでなければ処理を終了する。
〔S33〕p=1という初期化を行う。また、N次ノードの個数をmとする。
〔S34〕pとmの大小を比較して、p>mであればステップS39に進み、そうでなければステップS35に進む。
〔S35〕p番目のN次ノードとその親ノード(つまり、N−1次ノードのうち該p番目のN次ノードをリンクで指したもの)の類似度を既知のベクター内積演算手法で計算する。
〔S36〕ステップS35で得られた類似度の値と閾値を比較して、類似度>閾値であれば、ステップS37に進み、そうでなければ、ステップS38に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。
〔S37〕p番目のN次ノードを起点ノードへ合成するノードの候補として記憶する。
〔S38〕pの値に1を加算して、ステップS34に進む。
〔S39〕Nの値に1を加算して、ステップS32に進む。
【0062】
このような処理を類似性判定手段が行うことにより、起点ノードでは本題の内容にあまり踏み込まずに、2次ノード以降において詳細な記載をしている場合であっても、親子関係にあるノード間で類似した内容が記載されいれば、その記載内容を合成ノードに含めることができる。
【0063】
次に第6の実施の形態について説明する。
図9は、第6の実施の形態に係る情報抽出装置の構成を示す図である。この実施の形態は、グローバルな制約で制御される再帰的処理を付加した情報抽出装置の例である。具体的には、類似していると判断されたノードをその都度起点ノードに合成していき、関連ノードとそれ以前に作成されている合成ノードとの間の類似性に基づき、そのノードを合成すべきか否かを判断するものである。なお、この実施の形態における起点ノード特徴抽出手段71、関連ノード取得手段72及び関連ノード特徴抽出手段73は、図6に示すの同名の構成要素と同様の機能を有しているため、これらの機能の説明は省略する。
【0064】
類似性判定手段74は、起点ノードが入力された場合、及び類似した関連ノードが未検出の場合には、起点ノード特徴抽出手段71が作成した起点ノード特徴プロファイルと、関連ノード特徴抽出手段73が作成した関連ノード特徴プロファイルとの類似性を判断し、類似してる場合にはノード合成手段75へ、起点ノードの内容と関連ノードの内容とを渡す。また、類似した関連ノードが検出された後は、後述する合成ノード特徴抽出手段76が作成した合成起点ノード特徴プロファイルと、関連ノード特徴抽出手段73が作成した関連ノード特徴プロファイルとの類似性を判断し、類似してる場合にはノード合成手段75へ、関連ノードの内容を渡す。
【0065】
ノード合成手段75は、類似性判定手段74から起点ノードの内容と関連ノードの内容とを受け取ると、それらを合成し、その合成ノードを保持すると共にその複製を合成ノード特徴抽出手段76に渡す。また、類似性判定手段74から関連ノードを受け取ると、それ以前に作成した合成ノードの内容と受け取った関連ノードの内容とを合成し、その合成ノードを保持すると共にその複製を合成ノード特徴抽出手段76に渡す。また、全ての関連ノードに関する類似性の判断が終了すると、その時点で保持している合成ノード61bを出力する。
【0066】
合成ノード特徴抽出手段76は、ノード合成手段75から合成ノードを受け取ると、その合成ノードの内容を解析して特徴部分を抽出し、合成ノード特徴プロファイルを作成する。作成した合成ノード特徴プロファイルは、類似性判定手段74に渡す。
【0067】
図10は、第6の実施の形態における類似性判定及び合成ノード作成処理を示すフローチャートである。
〔S41〕類似性判定手段74が、N=2という初期化を行う。
〔S42〕類似性判定手段74が、N次ノードが存在するか否かを判定する。存在すればステップS43に進み、そうでなければ処理を終了する。
〔S43〕類似性判定手段74が、p=1という初期化を行う。また、N次ノードの個数をmとする。
〔S44〕類似性判定手段74が、pとmの大小を比較して、p>mであればステップS50に進み、そうでなければステップS45に進む。
〔S45〕類似性判定手段74が、p番目のN次ノードと合成ノード(つまり、この処理が行われるまでに合成されて得られたノード合成作業は後述のステップS47において実施される)の類似度を前述の方法で計算する。
〔S46〕類似性判定手段74が、ステップS45で得られた類似度の値と閾値を比較する。その結果、類似度>閾値であれば、ステップS47に進み、そうでなければ、ステップS49に進む。ここで、閾値は予め設定された値であり、その大小で類似性の許容範囲を調整する。
〔S47〕ノード合成手段75が、p番目のN次ノードを合成ノードに合成する。なお、初期の合成ノードは起点ノードを指す。
〔S48〕合成ノード特徴抽出手段76が、ステップS47で作成された合成ノードの合成ノード特徴プロファイルを作成する。
〔S49〕類似性判定手段74が、pの値に1を加算して、ステップS44に進む。
〔S50〕類似性判定手段74が、Nの値に1を加算して、ステップS42に進む。
【0068】
このように類似したノードを順次合成していくことにより、1つの意味内容を持つ情報が細分化され、個々のノードの内容が希薄なものであっても、複数の内容を合成した情報に基づいて個々の関連ノードの類似性の判断を行うことができ、最終的に、ドキュメントオーサの作成意図に沿った内容の合成ノードを得ることができる。
【0069】
次に、第4、第5、第6の各実施の形態の変形例について説明する。
この変形例は、最大のN次ノードを予め設定しておくものである。すなわち、N次ノードの最大をMと設定しておき、各実施の形態の類似性判定処理中の、ステップS22、S32、S42(それぞれ図7、図8、図10に示す)の処理を、以下のような処理に置き換える。
〔S22’〕N>Mであるか否かを判断し、N>Mでなければ次の処理(第4の実施の形態ではステップS23、第5の実施の形態ではステップS33,第6の実施の形態ではステップS43)へ進み、N>Mであれば処理を終了する。ここで、Mは、予め設定される2以上の自然数である。
【0070】
これにより、N>Mとなった時点で処理を終了させることができ、必要以上に深い階層のリンク先まで類似性判定の対象とすることがなくなる。その結果、処理の高速化が図れる。
【0071】
また、第4、第5、第6の各実施の形態の変形例として、各実施の形態の類似性判定処理中の、ステップS26、S36、S46(それぞれ図7、図8、図10に示す)の処理を、以下のような処理に置き換えてもよい。
〔S26’〕直前のステップで得られた類似度の値と閾値を比較して、類似度>閾値であれば、合成候補への追加ステップ(第4の実施の形態ではステップS27、第5の実施の形態ではステップS37、第6の実施の形態ではステップS47)に進み、そうでなければ、類似でないと判定されたN次ノードからは、N+1次ノードを取得しないように設定した後、pに1を加算する処理(第4の実施の形態ではステップS28、第5の実施の形態ではステップS38、第6の実施の形態ではステップS49)に進む。
【0072】
これにより、本題から話題がそれたノードよりも先のノードは類似性判定の対象から除外され、処理の高速化が図れる。
ところで、上記の各実施の形態(若しくはその変形例)で得られた合成ノードを検索対象の一単位とすれば、ハイパードキュメントの検索処理の実効を向上させることができる。
【0073】
図11は、検索の対象となるノードとリンクの構造の例を示す図である。この図において、起点ノード81からは、2次ノード82および2次ノード83にリンクがはられている。2次ノード82,83からもN次ノード84(N=3,4,...)、N次ノード85(N=3,4,...)、およびN次ノード86(N=3,4,...)にリンクがはられている。従来のハイパードキュメント検索手法では、各個別ノード(この例では6個)がそれぞれ検索対象であったが、本発明では、例えばノード81、ノード82、ノード83、およびノード85が類似であると判定された場合、これらすべてのノードを合成してひとつの検索対象とすることができる。これにより、あるひとつの意味的まとまりを持つ情報を複数のノードに分割して構造化しても、検索を行った際にそれぞれのノードが個別に出力されることがない。そのため、検索を行ったユーザへの負担が軽減される。
【0074】
また上述の各実施の形態(若しくはその変形例)で得られた合成ノードを、検索クエリーの一単位とすることもできる。例えば、図11において、ノード81が検索クエリーに指定され、そのときノード81、ノード82、ノード83、およびノード85が類似であると判定された場合、これらすべてのノードを合成してひとつの検索クエリーとしてもよい。
【0075】
これにより、ハイパードキュメントのリンク構造に関する情報の加味した検索を行うことができ、より検索意図に沿った検索結果を得ることができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、各情報抽出装置が有しているべき機能の処理内容は、コンピュータで読み取り可能な記録媒体に記録されたプログラムに記述されており、このプログラムをコンピュータで実行することにより、上記処理がコンピュータで実現される。コンピュータで読み取り可能な記録媒体としては、磁気記録装置や半導体メモリ等がある。市場を流通させる場合には、CD−ROMやフロッピーディスケット等の可搬型記録媒体にプログラムを格納して流通させたり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。コンピュータで実行する際には、コンピュータ内のハードディスク装置等にプログラムを格納しておき、メインメモリにロードして実行する。
【0076】
【発明の効果】
以上説明したように本発明に係る情報抽出装置では、起点ノードと、その起点ノードからリンクが張られている2次ノードとの類似性を判定し、類似した2次ノードを起点ノードに合成するようにしたため、意味的まとまりを持つ情報がハイパードキュメントのノード群として構築されていても、それらを、ある1つの意味的まとまりを持つ情報として捉えることが可能となる。
【0077】
また、本発明に係る情報検索方法では、情報抽出装置で合成されたノードを検索の対象の一単位としたため、起点ノードのみでは検索条件に合致しない場合でも、合成されたノードが検索条件に適合していれば当該ノードを検索結果として取得することができる。
【0078】
また、本発明に係る情報抽出プログラムを格納した媒体では、格納されている情報抽出プログラムをコンピュータで実行させることにより、起点ノードをコンピュータへ入力すれば、起点ノードと、その起点ノードに類似する2次ノードとを合成したノードを取得することができ、ハイパードキュメントにおける意味的まとまりを持つ情報を一単位とした情報の抽出をコンピュータに行わせることが可能となる。
【図面の簡単な説明】
【図1】第1の実施の形態に係る情報抽出装置を示すブロック図である。
【図2】特徴抽出処理の流れを示すフローチャートである。
【図3】類似性判定手段の処理手順を示すフローチャートである。
【図4】第2の実施の形態に係る情報抽出装置の構成を示す図である。
【図5】第3の実施の形態に係る情報抽出装置の構成を示す図である。
【図6】第4の実施の形態に係る情報抽出装置の構成を示す図である。
【図7】再帰的な類似性判定処理の流れを示すフローチャートである。
【図8】第5の実施の形態における類似性判定処理を示すフローチャートである。
【図9】第6の実施の形態に係る情報抽出装置の構成を示す図である。
【図10】第6の実施の形態における類似性判定及び合成ノード作成処理を示すフローチャートである。
【図11】検索の対象となるノードとリンクの構造の例を示す図である。
【符号の説明】
1〜3 ノード
4 合成ノード
10 情報抽出装置
11 起点ノード特徴抽出手段
11a 起点ノード特徴プロファイル
12 2次ノード取得手段
13 2次ノード特徴抽出手段
13a 2次ノード特徴プロファイル
14 類似性判定手段
15 ノード合成手段

Claims (14)

  1. 情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
    起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
    入力された起点ノードからリンクが張られた2次ノードを取得する2次ノード取得手段と、
    前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出する2次ノード特徴抽出手段と、
    前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定する類似性判定手段と、
    前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するノード合成手段と、
    を有することを特徴とする情報抽出装置。
  2. 前記起点ノード特徴抽出手段は、起点ノードに出現する単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、起点ノードの特徴を抽出し、
    前記2次ノード特徴抽出手段は、2次ノードに出現する単語に関する出現頻度、出現位置及び品詞の情報に基づいて重み付けすることにより、2次ノードの特徴を抽出する、
    ことを特徴とする請求項1記載の情報抽出装置。
  3. ノードのパス名を保持するノードパス名記憶手段と、
    入力された起点ノードからリンクが張られた2次ノードのパス名を取得する2次ノードパス名取得手段と、
    前記2次ノードパス名取得手段が取得した2次ノードのパス名が、前記ノードパス名記憶手段に保持されているか否かを判定し、保持されていないと判定された2次ノードを前記ノードパス名記憶手段に格納する2次ノード取得判定手段とをさらに有し、
    前記2次ノード取得手段は、前記2次ノード取得判定手段によって、前記ノードパス名記憶手段に保持されていないと判定された2次ノードのみを取得することを特徴とする請求項1の情報抽出装置。
  4. 入力された起点ノードのパス名から起点ノードが存在するサーバ名を抽出する起点サーバ名抽出手段と、
    入力された起点ノードからリンクが張られた2次ノードから2次ノードが存在するサーバ名を抽出する2次ノードサーバ名抽出手段と、
    前記2次ノードサーバ名抽出手段が抽出した2次ノードのサーバ名が、前記起点サーバ名抽出手段が抽出した起点ノードのサーバ名と同一であるか否かを判定する2次ノード取得判定手段とをさらに有し、
    前記2次ノード取得手段は、前記2次ノード取得判定手段により、起点ノードのサーバ名と同一のサーバ名であると判定された2次ノードのみを取得することを特徴とする請求項1記載の情報抽出装置。
  5. 情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
    起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
    入力された起点ノードからのリンクをたどることによりアクセス可能な関連ノードを取得する関連ノード取得手段と、
    前記関連ノード取得手段が取得した関連ノードの内容を解析し、関連ノードの特徴を抽出する関連ノード特徴抽出手段と、
    前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記関連ノード特徴抽出手段が抽出した関連ノードの特徴とを比較し、起点ノードに対する関連ノードの類似性を判定する類似性判定手段と、
    前記類似性判定手段で類似であるとされた関連ノードを起点ノードに合成するノード合成手段と、
    を有することを特徴とする情報抽出装置。
  6. 情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
    起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
    入力された起点ノードからのリンクをたどることによりアクセス可能な関連ノードを取得する関連ノード取得手段と、
    前記関連ノード取得手段が取得した関連ノードの内容を解析し、関連ノードの特徴を抽出する関連ノード特徴抽出手段と、
    前記関連ノード特徴抽出手段が抽出した関連ノードの特徴を、前記起点ノード特徴抽出手段若しくは前記関連ノード特徴抽出手段によって抽出された親ノードの特徴と比較し、親ノードに対する関連ノードの類似性を判定する類似性判定手段と、
    前記類似性判定手段で類似であるとされた関連ノードを起点ノードに合成するノード合成手段と、
    を有することを特徴とする情報抽出装置。
  7. 情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムから情報を抽出する情報抽出装置において、
    起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段と、
    入力された起点ノードからのリンクをたどることによりアクセス可能な関連ノードを取得する関連ノード取得手段と、
    前記関連ノード取得手段が取得した関連ノードの内容を解析し、関連ノードの特徴を抽出する関連ノード特徴抽出手段と、
    類似ノードが与えられるたびに、類似ノードを起点ノードに合成していき合成ノードを生成するノード合成手段と、
    前記ノード合成手段が生成した合成ノードの内容を解析し、合成ノードの特徴を抽出する合成ノード特徴抽出手段と、
    起点ノードが入力された初期段階では起点ノードを比較対象ノードとし、類似ノードが検出された後は合成ノードを比較対象ノードとし、前記関連ノード特徴抽出手段が抽出した関連ノードの特徴を、前記起点ノード特徴抽出手段若しくは前記合成ノード特徴抽出手段によって抽出された比較対象ノードの特徴と比較し、比較対象ノードに対する関連ノードの類似性を判定し、比較対象ノードに類似していると判定された関連ノードを類似ノードとして前記ノード合成手段に与える類似性判定手段と、
    を有することを特徴とする情報抽出装置。
  8. 前記類似性判定手段は、起点ノードから少ないリンク数で到達できる関連ノードから順に類似性の判定処理を行い、関連ノードへ達するまでのリンク数が予め設定された閾値よりも大きくなった時点で、類似性の判定処理を終了することを特徴とする請求項5乃至7記載の情報抽出装置。
  9. 前記類似性判定手段は、起点ノードから少ないリンク数で到達できる関連ノードから順に類似性の判定処理を行い、非類似であると判定された関連ノードを介してのみ到達できる関連ノードに対しては類似性の判定処理を行わないことを特徴とする請求項5乃至7記載の情報抽出装置。
  10. コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムにおける情報を検索する情報検索方法において、
    起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、
    2次ノード取得手段が、入力された起点ノードからリンクが張られた2次ノードを取得するステップと、
    2次ノード特徴抽出手段が、前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出するステップと、
    類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定するステップと、
    ノード合成手段が、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するステップと、
    検索手段が、情報抽出装置において合成されたノードを、検索対象の一単位として情報検索を実行するステップと、
    を有することを特徴とする情報検索方法。
  11. コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムにおける情報を検索する情報検索方法において、
    起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、
    2次ノード取得手段が、入力された起点ノードからリンクが張られた2次ノードを取得するステップと、
    2次ノード特徴抽出手段が、前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出するステップと、
    類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定するステップと、
    ノード合成手段が、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するステップと、
    検索手段が、情報抽出装置において合成されたノードを、クエリーとして情報検索を実行するステップと、
    を有することを特徴とする情報検索方法。
  12. 情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムの情報をコンピュータに抽出させるための情報抽出プログラムを記録した記録媒体において、
    起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出する起点ノード特徴抽出手段、
    入力された起点ノードからリンクが張られた2次ノードを取得する2次ノード取得手段、
    前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出する2次ノード特徴抽出手段、
    前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定する類似性判定手段、
    前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するノード合成手段、
    としてコンピュータを機能させるための情報抽出プログラムを記録した記録媒体。
  13. コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムからの情報を抽出する情報抽出方法において、
    起点ノード特徴抽出手段が、起点ノードが入力されると、起点ノードの内容を解析し、起点ノードの特徴を抽出するステップと、
    2次ノード取得手段が、入力された起点ノードからリンクが張られた2次ノードを取得 するステップと、
    2次ノード特徴抽出手段が、前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出するステップと、
    類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と、前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定するステップと、
    ノード合成手段が、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するステップと、
    を有することを特徴とする情報抽出方法。
  14. コンピュータにより、情報の単位であるノードとノード間のリンクで構成されたハイパードキュメントシステムからの情報を抽出する情報抽出方法において、
    2次ノード取得手段が、起点ノードが入力されると、起点ノードの内容を解析し、入力された起点ノードからリンクが張られた2次ノードを取得するステップと、
    起点ノード特徴抽出手段が、前記起点ノードの特徴を抽出するステップと、
    2次ノード特徴抽出手段が、前記2次ノード取得手段が取得した2次ノードの内容を解析し、2次ノードの特徴を抽出するステップと、
    類似性判定手段が、前記起点ノード特徴抽出手段が抽出した起点ノードの特徴と、前記2次ノード特徴抽出手段が抽出した2次ノードの特徴とを比較し、起点ノードに対する2次ノードの類似性を判定するステップと、
    ノード合成手段が、前記類似性判定手段で類似であるとされた2次ノードを起点ノードに合成するステップと、
    を有することを特徴とする情報抽出方法。
JP15338797A 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法 Expired - Fee Related JP3598738B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15338797A JP3598738B2 (ja) 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15338797A JP3598738B2 (ja) 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法

Publications (2)

Publication Number Publication Date
JPH113347A JPH113347A (ja) 1999-01-06
JP3598738B2 true JP3598738B2 (ja) 2004-12-08

Family

ID=15561378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15338797A Expired - Fee Related JP3598738B2 (ja) 1997-06-11 1997-06-11 情報抽出装置、情報検索方法及び情報抽出方法

Country Status (1)

Country Link
JP (1) JP3598738B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075859A (ja) * 1999-08-31 2001-03-23 Just Syst Corp 情報巡回獲得装置
JP2010134952A (ja) * 2010-01-20 2010-06-17 Seiko Epson Corp 画像データの管理
JP2012242859A (ja) * 2011-05-13 2012-12-10 Nippon Hoso Kyokai <Nhk> グラフ生成装置およびプログラム
JP2024088519A (ja) 2022-12-20 2024-07-02 富士通株式会社 フロー制御方法、フロー制御プログラム、および情報処理装置

Also Published As

Publication number Publication date
JPH113347A (ja) 1999-01-06

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7392238B1 (en) Method and apparatus for concept-based searching across a network
JP3598742B2 (ja) 文書検索装置及び文書検索方法
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6701310B1 (en) Information search device and information search method using topic-centric query routing
US7895195B2 (en) Method and apparatus for constructing a link structure between documents
US7805288B2 (en) Corpus expansion system and method thereof
US7072890B2 (en) Method and apparatus for improved web scraping
US7024405B2 (en) Method and apparatus for improved internet searching
US20030221163A1 (en) Using web structure for classifying and describing web pages
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
US8812504B2 (en) Keyword presentation apparatus and method
Kao et al. Entropy-based link analysis for mining web informative structures
Sivakumar Effectual web content mining using noise removal from web pages
JP2001188802A (ja) 情報検索装置及び情報検索方法
Aliakbary et al. Web page classification using social tags
JP3598738B2 (ja) 情報抽出装置、情報検索方法及び情報抽出方法
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
KR100621737B1 (ko) 웹사이트 자동 분류방법
JP3637756B2 (ja) 情報検索装置、情報検索方法および記録媒体
Zheng et al. An improved focused crawler based on text keyword extraction
Rahman et al. Bangla Text Summarization Analysis Using Machine Learning: An Extractive Approach
Srinivasan et al. Improving Search Results Through Reducing Replica in User Profile
JP2007011891A (ja) 情報検索方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070924

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees