JP2004164133A - 抽出装置、用例検索装置、ならびに、プログラム - Google Patents

抽出装置、用例検索装置、ならびに、プログラム Download PDF

Info

Publication number
JP2004164133A
JP2004164133A JP2002327456A JP2002327456A JP2004164133A JP 2004164133 A JP2004164133 A JP 2004164133A JP 2002327456 A JP2002327456 A JP 2002327456A JP 2002327456 A JP2002327456 A JP 2002327456A JP 2004164133 A JP2004164133 A JP 2004164133A
Authority
JP
Japan
Prior art keywords
character string
search
input
target document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002327456A
Other languages
English (en)
Inventor
Kumiko Ishii
久美子 石井
Hiroshi Nakagawa
裕志 中川
Masato Yamamoto
真人 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2002327456A priority Critical patent/JP2004164133A/ja
Publication of JP2004164133A publication Critical patent/JP2004164133A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】種々の言語により記述された文書に対して適切な用例を検索するのに好適な用例検索装置等を提供する。
【解決手段】対象文書入力受付部702は、対象文書の入力を受け付け、検索文字列入力受付部703は、検索文字列の入力を受け付け、検索部704は、抽出装置501に、当該対象文書を文字列の入力として与え、当該検索文字列が当該対象文書において出現する場所のそれぞれについて、これに続く位置を開始位置の入力として与え、当該出現する場所から当該抽出された部分文字列の終了位置までの部分文字列を、用例として出力し、抽出装置501は、文字列中の開始位置から始まる部分文字列について、長さi、出現頻度N、後続する文字の種類の数Cから評価値log(i+1)×log(N)×(1−1/C)を計算し、長さiを増やしていって評価値が増加したときに、その長さの文字列を部分文字列として抽出する。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、種々の言語により記述された文書に対して形態素解析を行わなくとも適切な用例を検索し、これをKWIC(KeyWords In Context)形式で提示するのに好適な、部分文字列の抽出装置、用例検索装置、ならびに、これらをコンピュータ上に実現するプログラムに関する。
【0002】
【従来の技術】
従来から、英語やフランス語などの空白で区切られる言語については、KWIC形式の索引が用いられてきた。KWIC形式の索引とは、索引に列挙されるキーワードを、当該キーワードが本文中で出現する際の前後の文字列とともに提示するものである。
【0003】
したがって、たとえば、ある用語がインターネット上で利用されている様子を検索して、これをKWIC形式で提示すれば、当該用語がインターネット内でどのように利用されているか、の用例を得ることができる。
【0004】
【発明が解決しようとする課題】
このようなKWIC形式での用例提示においては、検索対象となるキーワードの前後をどこまで文脈(Context)として表示するか、その重要性はどのように見積もるか、についての技術が求められている。
【0005】
また、日本語に限らず、わかち書きをしない言語において容易にKWIC形式の用例検索ができるようにするには、辞書を用いた形態素解析を行わずに、必要な文脈の切り出しができるようにしなければならない。辞書を用いたのでは、日々変化する言語の生きた用例を得ることができないほか、形態素解析器の能力が不十分な環境下でも、KWIC形式の用例検索が利用できるようにしたいという要望もあるからである。
【0006】
本発明は、以上のような課題を解決するためになされたもので、種々の言語により記述された文書に対して形態素解析を行わなくとも適切な用例を検索し、これをKWIC形式で提示するのに好適な、部分文字列の抽出装置、用例検索装置、ならびに、これらをコンピュータ上に実現するプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
【0008】
本発明の第1の観点に係る部分文字列の抽出装置は、文字列入力受付部と、開始位置受付部と、評価値計算部と、抽出部と、を備え、以下のように構成する。
【0009】
すなわち、文字列入力受付部は、長さN (N≧1)の文字列
s = X,…,X
の入力を受け付ける。
【0010】
一方、開始位置受付部は、入力を受け付けられた文字列における開始位置k (1≦k≦N)の入力を受け付ける。
【0011】
さらに、評価値計算部は、長さi (1≦i≦N−k+1)の部分文字列
= X,…,Xk+i−1
について、当該部分文字列sのsにおける出現頻度Nと、sにおいて当該部分文字列sに続いて出現する文字の種類の数Cとから、評価値
SC(s) = log(i+1)×log(N)×(1−1/C
を計算する。
【0012】
そして、抽出部は、計算された評価値が
SC(si+1) > SC(s
を満たす場合、当該部分文字列si+1を抽出する。
【0013】
本発明の他の観点に係る用例検索装置は、対象文書入力受付部と、検索文字列入力受付部と、検索部と、を備え、以下のように構成する。
【0014】
すなわち、対象文書入力受付部は、対象文書の入力を受け付ける。
【0015】
一方、検索文字列入力受付部は、検索文字列の入力を受け付ける。
【0016】
さらに、検索部は、入力を受け付けられた対象文書に出現する部分文字列であって、入力を受け付けられた検索文字列を接頭辞とするものを、用例として出力する。
【0017】
また、本発明の用例検索装置において、検索部は、上記の抽出装置に、当該対象文書を文字列の入力として与え、当該検索文字列が当該対象文書において出現する場所のそれぞれについて、これに続く位置を開始位置の入力として与え、当該出現する場所から当該抽出された部分文字列の終了位置までの部分文字列を、用例として出力するように構成することができる。
【0018】
また、本発明の用例検索装置において、検索部は、当該用例に対応して抽出された部分文字列の評価値により、当該用例を整列して出力するように構成することができる。
【0019】
また、本発明の用例検索装置において、検索部は、当該検索文字列を接頭辞とし、当該対象文書に2回以上出現する部分文字列(以下「接頭重複文字列」という。)であって、他の接頭重複文字列の接頭辞となっていないものを、用例として出力するように構成することができる。
【0020】
本発明の他の観点に係るプログラムは、コンピュータを、上記の抽出装置、または、上記の用例検索装置のいずれか1つとして機能させるように構成する。
【0021】
また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリなどの情報記録媒体に記録することができる。
【0022】
また、コンピュータとは独立して、本発明のプログラムを記録した情報記録媒体を配布、販売したり、コンピュータ通信網を介して当該プログラムを配布や販売等することができる。
【0023】
【発明の実施の形態】
以下に本発明の一実施形態を説明する。なお、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本願発明の範囲に含まれる。
【0024】
(部分文字列の抽出装置の実施の形態)
図1は、本発明に係る部分文字列の抽出装置の概要構成を示す模式図である。以下、本図を参照して説明する。
【0025】
部分文字列の抽出装置501は、文字列入力受付部502と、開始位置入力受付部503と、評価値計算部504と、抽出部505と、を備える。
【0026】
ここで、文字列入力受付部502は、長さN (N≧1)の文字列
s = X,…,X
の入力を受け付ける。抽出装置501をKWIC形式の検索装置にて利用する場合には、当該文字列sは、検索キーワードが発見された文書の内容に相当する。
【0027】
一方、開始位置入力受付部503は、入力を受け付けられた文字列における開始位置k (1≦k≦N)の入力を受け付ける。抽出装置501をKWIC形式の検索装置にて利用する場合には、当該開始位置kは、検索キーワードが発見された場所のそれぞれについて、当該場所の次の位置、すなわち、検索キーワードに直接後続する位置に相当する。
【0028】
さらに、評価値計算部504は、長さi (1≦i≦N−k+1)の部分文字列
= X,…,Xk+i−1
について、当該部分文字列sのsにおける出現頻度Nと、sにおいて当該部分文字列sに続いて出現する文字の種類の数Cとから、評価値
SC(s) = log(i+1)×log(N)×(1−1/C
を計算する。
【0029】
この評価値は、単語列からコロケーションを抽出するためのC−valueという評価関数から着想を得たものであり、文字列の文字単位で評価値をローカルに計算できるという特徴を有する。上記の積の第1項は、極端に短い候補の評価値を小さくする一方で、長過ぎる候補が優先されないようにしている。第2項は、出現頻度に対応するものである。第3項は、後続する文字の種類が多い場合に大きい値となる。これは、「極端に長くも短かくもなく、頻出し、後続する文字の種類が多い」ものが「単語候補」としてふさわしい、ということに対応する。
【0030】
そして、抽出部505は、iの値を順次増やして走査していき、計算された評価値が
SC(si+1) > SC(s
を満たす場合、当該部分文字列si+1を抽出する。これは、検索キーワードに後続する「文脈」として適当と考えられる部分文字列であり、検索キーワードとこの「文脈」とを連接させたものは、「検索キーワードから開始される生きた用例」と考えることができる。
【0031】
なお、上記実施形態では、評価値の計算にlog(i+1)、log(N)、(1−1/C)を用いているが、これらは上記のような性質を維持する関数であれば、種々のものを採用できる。たとえば、
f(x) = 1 − 1/x
g(x) = 1 − exp(−x)
とおき、各項の式中のlog(・)のかわりにarctan(・)、f(・)、g(・)等を利用しても良い。
【0032】
また、(1−1/C) = f(C)であるが、このかわりにlog(C)、arctan(C)、g(C)等を利用しても良い。
【0033】
やCを求めるためには、Trie構造を用いることが望ましい。Trie構造に対して、所定の最大長さLまでの部分文字列s,…,sを登録し、その際にNやCを更新するとともに、評価値による走査も、Trie構造を探索すれば容易に行うことができる。
【0034】
これらの関数は、いずれも、ある程度以上の大きさの引数に対して単調非減少関数であり、次第に増加率が減少していくものと見ることもできる。したがって、このような性質を有する離散的な関数を、変数テーブルを利用して用意し、上記のような算術演算を行うのではなく、変数テーブルを用いて直ちに関数の結果を得るような態様を採用することもできる。
【0035】
(検索装置の実施の形態)
以下では、上記の部分文字列の抽出装置501を用いた検索装置の概要構成について説明する。図2は、本発明の実施の形態に係る検索装置の概要構成を示す模式図である。以下、本図を参照して説明する。
【0036】
用例検索装置701は、対象文書入力受付部702と、検索文字列入力受付部703と、検索部704と、を備える。
【0037】
ここで、対象文書入力受付部702は、対象文書の入力を受け付け、検索文字列入力受付部703は、検索文字列の入力を受け付ける。たとえば、インターネット内におけるある文字列の用例を検索したい場合には、インターネット内で入手可能な文書集合に含まれる文書、もしくは、当該文書集合を当該文字列により他の検索エンジンで検索して得られた結果の文書集合に含まれる文書のそれぞれを、対象文書とする。また、当該文字列を検索文字列とする。
【0038】
そして、検索部704は、上記の抽出装置501に、当該対象文書を文字列の入力として与え、当該検索文字列が当該対象文書において出現する場所のそれぞれについて、これに続く位置を開始位置の入力として与え、当該出現する場所から当該抽出された部分文字列の終了位置までの部分文字列を、用例として出力する。
【0039】
これによって、対象文書に出現する「検索文字列とこれに後続する文脈」のそれぞれが用例として出力される。
【0040】
ここで、検索文字列に後続する文脈、すなわち、抽出装置501が部分文字列として出力したものの、上記評価値により、当該用例を整列して出力すると、用例が頻繁に用いられる順、重要と予想される順に提示されることになる。
【0041】
たとえば、英語の文書集合に対して、fed upを検索文字列とし、既存の検索エンジンを用いてこれを検索した結果を対象文書とし、上記評価値を用いて整列すると、本実施形態を実験すると、以下のような用例が順に得られた。
fed up with
fed up with the
fed up with the fanny
fed up with school
fed up with this
fed up all the powe
fed up with source code
fed up by lazarus long
fed up now
fed up with drivers
fed up with rogers
fed up with stoney
fed up with spam
fed up and hungry
fed up of idiots
fed up with rpm
fed up with nfs
fed up with nis
【0042】
これを見ると、withが後続する文脈としてKWIC形式で抽出されており、頻出熟語fed up withが用例として検索できている。また、英和辞典などには、fedup with 〜ingのように動名詞が続く形が紹介されているが、生きた英語(インターネットで使われている英語)では、このような用例は見当たらない。これは、英語ネイティブが感じている「fed up with 〜ingは文法的には正しいが、あまり使わない」という印象と合致している。
【0043】
上記実施形態においては、対象文書が「(英語なので)空白等で区切られている」という性質を直接は利用していないが、上記のようにほぼ適切な単語や単語列で部分文字列が抽出されている。単語と単語を区切る空白の後に出現する文字の種類の数は多いと考えられることから、空白の前後で評価値が抽出条件を満たすように変化したものとと考えられる。
【0044】
なお、ある検索文字列に先行する文脈を得たい場合には、抽出装置501に、当該対象文書の文字列を逆順にしたものを文字列の入力として与え、当該対象文書の文字列を逆順にしたものにおいて当該検索文字列を逆順にしたものが出現する場所のそれぞれについて、これに続く位置を開始位置として与え、当該出現する場所から当該抽出された部分文字列の終了位置までの部分文字列を逆順にしたものを、用例とすればよい。すなわち、上記アルゴリズムの添字を逆順にし、評価値を順に計算していく処理も逆順に行うようにすれば良いのである。したがって、先行する文脈を得る実施形態は、本質的に、上記の後続する文脈を得る実施形態と等価であり、このような実施形態も本発明の範囲に含まれる。
【0045】
インターネット内に存在する日本語の文書集合についてあらかじめ検索文字列「首相」により文書集合を検索したものに対して、本実施形態を適用した場合、「首相」に先行する文脈として、第1位は「小泉」が、第2位は「マハティール」が、それぞれ得られた。また、「東京」に後続する文脈として、第1位は「都」が、第2位は「大学」が、それぞれ得られた。これは、それぞれの検索文字列の生きた用例としてふさわしいものであると考えられる。
【0046】
(その他の実施形態)
上記実施形態では、C−valueに類似した手法を用いてある文字列に後続する文脈の抽出と、当該文脈の重要度と、を得ていたが、本実施形態では、以下のようにして、これらの処理を行う。
【0047】
すなわち、当該検索文字列を接頭辞とし、当該対象文書に2回以上出現する部分文字列(以下「接頭重複文字列」という。)であって、他の接頭重複文字列の接頭辞となっていないものを、用例として出力することとする。
【0048】
たとえば、対象文書として「abracadabra」を、接頭辞として「a」を考える。「a」を接頭辞とする接頭重複文字列は、以下の通りである。
「abra」…2回出現。
「abr」…2回出現。
「ab」…2回出現。
「a」…5回出現。
【0049】
さてここで、2回出現した「abr」はいずれも、他の接頭重複文字列「abra」の接頭辞となっている。また、2回出現した「ab」はいずれも、他の接頭重複文字列「abra」の接頭辞となっている。さらに、5回出現した「a」のうち2回は、他の接頭重複文字列「abra」の接頭辞となっている。したがって、これらを除いたものが接頭最長重複文字列であり、以下の通りである。
「abra」…2回出現。
「a」…3回出現。
【0050】
このような接頭最長重複文字列を文脈として抽出し、当該出現頻度を重要度と考えることができる。
【0051】
このほか、PPMを用いた確率を重要度として採用しても良い。PPMでは、時系列x,…,xが与えられたとき、次の要素xi+1が出現する確率を
P(xi+1) = Σk=−1 kmax(xi+1
により推定する。この確率の値の順に、候補を提示するのである。
【0052】
ここで、kは、xi+1の前k個分の要素を表す。P(xi+1)は、前k個分の要素による文脈を考慮した確率であり、自然言語処理で用いられるn−gramで考えると、k = n−1との対応関係がある。すなわち、k = 1ではbigramを考えたことに、k = 3ではtrigramを考えたことになる。
【0053】
をその文脈が現れた回数、c(xi+1)をその文脈に続いてxi+1が現れた回数とすれば、
(xi+1) = c(xi+1)/C
のように近似することができる。
【0054】
k = −1は、文脈から情報が全く得られない場合に対応する。この場合には、初期確率を適当に決める必要があるが、たとえば、任意のxi+1について等確率とする手法が採用できる。
【0055】
また、uは重みで、各種の決め方が既に提案されている。たとえば、PPMAと呼ばれる重みを採用することができる。kmaxはkの上限であり、4程度で十分であることが実験により確かめられている。
【0056】
本実施形態では、時系列x,…,xとして、検索文字列とそれに先行する文字列を文字単位で考え、xi+1は接頭最長重複文字列のそれぞれと考えて、確率を計算する。このようにすると、当該検索文字列とこれに先行する文字列を含む文脈において、出現する可能性の順に、得られた接頭最長重複文字列を整列することができる。
【0057】
【発明の効果】
以上説明したように、本発明によれば、種々の言語により記述された文書に対して形態素解析を行わなくとも適切な用例を検索し、これをKWIC形式で提示するのに好適な、部分文字列の抽出装置、用例検索装置、ならびに、これらをコンピュータ上に実現するプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る部分文字列の抽出装置の概要構成を示す模式図である。
【図2】本発明の実施形態に係る検索装置の概要構成を示す模式図である。
【符号の説明】
501 抽出装置
502 文字列入力受付部
503 開始位置入力受付部
504 評価値計算部
505 抽出部
701 用例検索装置
702 対象文書入力受付部
703 検索文字列入力受付部
704 検索部

Claims (5)

  1. 文字列入力受付部と、開始位置受付部と、評価値計算部と、抽出部と、を備える、部分文字列の抽出装置であって、
    前記文字列入力受付部は、長さN (N≧1)の文字列
    s = X,…,X
    の入力を受け付け、
    前記開始位置受付部は、前記入力を受け付けられた文字列における開始位置k (1≦k≦N)の入力を受け付け、
    前記評価値計算部は、長さi (1≦i≦N−k+1)の部分文字列
    = X,…,Xk+i−1
    について、当該部分文字列sのsにおける出現頻度Nと、sにおいて当該部分文字列sに続いて出現する文字の種類の数Cとから、評価値
    SC(s) = log(i+1)×log(N)×(1−1/C
    を計算し、
    前記抽出部は、前記計算された評価値が
    SC(si+1) > SC(s
    を満たす場合、当該部分文字列si+1を抽出する
    ことを特徴とするもの。
  2. 対象文書入力受付部と、検索文字列入力受付部と、検索部と、を備える用例検索装置であって、
    前記対象文書入力受付部は、対象文書の入力を受け付け、
    前記検索文字列入力受付部は、検索文字列の入力を受け付け、
    前記検索部は、請求項1に記載の抽出装置に、当該対象文書を文字列の入力として与え、当該検索文字列が当該対象文書において出現する場所のそれぞれについて、これに続く位置を開始位置の入力として与え、当該出現する場所から当該抽出された部分文字列の終了位置までの部分文字列を、用例として出力する
    ことを特徴とするもの。
  3. 請求項2に記載の用例検索装置であって、
    前記検索部は、当該用例に対応して抽出された部分文字列の評価値により、当該用例を整列して出力する
    ことを特徴とするもの。
  4. 対象文書入力受付部と、検索文字列入力受付部と、検索部と、を備える用例検索装置であって、
    前記対象文書入力受付部は、対象文書の入力を受け付け、
    前記検索文字列入力受付部は、検索文字列の入力を受け付け、
    前記検索部は、当該検索文字列を接頭辞とし、当該対象文書に2回以上出現する部分文字列(以下「接頭重複文字列」という。)であって、他の接頭重複文字列の接頭辞となっていないものを、用例として出力する
    ことを特徴とするもの。
  5. コンピュータを、請求項1に記載の抽出装置、または、請求項2から4のいずれか1項に記載の用例検索装置のいずれかとして機能させることを特徴とするプログラム。
JP2002327456A 2002-11-11 2002-11-11 抽出装置、用例検索装置、ならびに、プログラム Pending JP2004164133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002327456A JP2004164133A (ja) 2002-11-11 2002-11-11 抽出装置、用例検索装置、ならびに、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002327456A JP2004164133A (ja) 2002-11-11 2002-11-11 抽出装置、用例検索装置、ならびに、プログラム

Publications (1)

Publication Number Publication Date
JP2004164133A true JP2004164133A (ja) 2004-06-10

Family

ID=32806093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002327456A Pending JP2004164133A (ja) 2002-11-11 2002-11-11 抽出装置、用例検索装置、ならびに、プログラム

Country Status (1)

Country Link
JP (1) JP2004164133A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012017782A1 (ja) 2010-08-06 2012-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012017782A1 (ja) 2010-08-06 2012-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム
JP5337308B2 (ja) * 2010-08-06 2013-11-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列生成方法、プログラム及びシステム
US8954402B2 (en) 2010-08-06 2015-02-10 International Business Machines Corporation Character string generation method, article of manufacture and system
KR101498396B1 (ko) * 2010-08-06 2015-03-03 인터내셔널 비지네스 머신즈 코포레이션 문자열 생성 방법, 프로그램 및 시스템
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法

Similar Documents

Publication Publication Date Title
US11803596B2 (en) Efficient forward ranking in a search engine
US8745065B2 (en) Query parsing for map search
US9619565B1 (en) Generating content snippets using a tokenspace repository
US7949514B2 (en) Method for building parallel corpora
US6654717B2 (en) Multi-language document search and retrieval system
KR101157693B1 (ko) 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법
US7424421B2 (en) Word collection method and system for use in word-breaking
KR100408637B1 (ko) 유사어 추출 및 문서 검색을 위한 방법 및 시스템
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20060200464A1 (en) Method and system for generating a document summary
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JP2004164133A (ja) 抽出装置、用例検索装置、ならびに、プログラム
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP2003337821A (ja) テキスト要約方法、装置、およびテキスト要約プログラム
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP2006139718A (ja) 話題語結合方法及び話題語結合・代表語抽出方法及び装置及びプログラム
JP2004287781A (ja) 重要度算出装置
JPH09212523A (ja) 全文検索方法
JPH04262460A (ja) 情報検索装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JP2002032411A (ja) 関連文書検索方法および装置
JP2006126883A (ja) 情報検索装置及び情報検索方法