JP2002032411A

JP2002032411A - 関連文書検索方法および装置

Info

Publication number: JP2002032411A
Application number: JP2000217655A
Authority: JP
Inventors: Hiroshi Umeki; 宏梅基
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2000-07-18
Filing date: 2000-07-18
Publication date: 2002-01-31

Abstract

(57)【要約】（修正有）【課題】単語の重要度は高いがユーザの検索意図には合
わない単語が存在する場合であっても、システムの性能
を大きく下げずに、平均的に高い性能を達成する関連文
書検索方法および装置を提供する。【解決手段】検索条件に基づいて検索対象文書から関連
する文書を検索する関連文書検索方法において、ユーザ
の入力する検索条件から検索単語を抽出し、該抽出した
検索単語の重要度を該検索単語が検索対象文書の全体に
出現している文書頻度からそれぞれ算出するとともに、
該算出した検索単語の重要度および前記検索対象文書の
各文書に含まれる前記検索単語の異なり数に基づいて該
文書の関連度を算出し、該算出した関連度に基づいて前
記検索条件に対応する関連文書を抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、文書集合の中か
らユーザの検索意図に関連する文書を検索する関連文書
検索方法および装置に関する。

【０００２】

【従来の技術】近年、大量の電子文書に容易にアクセス
することができるようになり、これに伴って、大量の文
書の中から必要な文書を高速かつ効率よく検索する技術
が強く求められている。

【０００３】このような技術の１つに、あらかじめ索引
となる単語を文書から取り出してき、検索時には文書そ
のものではなく索引から所望の文書を検索するようする
方法がある。この方法では、検索対象となる文書量が膨
大なため、人手を使わずに機械的に索引となる単語を抽
出することになる。

【０００４】しかしながら、機械的に抽出された単語か
ら構築された索引を用いる場合、ユーザの入力するキー
ワードから検索される結果が大量になることがよくあ
り、その中から所望の文書を探すことはユーザにとって
大きな負担になってしまう。

【０００５】そこで、検索結果の各文書について重要度
を計算し、重要度の高い順に文書をランキングして出力
すれば、ユーザは出力の上位の文書からみていくこと
で、所望の文書をより早くまたより多く探すことができ
ると期待される。

【０００６】文書の重要度は、ベクトル空間モデルとよ
ばれる計算モデルで求められることが多い。ベクトル空
間モデルでは、索引付けの段階で、あらかじめすべての
文書を索引語の重みベクトルに変換する。また、検索質
問も索引語の重みベクトルに変換し、そのベクトルとす
べての文書のベクトルとの類似度を計算し、類似度の高
い順にユーザに文書を提示する。

【０００７】索引単語の重要度を計算する方法として、
ＴＦ・ＩＤＦ重み付けとよばれる方法が広く用いられて
いる。ＴＦはTerm Frequencyの略であり、ある文書中に
出現する索引単語の頻度を表す。一方、ＩＤＦはInvers
e Document Frequencyの略であり、ある索引単語が全文
書中のどれくらいの文書に出現するかを表す尺度であ
る。

【０００８】ＴＦ・ＩＤＦ重み付けは、式１に示すよう
に、ある索引単語の重要度をＴＦとＩＤＦの値を掛け合
わせて求めている。

【０００９】

【式１】

【式２】ただし、式１におけるｗ_ｔ ^ｄは、文書ｄにおける単語ｔ
の重要度を、ｔｆ（ｔ，ｄ）は、文書ｄにおける単語ｔ
の出現頻度をそれぞれ表している。また、ｉｄｆ（ｔ，
Ｄ）は、Ｎ（Ｄ）を検索対象Ｄの文書数、ｄｆ（ｔ，
Ｄ）を検索対象Ｄにおける単語ｔの出現文書数として式
２で求められる（「情報検索と言語処理」徳永健伸著
東京大学出版刊１９９９年）。

【００１０】また、特開平１１-２５１０８号公報記載
の「関連キーワード自動抽出装置、文書検索装置及びこ
れらを用いた文書検索システム」においては、単語の重
要度を計算する式として式３、式４を挙げている。これ
らの式は、ＴＦ・ＩＤＦ重み付けの値から、さらに特定
文書集合に多く現れる単語の重要度を高くするようにし
たものである。

【００１１】

【式３】

【式４】ただし式３において、Ｓ（Ｗ）は単語Ｗの重要度、Ｃは
定数、ｎは特定された文書集合に含まれる文書数、ＴＦ
_ｊ（Ｗ）は文書ｊにおける単語Ｗが出現する文書数、Ｆ
Ｎ（Ｗ）は特定された文書集合中で単語Ｗを含む文書数
をそれぞれ表わし、式４において、ＤＦ（Ｗ）は文書全
体において単語Ｗが出現する文書数、Ｎは全文書数をそ
れぞれ表わす。

【００１２】その他にも、単語の重要度を計算する式と
して、平方根をＴＦ項に採用する式５も考えられる。

【００１３】

【式５】

【００１４】さて、検索システムを評価する場合、検索
システムの性能を再現率と精度という指標で評価するこ
とが多い。これらの指標を求めるために、特定の文書集
合に対してあらかじめ正解が分かっている検索質問を用
意しておき、検索システムに検索質問を入力していきそ
の結果から再現率と精度を求めることが行われる。一つ
の検索について一つの再現率と精度のグラフが得られ
る。再現率と精度の関係を一つのスカラ値に変換する方
法として、１１点平均精度とよばれる方法が広く使われ
ている。

【００１５】１１点平均精度は、再現率が(0.0, 0.1,
0.2, ..., 1.0)の１１点についての精度を平均する。な
お、再現率が０の点は、適合文書が最初に検索できた時
点での精度を用いて近似する。１１点平均精度は再現率
と精度のグラフの大局的な情報も考慮しているといえる
（「情報検索と言語処理」徳永健伸著東京大学出版刊
１９９９年）。

【００１６】このようにして検索システムを評価する場
合、検索システムの性能は、検索された文書のランキン
グ順に依存することになる。したがって、索引単語重み
付けの方法は、検索システムの性能を決める大きな要因
であることが分かる。

【００１７】

【発明が解決しようとする課題】ところが、索引単語の
重要度をテキストにおける統計量から求めると、ある索
引単語の重要度が突出して高いにも関わらず、その単語
を含む文書はユーザの検索意図に合わない場合がある。
上述した従来技術の場合、そのような単語を含むために
ユーザの検索意図に適合しない文書が上位にランキング
されてしまい、結果としてシステムの性能が大きく下が
ってしまうという問題がある。

【００１８】そこで、この発明は、単語の重要度は高い
がユーザの検索意図には合わない単語が存在する場合で
あっても、システムの性能を大きく下げずに、平均的に
高い性能を達成する関連文書検索方法および装置を提供
することを目的とする。

【００１９】

【課題を解決するための手段】上述した目的を達成する
ため、請求項１の発明は、検索条件に基づいて検索対象
文書から関連する文書を検索する関連文書検索方法にお
いて、ユーザの入力する検索条件から検索単語を抽出
し、該抽出した検索単語の重要度を該検索単語が検索対
象文書の全体に出現している文書頻度からそれぞれ算出
するとともに、該算出した検索単語の重要度および前記
検索対象文書の各文書に含まれる前記検索単語の異なり
数に基づいて該文書の関連度を算出し、該算出した関連
度に基づいて前記検索条件に対応する関連文書を抽出す
ることを特徴とする。

【００２０】また、請求項２の発明は、請求項１の発明
において、前記関連度は、前記検索対象文書の各文書中
における前記検索単語の総出現度に基づいて算出される
ことを特徴とする。

【００２１】また、請求項３の発明は、請求項１の発明
において、前記関連度は、前記検索単語の言語属性に基
づいて算出されることを特徴とする。

【００２２】また、請求項４の発明は、請求項１の発明
において、前記検索単語を複数の文書から抽出し、該抽
出した各検索単語の重要度を該複数の文書全体に出現し
ている各検索単語の文書頻度と前記検索対象文書の全体
に出現している各検索単語の文書頻度とから算出するこ
とを特徴とする。

【００２３】また、請求項５の発明は、請求項４の発明
において、前記検索単語を抽出する複数の文書は、該文
書に対応する単語集合を組にして格納されていることを
特徴とする。

【００２４】また、請求項６の発明は、検索条件に基づ
いて検索対象文書から関連する文書を検索する関連文書
検索装置において、検索対象文書に含まれている単語と
該単語に対応する文書へのポインタの集合を組にして格
納する単語索引手段と、ユーザの入力する検索条件を受
け取る検索条件入力手段と、前記検索条件入力手段が受
け取った検索条件から検索単語を抽出し、該抽出した検
索単語の重要度を該検索単語が前記検索対象文書の全体
に出現している文書頻度から前記単語索引手段を参照し
て算出する検索単語生成手段と、前記検索単語生成手段
が算出した各検索単語の重要度と前記検索対象文書の各
文書に含まれる前記検索単語の異なり数に基づいて該文
書の関連度を算出する関連文書計算手段とを具備するこ
とを特徴とする。

【００２５】また、請求項７の発明は、請求項６の発明
において、前記単語索引手段は、検索対象の文書に含ま
れている単語と該単語に対応する文書へのポインタと各
文書中での出現頻度とを組にして格納し、前記関連文書
計算手段は、前記検索対象文書の各文書中における前記
検索単語の総出現度に基づいて前記関連度を計算するこ
とを特徴とする。

【００２６】また、請求項８の発明は、請求項６の発明
において、前記単語索引手段は、検索対象の文書に含ま
れている単語の言語属性をさらに格納し、前記関連文書
計算手段は、前記検索単語の言語属性に基づいて前記関
連度を計算することを特徴とする。

【００２７】また、請求項９の発明は、請求項６の発明
において、前記検索条件入力手段は、検索条件として複
数の文書を受け取り、前記検索単語生成手段は、前記検
索条件入力手段が受け取った複数の文書に含まれている
単語を検索単語とし、該複数の文書全体に出現している
検索単語の文書頻度と前記検索対象文書の全体に出現し
ている検索単語の文書頻度とに基づいて該検索単語の重
要度を計算することを特徴とする。

【００２８】また、請求項１０の発明は、請求項９の発
明において、検索対象の各文書と該文書に対応する単語
集合とを組にして格納する単語集合格納手段をさらに具
備し、前記検索単語生成手段は、前記検索条件入力手段
から入力された文書に対応する単語を前記単語集合格納
手段から取得することを特徴とする。

【００２９】

【発明の実施の形態】以下、この発明に係る関連文書検
索方法および装置の一実施の形態について、添付図面を
参照して詳細に説明する。

【００３０】図１は、関連文書検索装置の主たる構成を
示すブロック図である。同図に示すように、関連文書検
索装置１０は、単語索引部１と検索条件入力部２、検索
単語生成部３、関連文書計算部４を具備して構成され
る。

【００３１】単語索引部１は、検索対象文書に含まれる
単語と、その単語に対応する文書ポインタの組を索引と
して格納している。単語検索部１に格納される単語は、
検索対象文書のテキストを形態素解析し、その結果に基
づいて抽出されたものである。

【００３２】検索条件入力部２は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。

【００３３】検索単語生成部３は、検索条件入力部２が
受け取った文を形態素解析し、その解析結果から検索単
語を抽出する。

【００３４】関連文書計算部４は、検索単語生成部３が
生成した検索単語から検索条件に関連する文書を求め、
文書の関連度を計算する。

【００３５】次に、関連文書検索装置１０の各部の動作
について詳細に説明するが、各部の動作については、複
数の例を挙げて説明する。

【００３６】

【実施例１】実施例１においては、単語索引部１は、検
索対象文書のテキストを形態素解析した結果の中から名
詞の単語を抽出しておく。そして、単語と文書ポインタ
をそれぞれ単語トライと文書テーブルの形で、メモリも
しくはファイルに割り付けておく。

【００３７】図２は、実施例１における単語索引部１を
模式的に示した図である。各単語は、単語トライ１１中
に文字列順に並べられ、文書テーブル１２中のポインタ
とリンクしている。文書テーブル１２のエントリは、固
定幅（ここでは、４）であり、検索対象文書１３へのポ
インタが対応する単語毎に順番に格納されている。ま
た、文書テーブル１２中のポインタは、先頭からのオフ
セットアドレス値で表現される。

【００３８】したがって、ある単語に対応する文書の数
は、単語トライ１１中で次の単語にリンクしたポインタ
と、その単語にリンクしたポインタとの差分をエントリ
幅で割った値に等しくなる。例えば、単語「ＡＢＢＣ」
に対応する文書数は５（＝（３２−１２）／４）である
ことが分かる。

【００３９】検索条件入力部２は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。

【００４０】検索単語生成部３は、まず、検索条件入力
部２からユーザにより入力された自然文を形態素解析
し、解析の結果から名詞の単語を検索単語として抽出す
る。次に、式６により、抽出した各検索単語の重要度を
検索対象文書全体に出現している文書頻度の逆数として
求める。これは、文書頻度が高い単語は、ありふれた単
語であるために重要度が低いといった理由から求められ
るものである。

【００４１】なお、この文書頻度は、単語索引部１から
容易に、かつ高速に求めることができる。

【００４２】

【式６】

【００４３】関連文書計算部４は、単語の重要度が高い
順に検索単語から対応する文書を検索し、関連文書計算
部４の内部に検索した文書とその関連度を保存してい
く。文書の関連度は、文書に含まれる各検索単語の重要
度の和と、異なり検索単語数との二項線形和（式７）で
ある。

【００４４】

【式７】ただし、式７において、ｗｄは文書ｄの関連度、ｔ_ｉ
は文書ｄに含まれるｉ番目の検索単語、α_１とβ_１は定
数、ｎは異なり検索単語数をそれぞれ表わしている。

【００４５】そして、すべての検索単語について対応す
る文書を求めた後に、保存した文書を関連度が高い順に
並びかえ、上位から所定の件数の文書を結果として出力
する。

【００４６】

【実施例２】実施例２においては、単語索引部１は、検
索対象文書のテキストを形態素解析した結果の中から名
詞の単語を抽出しておく。そして、単語と文書ポインタ
をそれぞれ単語トライと文書テーブルの形で、メモリも
しくはファイルに割り付けておく。

【００４７】図３は、実施例２における単語索引部１を
模式的に示した図である。単語索引部１は、各単語をそ
の出現頻度を併せて１つの文字列として構成し、これを
単語トライ２１中に並べている。各単語とその出現頻度
は、特定の区切り文字（図３中では、「￥ｔ」）を挟ん
で１つの文字列として構成されており、単語トライ２１
中に文字列順に並べられ、文書テーブル２２中のポイン
タとリンクしている。なお、出現頻度は固定長のバイナ
リで表現される。

【００４８】文書テーブル２２のエントリは固定幅であ
り、文書へのポインタが対応する出現頻度を含む単語ご
とに順番に格納され、文書テーブル２２中のポインタ
は、先頭からのオフセットアドレス値で表現される。し
たがって、出現頻度を含むある単語に対応する文書の数
は、単語トライ２１中で次の単語にリンクしたポインタ
と、その単語にリンクしたポインタとの差分をエントリ
幅で割った値に等しくなる。

【００４９】例えば、図３の場合では、出現頻度３の単
語「ＡＢＢＣ」に対応する文書数は２であり、出現頻度
とは無関係に、単語「ＡＢＢＣ」すべてに対応する文書
数は５であることが分かる。

【００５０】検索条件入力部２は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。

【００５１】検索単語生成部３は、まず、検索条件入力
部２からユーザにより入力された自然文を形態素解析
し、解析の結果から名詞の単語を検索単語として抽出す
る。

【００５２】次に、抽出した各検索単語の重要度を、検
索対象文書全体に出現している文書頻度の逆数として求
める。

【００５３】関連文書計算部４は、単語の重要度が高い
順に検索単語から対応する文書を検索し、関連文書計算
部４の内部に検索した文書とその関連度を保存してい
く。文書の関連度は、文書に含まれる各検索単語の重要
度の和と検索単語の総出現数との二項線形和（式８）で
ある。

【００５４】

【式８】ただし、式８において、α_２とβ_２は、定数をそれぞれ
表わしている。

【００５５】そして、すべての検索単語について対応す
る文書を求めた後に、保存した文書を関連度が高い順に
並びかえ、上位から所定の件数の文書を結果として出力
する。

【００５６】

【実施例３】実施例３においては、単語索引部１は、検
索対象文書に含まれる単語、その単語の言語属性、その
単語が文書中に出現する頻度、対応する文書ポインタと
を組にして格納している。

【００５７】格納される単語は、あらかじめ検索対象文
書のテキストを形態素解析した結果の中から名詞や動
詞、形容詞などの自立語の単語を抽出したものであり、
単語の言語属性として単語の品詞情報も格納されてい
る。

【００５８】単語、言語属性、出現頻度は、単語トライ
の形で、文書ポインタは文書テーブルの形で、メモリも
しくはファイルにそれぞれ割り付けられる。

【００５９】図４は、実施例３における単語索引部１を
模式的に示した図である。単語索引部１は、単語、言語
属性、出現頻度のそれぞれを特定の区切り文字（図４中
では、「￥ｔ」）を挟むことで１つの文字列として構成
し、これを単語トライ３１中に文字列順に並べている。
各文字列は、文書テーブル３２中のポインタとリンクし
ている。なお、言語属性と出現頻度とはそれぞれ固定長
のバイナリでコード化して表現される。

【００６０】文書テーブル３２のエントリは固定幅であ
り、文書へのポインタが対応する言語属性と出現頻度と
を含む単語ごとに順番に格納され、文書テーブル３２中
のポインタは、先頭からのオフセットアドレス値で表現
される。したがって、言語属性と出現頻度とを含むある
単語に対応する文書の数は、単語トライ３１中で、次の
単語にリンクしたポインタと、その単語にリンクしたポ
インタとの差分をエントリ幅で割った値に等しくなる。

【００６１】例えば、図４の場合では、出現頻度３で言
語属性「名詞」の単語「ＡＢＢＣ」に対応する文書数は
２であり、出現頻度とは無関係に、言語属性「名詞」の
単語「ＡＢＢＣ」すべてに対応する文書数は５であるこ
とが分かる。

【００６２】検索条件入力部２は、ユーザから検索条件
として検索意図を表現した自然文を受け取る。

【００６３】検索単語生成部３は、まず、検索条件入力
部２からユーザにより入力された自然文を形態素解析
し、解析の結果から自立語の単語を検索単語として抽出
する。次に、式９を用いて、抽出した各検索単語の重要
度を検索対象文書全体に出現している文書頻度ｄｆの逆
数と、単語の言語属性に応じた値δとの積として求め
る。

【００６４】

【式９】ただし、δは、単語の言語属性に応じて１以下に設定さ
れる値で、例えば、名詞の場合は１、それ以外の品詞の
場合は１より小さい値を割り当てる。

【００６５】関連文書計算部４は、単語の重要度が高い
順に検索単語から対応する文書を検索し、関連文書計算
部４の内部に検索した文書とその関連度を保存してい
く。文書の関連度は、文書に含まれる各検索単語の重要
度の和と検索単語の総出現数との二項線形和である。す
べての検索単語について対応する文書を求めた後に、保
存した文書を関連度が高い順に並びかえ、上位から所定
の件数の文書を結果として出力する。

【００６６】

【実施例４】実施例４における単語索引部１は、実施例
３の場合と同様である。

【００６７】検索条件入力部２は、ユーザから検索条件
として、検索対象における文書ポインタもしくは文書を
表すテキストの集合を受け取る。

【００６８】検索単語生成部３は、まず、ユーザが検索
条件入力部２から入力した各文書のテキストを解析し、
その結果から自立語の単語を検索単語として抽出する。
同時に、入力の文書集合における各検索単語の文書頻度
を保存しておく。

【００６９】次に、抽出した各検索単語の重要度を、入
力における文書頻度、検索対象文書全体での文書頻度、
単語の言語属性に応じた値とから求める。具体的には、
式１０にしたがって検索単語の重要度を計算する。

【００７０】

【式１０】ただし、式１０において、ｄｆ（ｔ，Ｑ）は、検索条件
入力部２からの入力Ｑにおける単語ｔの文書頻度を表わ
す。

【００７１】関連文書計算部４は、基本的に実施例３の
場合と同じであるが、文書の関連度を計算するときに、
検索単語の総出現数として入力における出現頻度も考慮
に入れている。

【００７２】

【実施例５】実施例５においては、関連文書検索装置１
０は、図５に示すように、実施例１乃至４の構成に加え
て、単語集合格納部５を具備している。

【００７３】単語索引部１、検索条件入力部２、検索単
語生成部３、関連文書計算部４は、いずれも実施例４の
場合と同様であるが、検索単語生成部３は、単語集合格
納部５を利用することにより、その処理を容易としてい
る。

【００７４】単語集合格納部５は、図６に示すように、
検索対象の各文書ごとに、対応する単語、その単語の言
語属性、その単語が文書中に出現する頻度の組の集合を
格納している。格納される単語は、単語索引部１に格納
されている単語と同様に、あらかじめ、文書のテキスト
を形態素解析して抽出した自立語である。

【００７５】したがって、検索単語生成部３は、検索条
件入力部２から入力がある毎に形態素解析等を行う必要
が無く、その処理が容易かつ高速となる。

【００７６】なお、上述の実施例では、検索条件入力部
２へ入力する自然文としたが、複数の単語を入力して
も、形態素解析を行う必要が無くなるのみで他の処理は
何ら変わらない。したがって、検索条件に単語を直接用
いることも可能である。

【００７７】ここで、上述の実施例３と従来技術に関し
て、検索システムの性能を評価した例について説明す
る。

【００７８】評価のために用意した検索対象は、技術的
な内容の文書の要約であり、検索質問は、検索意図を表
す１文または２文程度の比較的短い自然文である。

【００７９】関連度を計算する際に用いた式は、実施例
３の場合は式８および式９であり（α_２＝１００００
０、β_２＝１００程度）、従来技術としては式２および
式５の２つである。用いた単語索引はすべてに共通であ
る。

【００８０】結果としてすべての検索質問に対する１１
点平均精度の平均値は、従来技術の場合はそれぞれ０．
２６，０．３７であったのに対し、実施例３の場合は
０．４３となった。

【００８１】

【発明の効果】以上説明したように、この発明によれ
ば、検索条件となる検索単語の重要度の和と異なり検索
単語数との和に基づいて文書の関連度を決定するように
構成したので、より高い検索性能を得ることができる。

【図面の簡単な説明】

【図１】関連文書検索装置の主たる構成を示すブロック
図である。

【図２】実施例１における単語索引部１を模式的に示し
た図である。

【図３】実施例２における単語索引部１を模式的に示し
た図である。

【図４】実施例３における単語索引部１を模式的に示し
た図である。

【図５】関連文書検索装置の別の構成を示すブロック図
である。

【図６】単語集合格納部５を模式的に示した図である。

【符号の説明】

１単語索引部２検索条件入力部３検索単語生成部４関連文書計算部５単語集合格納部１０、１０’ 関連文書検索装置１１単語トライ１２文書テーブル１３検索対象文書２１単語トライ２２文書テーブル３１単語トライ３２文書テーブル

Claims

【特許請求の範囲】

【請求項１】検索条件に基づいて検索対象文書から関
連する文書を検索する関連文書検索方法において、ユーザの入力する検索条件から検索単語を抽出し、該抽
出した検索単語の重要度を該検索単語が検索対象文書の
全体に出現している文書頻度からそれぞれ算出するとと
もに、該算出した検索単語の重要度および前記検索対象
文書の各文書に含まれる前記検索単語の異なり数に基づ
いて該文書の関連度を算出し、該算出した関連度に基づ
いて前記検索条件に対応する関連文書を抽出することを
特徴とする関連文書検索方法。
【請求項２】前記関連度は、前記検索対象文書の各文書中における前記検索単語の総
出現度に基づいて算出されることを特徴とする請求項１
記載の関連文書検索方法。
【請求項３】前記関連度は、前記検索単語の言語属性に基づいて算出されることを特
徴とする請求項１記載の関連文書検索方法。
【請求項４】前記検索単語を複数の文書から抽出し、
該抽出した各検索単語の重要度を該複数の文書全体に出
現している各検索単語の文書頻度と前記検索対象文書の
全体に出現している各検索単語の文書頻度とから算出す
ることを特徴とする請求項１記載の関連文書検索方法。
【請求項５】前記検索単語を抽出する複数の文書は、該文書に対応する単語集合を組にして格納されているこ
とを特徴とする請求項４記載の関連文書検索方法。
【請求項６】検索条件に基づいて検索対象文書から関
連する文書を検索する関連文書検索装置において、検索対象文書に含まれている単語と該単語に対応する文
書へのポインタの集合を組にして格納する単語索引手段
と、ユーザの入力する検索条件を受け取る検索条件入力手段
と、前記検索条件入力手段が受け取った検索条件から検索単
語を抽出し、該抽出した検索単語の重要度を該検索単語
が前記検索対象文書の全体に出現している文書頻度から
前記単語索引手段を参照して算出する検索単語生成手段
と、前記検索単語生成手段が算出した各検索単語の重要度と
前記検索対象文書の各文書に含まれる前記検索単語の異
なり数に基づいて該文書の関連度を算出する関連文書計
算手段とを具備することを特徴とする関連文書検索装
置。
【請求項７】前記単語索引手段は、検索対象の文書に含まれている単語と該単語に対応する
文書へのポインタと各文書中での出現頻度とを組にして
格納し、前記関連文書計算手段は、前記検索対象文書の各文書中における前記検索単語の総
出現度に基づいて前記関連度を計算することを特徴とす
る請求項６記載の関連文書検索装置。
【請求項８】前記単語索引手段は、検索対象の文書に含まれている単語の言語属性をさらに
格納し、前記関連文書計算手段は、前記検索単語の言語属性に基づいて前記関連度を計算す
ることを特徴とする請求項６記載の関連文書検索装置。
【請求項９】前記検索条件入力手段は、検索条件として複数の文書を受け取り、前記検索単語生成手段は、前記検索条件入力手段が受け取った複数の文書に含まれ
ている単語を検索単語とし、該複数の文書全体に出現し
ている検索単語の文書頻度と前記検索対象文書の全体に
出現している検索単語の文書頻度とに基づいて該検索単
語の重要度を計算することを特徴とする請求項１記載の
関連文書検索装置。
【請求項１０】検索対象の各文書と該文書に対応する
単語集合とを組にして格納する単語集合格納手段をさら
に具備し、前記検索単語生成手段は、前記検索条件入力手段から入力された文書に対応する単
語を前記単語集合格納手段から取得することを特徴とす
る請求項９記載の関連文書検索装置。