JP2001052001A

JP2001052001A - 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2001052001A
Application number: JP11221483A
Authority: JP
Inventors: Akihiko Teramoto; 陽彦寺本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-08-04
Filing date: 1999-08-04
Publication date: 2001-02-23
Anticipated expiration: 2019-08-04
Also published as: JP3725373B2

Abstract

(57)【要約】【課題】単語重要度が高い単語を的確に判断でき、短
時間でしかも検索者のスキルに依存することなく信頼性
が高い検索結果を得ること。【解決手段】複数の被検索対象文書を対象として、被
検索対象文書毎に、当該被検索対象文書に含まれる単語
をそれぞれ抽出する単語抽出部３０と、単語抽出部３０
の抽出結果から単語重要度の計算対象である単語を一つ
づつ選択し、複数の被検索対象文書から計算対象である
単語を含む被検索対象文書を選択する単語重要度計算処
理部４０とを備え、単語重要度計算処理部４０は、選択
されたすべての被検索対象文書における計算対象の単語
以外の単語を計数するとともに、選択されたすべての被
検索対象文書の文書数を計数し、二つの計数結果に基づ
いて、複数の被検索対象文書に含まれる計算対象の単語
に関する単語重要度を計算する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力文を検索キー
として、電子化された複数の被検索対象文書の中から所
望の被検索対象文書を検索するときに用いられる単語重
要度計算装置、文書検索装置、単語重要度計算プログラ
ムを記録したコンピュータ読み取り可能な記録媒体およ
び文書検索プログラムを記録したコンピュータ読み取り
可能な記録媒体に関するものであり、特に、被検索対象
文書に含まれる単語の単語重要度の計算を的確に行うこ
とができ、しかも検索結果の信頼性を高めることができ
る単語重要度計算装置、文書検索装置、単語重要度計算
プログラムを記録したコンピュータ読み取り可能な記録
媒体および文書検索プログラムを記録したコンピュータ
読み取り可能な記録媒体に関するものである。

【０００２】近年、コンピュータの処理能力の向上、コ
ンピュータの普及により、膨大な量の電子化された文書
が企業内のデータベースとして活用されている。また、
従来より、膨大な量の文書の中から所望の文書を検索す
るためには、検索キーワードと被検索対象である文書と
を照合する手法等を用いた検索装置が用いられている。
しかしながら、近時、電子化された文書が加速的に増加
しているという背景から、企業においては、業務効率の
改善を目指して、さらに効率良く検索を行うことができ
る手段、方法が切望されている。

【０００３】

【従来の技術】従来より、データベース化された文書
（電子化文書）から、キーワード一致方式により、キー
ワードを含む当該文書を検索する検索装置が用いられて
いる。また、文書の検索においては、文書に含まれる単
語に重要度を設定する方法がある。この重要度を求める
手法としては、ｔｆ・ｉｄｆ法がある。このｔｆ・ｉｄ
ｆ法においては、複数の文書のうち、ある文書における
単語の重要度を、その文書における出現頻度とすべての
文書における上記単語の出現頻度の逆数の積としてい
る。また、ｔｆ・ｉｄｆ法をベクトル空間法に適用した
場合には、上記重要度を重みとして、検索キーに相当す
る入力文に含まれる単語群から得られる文書ベクトルと
被検索対象の文書に含まれる単語群から得られる文書ベ
クトルとの内積が、入力文と被検索対象文書との間の類
似度である。したがって、この場合には、類似度が高い
被検索対象文書を検索結果としている。ここで、ベクト
ル空間法は、文書に含まれる複数の単語をベクトルとし
て表現する方法である。

【０００４】

【発明が解決しようとする課題】ところで、前述した検
索キーワード一致方式においては、キーワードの指定が
不適切である場合には、所望の被検索対象文書と全く関
連性がない大量の被検索対象文書とともに所望の被検索
対象文書が検索結果とされる。したがって、この場合に
は、関連性がない大量の被検索対象文書に、所望の被検
索対象文書が埋もれてしまうため、検索に長時間を要す
るという問題があった。言い換えれば、検索キーワード
一致方式においては、スキルのある検索者が適切なキー
ワードを指定した場合、比較的短時間で検索することが
できるが、初心者等のようにスキル不足の検索者の場
合、適切なキーワード指定が難しいため、いたずらに検
索に時間がかかってしまう。

【０００５】また、前述したｔｆ・ｉｄｆ法において
は、単語の出現頻度に基づいて単語重要度を計算してい
る。したがって、出現頻度が同じ単語（たとえば、「状
態」、「ＳＱＬ」）については、単語重要度も同じ値と
して計算される。しかしながら、実際の文書において
は、単語の出現頻度と単語重要度とは必ずしも一致しな
い。これは、経験的にもわかることであり、「状態」等
といった一般的な単語の単語重要度は、「ＳＱＬ」とい
った専門用語の単語重要度より高い。

【０００６】このような場合、ｔｆ・ｉｄｆ法において
は、出現頻度に基づいて単語重要度が計算されるため、
本来ならば一般的な単語「状態」の単語重要度に比べ
て、単語重要度が高い「ＳＱＬ」という専門用語の単語
重要度が、一般的な単語「状態」と同じ値の単語重要度
として計算される。したがって、ｔｆ・ｉｄｆ法により
計算される単語重要度は、実際の値と大きく異なる場合
があり、信頼性が低い。また、ｔｆ・ｉｄｆ法により計
算された単語重要度をファクタとして検索を行った場合
にも、当然のことながら検索結果の信頼性が低い。

【０００７】本発明は、上記に鑑みてなされたもので、
単語重要度が高い単語を的確に判断することができると
ともに、短時間でしかも検索者のスキルに依存すること
なく信頼性が高い検索結果を得ることができる単語重要
度計算装置、文書検索装置、単語重要度計算プログラム
を記録したコンピュータ読み取り可能な記録媒体および
文書検索プログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することを目的とする。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、請求項１にかかる発明は、複数の被検索対象文書を
対象として、被検索対象文書毎に、当該被検索対象文書
に含まれる単語をそれぞれ抽出する単語抽出手段（後述
する一実施の形態の単語抽出部３０に相当）と、前記単
語抽出手段の抽出結果から単語重要度の計算対象である
計算対象単語を一つづつ選択し、前記複数の被検索対象
文書から該計算対象単語を含む被検索対象文書を選択す
る選択手段（後述する一実施の形態の単語重要度計算処
理部４０に相当）と、前記選択手段により選択されたす
べての被検索対象文書における前記計算対象単語以外の
単語を計数し、前記選択手段により選択されたすべての
被検索対象文書の文書数を計数する計数手段（後述する
一実施の形態の単語重要度計算処理部４０に相当）と、
前記計数手段の計数結果に基づいて、前記複数の被検索
対象文書に含まれる計算対象単語の重要度を計算する単
語重要度計算手段（後述する一実施の形態の単語重要度
計算処理部４０に相当）とを備えることを特徴とする。

【０００９】この請求項１にかかる発明によれば、単語
抽出手段により、複数の被検索対象文書を対象として、
被検索対象文書毎に単語が抽出されると、選択手段によ
り、単語抽出手段の抽出結果から計算対象単語が一つづ
つ選択され、さらに該計算対象単語を含む被検索対象文
書が選択される。つぎに、計数手段では、被検索対象文
書における計算対象単語以外の単語が計数され、さら
に、選択手段により選択されたすべての被検索対象文書
の文書数が計数される。最後に、単語重要度計算手段で
は、計数手段における二つの計数結果に基づいて、計算
対象単語の単語重要度が計算される。

【００１０】このように、請求項１にかかる発明によれ
ば、被検索対象文書における計算対象単語以外の単語の
計数結果、および選択手段により選択されたすべての被
検索対象文書の文書数の計数結果に基づいて、単語重要
度を求めるようにしたので、被検索対象文書に含まれる
重要度が高い単語を的確に判断することが可能となる。

【００１１】また、請求項２にかかる発明は、請求項１
に記載の単語重要度計算装置において、前記計数手段
は、前記被検索対象文書における任意の範囲を、前記計
算対象単語以外の単語を計数すべき範囲とすることを特
徴とする。

【００１２】この請求項２にかかる発明によれば、計算
対象単語以外の単語を計数すべき被検索対象文書におけ
る範囲を任意の範囲として変更できるため、単語重要度
の計算条件を変えることが可能となり、汎用性が向上す
る。

【００１３】また、請求項３にかかる発明は、複数の被
検索対象文書を対象として、被検索対象文書毎に、当該
被検索対象文書に含まれる単語をそれぞれ抽出する第１
の単語抽出手段（後述する一実施の形態の単語抽出部３
０に相当）と、前記第１の単語抽出手段の抽出結果から
単語重要度の計算対象である計算対象単語を一つづつ選
択し、前記複数の被検索対象文書から該計算対象単語を
含む被検索対象文書を選択する選択手段（後述する一実
施の形態の単語重要度計算処理部４０に相当）と、前記
選択手段により選択されたすべての被検索対象文書にお
ける前記計算対象単語以外の単語を計数し、前記選択手
段により選択されたすべての被検索対象文書の文書数を
計数する計数手段（後述する一実施の形態の単語重要度
計算処理部４０に相当）と、前記計数手段の計数結果に
基づいて、前記複数の被検索対象文書に含まれる計算対
象単語の重要度を計算する単語重要度計算手段（後述す
る一実施の形態の単語重要度計算処理部４０に相当）
と、検索キーである入力文に含まれる単語を抽出する第
２の単語抽出手段（後述する一実施の形態の単語抽出部
５２に相当）と、前記第１の単語抽出手段における一つ
の被検索対象文書に対応する抽出結果と前記第２の単語
抽出手段の抽出結果とを、被検索対象文書毎に順次比較
する比較手段（後述する一実施の形態の検索部５１に相
当）と、前記比較手段の比較結果より両抽出結果間で共
通の単語を認識し、該共通の単語に関する単語重要度に
基づいて、前記入力文と当該被検索対象文書との間の類
似度を計算する類似度計算手段（後述する一実施の形態
の検索部５１に相当）と、前記類似度計算手段の計算結
果に基づいて、類似度が高い被検索対象文書を検索結果
として出力する出力手段（後述する一実施の形態の出力
部７０に相当）とを備えることを特徴とする。

【００１４】この請求項３にかかる発明によれば、第１
の単語抽出手段により、複数の被検索対象文書を対象と
して、被検索対象文書毎に単語が抽出されると、選択手
段により、第１の単語抽出手段の抽出結果から計算対象
単語が一つづつ選択され、さらに該計算対象単語を含む
被検索対象文書が選択される。つぎに、計数手段では、
被検索対象文書における計算対象単語以外の単語が計数
され、さらに、選択手段により選択されたすべての被検
索対象文書の文書数が計数される。最後に、単語重要度
計算手段では、計数手段における二つの計数結果に基づ
いて、計算対象単語の単語重要度が計算される。

【００１５】そして、すべての計算対象単語の単語重要
度が計算された状態において、検索キーである入力文が
入力されると、第２の単語抽出手段により上記入力文に
含まれる単語が抽出される。つぎに、比較手段により、
第１の単語抽出手段における抽出結果と第２の単語抽出
手段における抽出結果が比較され、類似度計算手段によ
り、共通の単語に関する単語重要度に基づいて、入力文
と被検索対象文書との間の類似度が計算される。最後
に、出力手段では、類似度が高い被検索対象文書が検索
結果として出力される。

【００１６】このように、請求項３にかかる発明によれ
ば、入力文に含まれる単語を抽出した抽出結果と被検索
対象文書に含まれる単語を抽出した抽出結果とを比較
し、両者に共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度を計算し、この
類似度に基づいて検索結果を求めるようにしたので、単
語重要度が考慮された検索結果が得られることから、検
索結果の信頼性が向上する。

【００１７】また、請求項３にかかる発明によれば、単
語重要度が考慮された検索結果が得られることから、検
索者にとって重要度が低い被検索対象文書が検索結果と
されることがないため検索時間を短縮することができ
る。

【００１８】さらに、請求項３にかかる発明によれば、
入力文から単語を抽出し、この抽出結果と、単語重要度
とに基づく文書検索が行われるため、従来のキーワード
検索に比して、検索者のスキルに左右されることなく、
的確に文書検索を行うことができる。

【００１９】また、請求項４にかかる発明は、請求項３
に記載の文書検索装置において、前記計数手段は、前記
被検索対象文書における任意の範囲を、前記計算対象単
語以外の単語を計数すべき範囲とすることを特徴とす
る。

【００２０】この請求項４にかかる発明によれば、計算
対象単語以外の単語を計数すべき被検索対象文書におけ
る範囲を任意の範囲として変更できるため、検索条件を
変えることが可能となり、汎用性が向上する。

【００２１】また、請求項５にかかる発明は、複数の被
検索対象文書を対象として、被検索対象文書毎に、当該
被検索対象文書に含まれる単語をそれぞれ抽出する単語
抽出工程（後述する一実施の形態のステップＳＡ２に相
当）と、前記単語抽出工程における抽出結果から単語重
要度の計算対象である計算対象単語を一つづつ選択さ
せ、前記複数の被検索対象文書から該計算対象単語を含
む被検索対象文書を選択させる選択工程（後述する一実
施の形態のステップステップＳＢ１およびステップＳＢ
２に相当）と、前記選択工程において選択されたすべて
の被検索対象文書における前記計算対象単語以外の単語
を計数させ、前記選択工程において選択されたすべての
被検索対象文書の文書数を計数させる計数工程（後述す
る一実施の形態のステップＳＢ４およびステップＳＢ５
に相当）と、前記計数工程における計数結果に基づい
て、前記複数の被検索対象文書に含まれる計算対象単語
の重要度を計算させる単語重要度計算工程（後述する一
実施の形態のステップＳＢ６に相当）とをコンピュータ
に実行させるための単語重要度計算プログラムを記録し
たコンピュータ読み取り可能な記録媒体である。

【００２２】この請求項５にかかる発明によれば、単語
抽出工程において複数の被検索対象文書を対象として、
被検索対象文書毎に単語が抽出されると、選択工程にお
いて単語抽出工程の抽出結果から計算対象単語が一つづ
つ選択され、さらに該計算対象単語を含む被検索対象文
書が選択される。つぎに、計数工程では、被検索対象文
書における計算対象単語以外の単語が計数され、さら
に、選択工程において選択されたすべての被検索対象文
書の文書数が計数される。最後に、単語重要度計算工程
では、計数工程における二つの計数結果に基づいて、計
算対象単語の単語重要度が計算される。

【００２３】このように、請求項５にかかる発明によれ
ば、被検索対象文書における計算対象単語以外の単語の
計数結果、および選択工程において選択されたすべての
被検索対象文書の文書数の計数結果に基づいて、単語重
要度を求めるようにしたので、被検索対象文書に含まれ
る重要度が高い単語を的確に判断することが可能とな
る。

【００２４】また、請求項６にかかる発明は、複数の被
検索対象文書を対象として、被検索対象文書毎に、当該
被検索対象文書に含まれる単語をそれぞれ抽出する第１
の単語抽出工程（後述する一実施の形態のステップＳＡ
２に相当）と、前記第１の単語抽出工程における抽出結
果から単語重要度の計算対象である計算対象単語を一つ
づつ選択させ、前記複数の被検索対象文書から該計算対
象単語を含む被検索対象文書を選択させる選択工程（後
述する一実施の形態のステップステップＳＢ１およびス
テップＳＢ２に相当）と、前記選択工程において選択さ
れたすべての被検索対象文書における前記計算対象単語
以外の単語を計数させ、前記選択工程において選択され
たすべての被検索対象文書の文書数を計数させる計数工
程（後述する一実施の形態のステップＳＢ４およびステ
ップＳＢ５に相当）と、前記計数工程における計数結果
に基づいて、前記複数の被検索対象文書に含まれる計算
対象単語の重要度を計算する単語重要度計算工程（後述
する一実施の形態のステップＳＢ６に相当）と、検索キ
ーである入力文に含まれる単語を抽出させる第２の単語
抽出工程（後述する一実施の形態のステップＳＣ２に相
当）と、前記第１の単語抽出工程における一つの被検索
対象文書に対応する抽出結果と前記第２の単語抽出工程
の抽出結果とを、被検索対象文書毎に順次比較させる比
較工程（後述する一実施の形態のステップＳＤ１〜ステ
ップＳＤ３に相当）と、前記比較工程における比較結果
より両抽出結果間で共通の単語を認識させ、該共通の単
語に関する単語重要度に基づいて、前記入力文と当該被
検索対象文書との間の類似度を計算させる類似度計算工
程（後述する一実施の形態のステップＳＤ５に相当）
と、前記類似度計算工程の計算結果に基づいて、類似度
が高い被検索対象文書を検索結果として出力させる出力
工程（後述する一実施の形態のステップＳＣ９に相当）
とをコンピュータに実行させるための文書検索プログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
る。

【００２５】この請求項６にかかる発明によれば、第１
の単語抽出工程において複数の被検索対象文書を対象と
して、被検索対象文書毎に単語が抽出されると、選択工
程において第１の単語抽出工程の抽出結果から計算対象
単語が一つづつ選択され、さらに該計算対象単語を含む
被検索対象文書が選択される。つぎに、計数工程では、
被検索対象文書における計算対象単語以外の単語が計数
され、さらに、選択工程において選択されたすべての被
検索対象文書の文書数が計数される。最後に、単語重要
度計算工程では、計数工程における二つの計数結果に基
づいて、計算対象単語の単語重要度が計算される。

【００２６】そして、すべての計算対象単語の単語重要
度が計算された状態において、検索キーである入力文が
入力されると、第２の単語抽出工程において上記入力文
に含まれる単語が抽出される。つぎに、比較工程におい
て、第１の単語抽出工程における抽出結果と第２の単語
抽出工程における抽出結果が比較され、類似度計算工程
において、共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度が計算される。
最後に、出力工程では、類似度が高い被検索対象文書が
検索結果として出力される。

【００２７】このように、請求項６にかかる発明によれ
ば、入力文に含まれる単語を抽出した抽出結果と被検索
対象文書に含まれる単語を抽出した抽出結果とを比較
し、両者に共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度を計算し、この
類似度に基づいて検索結果を求めるようにしたので、単
語重要度が考慮された検索結果が得られることから、検
索結果の信頼性が向上する。

【００２８】また、請求項６にかかる発明によれば、単
語重要度が考慮された検索結果が得られることから、検
索者にとって重要度が低い被検索対象文書が検索結果と
されることがないため検索時間を短縮することができ
る。

【００２９】さらに、請求項６にかかる発明によれば、
入力文から単語を抽出し、この抽出結果と、単語重要度
とに基づく文書検索が行われるため、従来のキーワード
検索に比して、検索者のスキルに左右されることなく、
的確に文書検索を行うことができる。

【００３０】

【発明の実施の形態】以下、図面を参照して本発明にか
かる単語重要度計算装置、文書検索装置、単語重要度計
算プログラムを記録したコンピュータ読み取り可能な記
録媒体および文書検索プログラムを記録したコンピュー
タ読み取り可能な記録媒体の一実施の形態について詳細
に説明する。

【００３１】図１は、本発明にかかる一実施の形態の構
成を示すブロック図である。この図において、記憶部１
０は、たとえば、ハードディスク装置であり、後述する
単語抽出部３０および検索処理部５０にアクセスされ
る。この記憶部１０には、図８（ａ）に示した複数の被
検索対象の文書（以下、被検索対象文書という）のデー
タがそれぞれ記憶されている。これらの被検索対象文書
には、文書番号がそれぞれ付与されている。これらの被
検索対象文書は、後述する単語重要度計算処理および検
索処理の対象とされる文書であり、企業におけるユーザ
サポートデスクの担当者に、ユーザから問い合わせがあ
った質問文である。

【００３２】図８（ａ）において、被検索対象文書「Ｓ
ＱＬ＊Ｌｏａｄｅｒ・・・十分。原因と対処方法を教え
てほしい。」には、文書番号「７Ｅ１−８１２４」が付
与されており、被検索対象文書「毎日・・・終了する。
・・・教えてほしい。」には、文書番号「７Ｅ１−８３
５３」が付与されている。また、被検索対象文書「ＤＡ
Ｔ装置・・・教えてほしい。」には、文書番号「７Ｅ２
−３４３６」が付与されており、被検索対象文書「Ｍｑ
ＸＳ／ＪＭ・・・教えてほしい。」には、文書番号「７
Ｅ１−８５５７」が付与されており、被検索対象文書
「ＳＱＬ＊Ｐｌｕｓ・・・・出来ている。」には、文書
番号「７Ｅ２−２９３２」が付与されている。

【００３３】以下の説明においては、図８（ａ）に示し
た都合五つの被検索対象文書を上述した文書番号により
区別する。また、実際には、膨大な数の被検索対象文書
のデータが記憶部１０に記憶されているが、以下におい
ては、説明を簡略化するために、図８（ａ）に示した五
つの被検索対象文書のデータが記憶部１０に記憶されて
いるものとして説明する。

【００３４】記憶部２０は、記憶部１０と同様にして、
たとえば、ハードディスク装置であり、後述する単語重
要度計算処理部４０および検索処理部５０にアクセスさ
れる。この記憶部２０には、図８（ｂ）に示した文書番
号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」にそれ
ぞれ対応する単語群のデータ、およびこれら単語群にそ
れぞれ対応する被検索対象文書（図８（ａ）参照）が記
憶されている。なお、記憶部２０には、図８（ａ）に示
した文書番号「７Ｅ２−２９３２」の被検索対象文書に
対応する単語群も記憶されているが、図８（ｂ）におい
ては、該単語群の図示が省略されている。これらの単語
群は、後述する単語抽出部３０により、被検索対象文書
（図８（ａ）参照）から抽出された単語の集合である。

【００３５】具体的には、図８（ｂ）に示した文書番号
「７Ｅ１−８１２４」の単語群（「ＳＱＬ」、「Ｌｏａ
ｄｅｒ」、・・・、「対処方法」）は、図８（ａ）に示
した文書番号「７Ｅ１−８１２４」の被検索対象文書か
ら抽出されたものである。同様にして、文書番号「７Ｅ
１−８３５３」〜「７Ｅ１−８５５７」のそれぞれの単
語群（図８（ｂ）参照）は、文書番号「７Ｅ１−８３５
３」〜「７Ｅ１−８５５７」（図８（ａ）参照）のそれ
ぞれの被検索対象文書から抽出されたものである。

【００３６】単語抽出部３０は、記憶部１０に記憶され
ている一つの被検索対象文書（図８（ａ）参照）を読み
出し、この被検索対象文書から、被検索対象文書を構成
する単語を抽出する。ここで単語抽出部３０において
は、さまざまな単語抽出手法が適用可能である。たとえ
ば、第１の単語抽出方法としては、日本語文の場合、被
検索対象文書においてひらがなを除く文字種の文字（た
とえば、英数字、漢字等）が二文字以上連続していると
き、当該文字列を一単語として抽出する手法がある。ま
た、この手法において、欧文の場合には、被検索対象文
書において二つのスペース（空白）に挟まれた文字列が
一単語として抽出される。

【００３７】また、第２の単語抽出手法としては、形態
素解析を用いた手法がある。ここで形態素解析とは、被
検索対象文書を構成する文がどのような形態素（単語）
で構成され、かつその形態素の品詞が何であるのかを、
辞書および言語モデルを参照しつつ解析することをい
う。たとえば、「今日は会社に行かなかった」という日
本語文を形態素解析した場合には、つぎのような解析結
果となる。

【００３８】（形態素）（品詞）「今日」副詞的名詞「は」係助詞「会社」名詞「に」格助詞「行」カ行５段動詞「か」未然形活用語尾「な」助動詞「かっ」形容詞連用形活用語尾「た」助動詞

【００３９】また、単語抽出部３０は、記憶部１０に記
憶されているすべての被検索対象文書について単語抽出
を行い、抽出した単語群（図８（ｂ）参照）のデータを
当該被検索対象文書のデータとともに記憶部２０に記憶
させる。この単語抽出部３０の動作の詳細については後
述する。

【００４０】単語重要度計算処理部４０は、記憶部２０
に記憶されたすべての単語について、後述する計算式に
基づいて、定量的に単語重要度をそれぞれ計算する。こ
こで単語重要度は、後述する文書検索における当該単語
の重要性を表す指標である。つまり、単語重要度計算処
理部４０においては、被検索対象文書の特徴を表す単語
は単語重要度が高い値として計算され、逆に、被検索対
象文書の特徴を表さない一般的な単語は重要度が低い値
として計算される。

【００４１】たとえば、被検索対象文書が通信制御技術
に関するものであり、かつ当該被検索対象文書に「通信
制御」、「以降」、「再度」という単語が含まれている
場合、単語「通信制御」は、当該被検索対象文書の特徴
を表す単語であるため、単語重要度が高い値として計算
され、逆に一般的な単語「以降」および「再度」は、当
該被検索対象文書の特徴を表す単語でないため、単語重
要度が低い値として計算される。

【００４２】また、単語重要度計算処理部４０は、記憶
部２０に記憶されたすべての単語について単語重要度を
計算した後、この単語重要度のデータを記憶部２０に記
憶させる。さらに、単語重要度計算処理部４０は、上記
単語重要度の他に、後述する文書検索に用いられる検索
用パラメータを計算式に基づいて計算し、計算結果を記
憶部２０に記憶させる。なお、単語重要度計算処理部４
０の動作の詳細については後述する。

【００４３】検索処理部５０は、入力部６０より入力さ
れる自然言語の入力文を検索キーとして、記憶部１０に
記憶されている複数の被検索対象文書の中から上記入力
文との類似度に基づいて被検索対象文書を検索し、検索
結果を出力部７０に表示する。ここで、入力部６０は、
キーボード、マウス等であり、出力部７０は、ＣＲＴ
（Cathode-Ray Tube）、ＬＣＤ（Liquid Crystal Displ
ay）である。なお、出力部７０は、プリンタであっても
よい。

【００４４】上記検索処理部５０は、検索部５１および
単語抽出部５２から構成されている。単語抽出部５２
は、入力部６０より入力された入力文から、前述した単
語抽出部３０における単語抽出の手法と同様の手法によ
り、すべての単語を単語群として抽出する。検索部５１
は、単語抽出部５２により抽出された単語群、記憶部２
０に記憶された被検索対象文書に関する単語群および単
語重要度に基づいて、入力文と被検索対象文書との間の
類似度を後述する計算式により計算する。また、検索部
５１は、類似度が高い被検索対象文書を検索結果として
出力部７０に表示させる。これら検索部５１および単語
抽出部５２の動作の詳細については後述する。

【００４５】つぎに、一実施の形態における動作を詳細
に説明する前に、図２および図３を参照して一実施の形
態における動作の概要について簡単に説明する。図２
は、一実施の形態における単語重要度計算処理の概要を
説明する図であり、図３は、一実施の形態における検索
処理の概要を説明する図である。図２および図３におい
ては、図１の各部にそれぞれ対応する部分には同一の符
号を付ける。

【００４６】図２に示した記憶部１０には、被検索対象
の文書例としてつぎの文書１〜３、・・・のそれぞれのデ
ータが記憶されているものとする。文書１：「ＡＡＡにおいてＢＢＢはＣＣＣである」文書２：「ＥＥＥのＤＤＤはＡＡＡに関するＦＦＦであ
る」文書３：「ＢＢＢはＡＡＡのＤＤＤである」・・・

【００４７】この状態において、まず、単語抽出部３０
は、記憶部１０から文書１のデータを読み込んだ後、前
述した単語抽出手法により、文書１に含まれるすべての
単語を抽出する。この場合、文書１からは、単語「ＡＡ
Ａ」、「ＢＢＢ」および「ＣＣＣ」が抽出される。つぎ
に、単語抽出部３０は、抽出結果を単語群として文書１
に関連付けて記憶部２０に記憶させる。

【００４８】以後、単語抽出部３０は、文書１の場合と
同様にして、文書２、文書３、・・・の順で、それぞれの
文書に含まれるすべての単語を抽出した後、抽出結果に
対応する文書２、３、・・・とともに記憶部２０に記憶さ
せる。この場合、文書２からは、単語「ＥＥＥ」、「Ｄ
ＤＤ」、「ＡＡＡ」および「ＦＦＦ」が抽出され、文書
３からは、単語「ＢＢＢ」、「ＡＡＡ」および「ＤＤ
Ｄ」が抽出される。そして、最後の文書（図示略）の単
語抽出が終了した時点において、記憶部２０には、単語
群（「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」）、（「ＥＥ
Ｅ」、「ＤＤＤ」、「ＡＡＡ」、「ＦＦＦ」）、（「Ｂ
ＢＢ」、「ＡＡＡ」、「ＤＤＤ」）、・・・のデータとと
もに、それぞれの単語群に対応する文書１、文書２、文
書３、・・・のデータが記憶されている。

【００４９】つぎに、単語重要度計算処理部４０は、記
憶部２０に記憶されている単語群の中から一つの単語
（以下、単語ｗという）として、たとえば、単語「ＡＡ
Ａ」のデータを読み込んだ後、文書１〜３、・・・の中か
ら、上記単語「ＡＡＡ」を含むすべての文書のデータを
読み込む。この場合、単語重要度計算処理部４０は、単
語「ＡＡＡ」を含む文書１〜３（以下、文書群Ａとい
う）を記憶部２０から読み込む。

【００５０】つぎに、単語重要度計算処理部４０は、上
記文書群Ａ（文書１〜３）に含まれるすべての単語（以
下、単語群Ｃという）のデータを記憶部２０から読み込
む。この場合、単語群Ｃは、つぎの複数の単語の集合で
ある。文書１：「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」文書２：「ＥＥＥ」、「ＤＤＤ」、「ＡＡＡ」、「ＦＦ
Ｆ」文書３：「ＢＢＢ」、「ＡＡＡ」、「ＤＤＤ」

【００５１】つぎに、単語重要度計算処理部４０は、上
記単語群Ｃに含まれる単語ｗ（この場合、「ＡＡＡ」）
以外の単語を計数し、計数結果を共出語種数Ｃ_wとす
る。ただし、単語群Ｃにおける同一の単語は、一つの単
語として計数される。上記共出語種数Ｃ_wは、単語ｗを
含む被検索対象文書に含まれる共出語の種類であり、共
出語とは、被検索対象文書において単語ｗと共に出現す
る単語をいう。この場合、共出語種数Ｃ_wは、「５」
（「ＢＢＢ」、「ＣＣＣ」、「ＤＤＤ」、「ＥＥＥ」お
よび「ＦＦＦ」の総数）である。

【００５２】つぎに、単語重要度計算処理部４０は、文
書群Ａに含まれる被検索対象文書を計数し、この計数結
果を出現文書数Ｎ_wとする。この場合、出現文書数Ｎ_w
は、「３」（文書１、文書２および文書３の総数）であ
る。つぎに、単語重要度計算処理部４０は、上述した共
出語種数Ｃ_wおよび出現文書数Ｎ_wおよびつぎの（式
１）に基づいて、単語ｗの単語重要度Ｉ_wを求める。な
お、（式１）の詳細な説明については後述する。

【００５３】Ｉ_w＝ａ₁−（Ｇ_w／ａ₂）Ｇ_w＝（Ｃ_w／Ｎ_w）＊Ａ_1w＊Ａ_2w Ａ_1w＝１／（１＋ｂ₁＊ｅｘｐ（−Ｎ_w／ｂ₂））Ａ_2w＝１／（ｃ₁＋ｃ₂／Ｎ_w）・・・（式１）

【００５４】この場合には、上記（式１）より、単語ｗ
（＝単語「ＡＡＡ」）の単語重要度Ｉ_wが「０．４」と
して算出されたものとする。つぎに、単語重要度計算処
理部４０は、単語ｗ（＝「ＡＡＡ」）の単語重要度Ｉ_w
（＝０．４）とともに出現文書に関するデータを記憶部
２０に記憶させる。ここで、出現文書とは、単語ｗが出
現している被検索対象文書をいい、この場合、上記出現
文書は、文書１〜３である。

【００５５】以後、単語重要度計算処理部４０は、単語
ｗ（＝「ＡＡＡ」）の場合と同様にして、記憶部２０に
記憶されている他の単語ｗ（「ＢＢＢ」、「ＣＣＣ」、
・・・）のすべてについて単語重要度Ｉ_wを計算した後、
単語重要度Ｉ_wとともに出現文書のデータを記憶部２０
に記憶させる（図２参照）。

【００５６】そして、単語重要度計算処理部４０による
単語重要度計算処理が終了すると、図３に示した検索処
理部５０による検索処理が実行可能となる。すなわち、
検索処理において、入力部６０より自然言語の入力文例
「ＣＣＣまたはＥＥＥにおいてＡＡＡに関するものは
？」のデータが入力されると、検索処理部５０の単語抽
出部５２は、単語抽出部３０と同様の単語抽出手法によ
り、上記入力文（以下、入力文Ｑという）に含まれるす
べての単語を抽出する。この場合、単語抽出部５２は、
入力文Ｑから単語「ＣＣＣ」、「ＥＥＥ」および「ＡＡ
Ａ」を抽出し、これらを単語群Ｗ_qとする。

【００５７】つぎに、検索処理部５０の検索部５１は、
記憶部１０に記憶されている文書１〜３、・・・の中か
ら、一つの文書（以下、文書Ａ_qという）のデータを読
み込む。この場合、検索部５１は、文書Ａ_qとして文書
１を読み込んだものとする。つぎに、検索部５１は、文
書Ａ_q（＝文書１）に含まれるすべての単語のデータを
記憶部２０から読み込み、これらを単語群Ｗ_aとする。
この場合、単語群Ｗ_aは、文書１に含まれる単語「ＡＡ
Ａ」、「ＢＢＢ」および「ＣＣＣ」からなる。

【００５８】つぎに、検索部５１は、以下に示した入力
文Ｑに対応する単語群Ｗ_qと文書Ａ _qに対応する単語群
Ｗ_aとに共通に含まれる単語を抽出し、抽出結果を単語
群Ｗ _aqとする。この場合の単語群Ｗ_aqは、単語「ＡＡ
Ａ」および「ＣＣＣ」からなる。単語群Ｗ_q：「ＡＡＡ」「ＣＣＣ」「ＥＥＥ」単語群Ｗ_a：「ＡＡＡ」「ＢＢＢ」「ＣＣＣ」

【００５９】つぎに、検索部５１は、上記単語群Ｗ_aqを
構成する単語「ＡＡＡ」および「ＣＣＣ」のそれぞれの
単語重要度Ｉ_wのデータを記憶部２０から読み出した
後、単語「ＡＡＡ」の単語重要度Ｉ_wを二乗した値と単
語「ＣＣＣ」の単語重要度Ｉ_wを二乗した値との和を、
文書Ａ_q（＝文書１）と入力文Ｑとの間の類似度Ｐ_aと
する。

【００６０】以後、検索部５１は、文書Ａ_q（＝文書
１）の場合と同様にして、記憶部１０に記憶されている
他の文書２、３、・・・のすべてについて類似度Ｐ_aを計
算する。そして、すべての類似度Ｐ_aに関する計算が終
了すると、検索部５１は、図３に示したように、類似度
Ｐ_aが高い文書から順次出力部７０に表示させる。同図
に示した出力例では、出力部７０には、類似度Ｐ_aが最
も高い類似度順位１の文書１（「ＡＡＡにおいてＢＢＢ
・・・」）、この文書１のつぎに類似度Ｐ_aが高い文書２
（「ＥＥＥのＤＤＤは・・・」）が検索結果として表示さ
れる。

【００６１】つぎに、図４〜図７にそれぞれ示したフロ
ーチャートを参照しつつ一実施の形態の動作について詳
細に説明する。図４は、一実施の形態における単語情報
設定処理を説明するフローチャートである。この単語情
報設定処理は、被検索対象文書から単語を抽出し、抽出
された単語を単語群として記憶部２０に記憶させる処理
である。

【００６２】また、図５は、一実施の形態における単語
重要度計算処理を説明するフローチャートである。この
単語重要度計算処理は、記憶部２０に記憶された上記単
語群におけるそれぞれの単語の単語重要度を計算する処
理である。図６は、一実施の形態における検索処理を説
明するフローチャートである。この検索処理は、記憶部
１０に記憶された複数の被検索対象文書の中から、検索
キーとしての入力文に類似している被検索対象文書を検
索する処理である。

【００６３】（単語情報設定処理）はじめに、図４を参
照して単語情報設定処理について説明する。この単語情
報設定処理において、図１に示した記憶部１０には、あ
らかじめ図８（ａ）に示した文書番号「７Ｅ１−８１２
４」〜「７Ｅ２−２９３２」の都合五つの被検索対象文
書のデータが記憶されているものとする。この状態にお
いて、図４に示したステップＳＡ１では、単語抽出部３
０（図１参照）は、上記五つの被検索対象文書のデータ
うち、たとえば、文書番号「７Ｅ１−８１２４」の被検
索対象文書のデータを文書ｄのデータとして記憶部１０
から読み込んだ後、ステップＳＡ２へ進む。

【００６４】ステップＳＡ２では、単語抽出部３０は、
前述した単語抽出手法により、上記文書ｄに含まれる単
語をすべて抽出し、抽出結果を単語群Ｗとした後、ステ
ップＳＡ３へ進む。この場合、単語群Ｗは、図８（ｂ）
に示した文書番号「７Ｅ１−８１２４」の単語群（「Ｓ
ＱＬ」、・・・、「対処方法」）である。ステップＳＡ３
では、単語抽出部３０は、上記単語群Ｗから単語を一つ
取り出し、これを単語ｗとした後、ステップＳＡ４へ進
む。この場合、上記単語ｗは、図８（ｂ）に示した文書
番号「７Ｅ１−８１２４」に対応する単語「ＳＱＬ」で
ある。

【００６５】ステップＳＡ４では、単語抽出部３０は、
上記単語ｗ（＝単語「ＳＱＬ」）が文書ｄ（＝文書番号
「７Ｅ１−８１２４」の被検索対象文書）に含まれてい
るという情報を記憶部２０に書き込んだ後、ステップＳ
Ａ５へ進む。この場合、単語抽出部３０は、上記情報と
して単語ｗに対応付けて文書番号「７Ｅ１−８１２４」
の被検索対象文書を記憶部２０に書き込む。ステップＳ
Ａ５では、単語抽出部３０は、ステップＳＡ２で抽出し
た単語群Ｗにおけるすべての単語に関する処理が終了し
たか否かを判断する。ここでいう処理とは、ステップＳ
Ａ３およびステップＳＡ４の処理をいう。この場合、単
語抽出部３０は、ステップＳＡ５の判断結果を「Ｎｏ」
として、ステップＳＡ３に戻る。

【００６６】以後、ステップＳＡ３では、上述した動作
と同様にして、単語群Ｗからつぎの単語ｗが取り出され
た後、ステップＳＡ４では、上記単語ｗが文書ｄに含ま
れているという情報が記憶部２０に書き込まれる。そし
て、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」
に対応する単語群における最後の単語ｗ（＝単語「対処
方法」）に関する処理が終了すると、単語抽出部３０
は、ステップＳＡ５の判断結果を「Ｙｅｓ」として、ス
テップＳＡ６へ進む。

【００６７】ステップＳＡ６では、単語抽出部３０は、
記憶部１０に記憶されているすべての被検索対象文書に
関する一連の処理（ステップＳＡ２〜ステップＳＡ４）
が終了したか否かを判断する。つまり、ステップＳＡ６
では、単語抽出部３０は、図８（ａ）に示した五つの被
検索対象文書における単語抽出が終了したか否かを判断
する。この場合、単語抽出部３０は、ステップＳＡ６の
判断結果を「Ｎｏ」として、ステップＳＡ１に戻る。

【００６８】以後、単語抽出部３０は、上述した文書ｄ
（＝文書番号「７Ｅ１−８１２４」の被検索対象文書）
の場合と同様にして、文書番号「７Ｅ１−８３５３」以
降の被検索対象文書に関する単語を抽出する処理を行
う。そして、最後の文書番号「７Ｅ２−２９３２」の被
検索対象文書に関する単語の抽出処理が終了すると、単
語抽出部３０は、ステップＳＡ６の判断結果を「Ｙｅ
ｓ」として、単語情報設定処理を終了する。この時点で
は、記憶部２０には、図８（ｂ）に示した文書番号「７
Ｅ１−８１２４」〜「７Ｅ１−８５５７」および図示し
ない文書番号「７Ｅ２−２９３２」にそれぞれ関する単
語群Ｗが記憶部２０に記憶されている。加えて、記憶部
２０には、単語ｗが文書ｄに含まれているという情報が
単語毎にそれぞれ記憶されている。

【００６９】（単語重要度計算処理）つぎに、図５を参
照して単語重要度計算処理について説明する。この単語
重要度計算処理において、記憶部２０には、図８（ａ）
に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ２−２
９３２」にそれぞれ対応する単語群のデータが記憶され
ているものとする。この状態において、図５に示したス
テップＳＢ１では、単語重要度計算処理部４０（図１参
照）は、記憶部２０から一つの単語ｗのデータを読み込
んだ後、ステップＳＢ２へ進む。この場合、単語重要度
計算処理部４０は、単語ｗとして図８（ｂ）に示した単
語「原因」を記憶部２０から読み込んだものとする。

【００７０】ステップＳＢ２では、単語重要度計算処理
部４０は、単語ｗ（＝単語「原因」）を含む被検索対象
文書のデータを記憶部２０から読み込んだ後、ステップ
ＳＢ３へ進む。この場合、単語重要度計算処理部４０
は、単語ｗ（＝単語「原因」）を含む被検索対象文書と
して、図８（ａ）に示した文書番号「７Ｅ１−８１２
４」〜「７Ｅ１−８５５７」の被検索対象文書のデータ
を記憶部２０から読み込み、これらの被検索対象文書を
文書群Ａとする。

【００７１】ステップＳＢ３では、単語重要度計算処理
部４０は、上記文書群Ａに含まれるすべての単語のデー
タを単語群Ｃとして記憶部２０から読み込んだ後、ステ
ップＳＢ４へ進む。この場合、単語重要度計算処理部４
０は、単語群Ｃのデータとして、図８（ｂ）に示した文
書番号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」に
対応する単語群のデータを記憶部２０から読み込む。

【００７２】ステップＳＢ４では、単語重要度計算処理
部４０は、読み込んだ単語群Ｃに含まれる単語ｗ（＝単
語「原因」）以外の単語を計数した後、ステップＳＢ５
へ進む。ただし、この計数において、同一の単語（重複
単語）は、一つの単語として計数される。ここで、図８
（ｂ）に示した単語群Ｃから重複単語を一つの単語と
し、かつ単語ｗ（＝単語「原因」）を排除すると、上記
単語群Ｃは、図８（ｃ）に示した単語群となる。したが
って、この場合、単語重要度計算処理部４０は、図８
（ｃ）に示した単語群における単語の計数結果（＝「３
６」）を前述した共出語種数Ｃ_wとする。

【００７３】ステップＳＢ５では、単語重要度計算処理
部４０は、単語ｗ（＝単語「原因」）を含む文書群Ａに
含まれる被検索対象文書を計数した後、ステップＳＢ６
へ進む。この場合、単語重要度計算処理部４０は、上記
文書群Ａが、図８（ａ）に示した文書番号「７Ｅ１−８
１２４」〜「７Ｅ１−８５５７」にそれぞれ対応する都
合四つの被検索対象文書から構成されているため、計数
結果（＝「４」）を前述した出現文書数Ｎ_wとする。

【００７４】ステップＳＢ６では、単語重要度計算処理
部４０は、前述した（式１）に基づいて、単語ｗ（＝単
語「原因」）の単語重要度Ｉ_w等を求める。

【００７５】ここで、上記（式１）は、単語に関するつ
ぎの（１）項および（２）項の特性に基づいて導出され
た式である。（１）文書の特徴を表さない一般的な単語は、様々なト
ピックの文書において出現する。したがって、文書デー
タ全体においては、一般的な単語と同一の文書に出現す
る前述した共出語の種類が多岐にわたる。（２）文書の特徴を表す特徴的な単語は、限定されたト
ピックの文書において出現する傾向がある。したがっ
て、特徴的な単語と同一の文書に出現する共出語の種類
は限定される傾向がある。

【００７６】上記（１）項および（２）項より、（式
１）においては、共出語の種類（前述した共出語種数Ｃ
_w）が限定される度合いを単語重要度Ｉ_wとしている。
具体的には、（式１）において、Ｉ_wは単語ｗの単語重
要度である。ａ₁およびａ₂は、単語重要度Ｉ_wのダイ
ナミックレンジをそれぞれ決定するパラメータであり、
いずれも正の値をとる。たとえば、パラメータａ₁およ
びａ₂は、「１．０」および「２．４」である。

【００７７】また、Ｃ_w、Ｎ_wは、ステップＳＢ４およ
びステップＳＢ５（図５参照）において求められた単語
の共出語種数および出現文書数である。Ｇ_wは、共出語
種数Ｃ_wと出現文書数Ｎ_wとの比率（Ｃ_w／Ｎ_w：以
下、共出語種比率という）に補正項Ａ_1wおよびＡ_2wを付
加したものであり、単語ｗの一般性を表す指標（以下、
一般性指標Ｇ_wという）である。したがって、一般性が
高い単語ｗほど、その一般性指標Ｇ_wが大きくなる。

【００７８】補正項Ａ_1wは、ある単語ｗに着目した場合
に、当該単語ｗに関する出現文書数Ｎ_wが増加するのに
伴って共出語種比率（Ｃ_w／Ｎ_w）が減少することによ
る単語重要度計算に対する影響を減少させるためのもの
である。また、ｂ₁およびｂ ₂は、補正項Ａ_1wによる補
正の強さをそれぞれ決定するパラメータであり、たとえ
ば、「５．０」および「５７２．２７」である。

【００７９】補正項Ａ_2wは、出現回数が少ない単語ｗ
（稀出単語）の単語重要度を高く見積もるためのもので
ある。ｃ₁およびｃ₂は、補正項Ａ_2wによる見積もりの
高さをそれぞれ決定するパラメータであり、たとえば、
「０．６」および「１６．０」である。

【００８０】図５に戻り、ステップＳＢ６では、単語重
要度計算処理部４０は、ステップＳＢ４で求められた単
語ｗ（＝単語「原因」）に関する共出語種数Ｃ_w（＝３
６）およびステップＳＢ５で求められた単語ｗ（＝単語
「原因」）に関する出現文書数Ｎ_w（＝４）を、上述し
た（式１）に代入することにより、単語ｗ（＝単語「原
因」）の単語重要度Ｉ_w（＝０．８６５）を求めた後、
ステップＳＢ７へ進む。

【００８１】以下に、（式１）における単語重要度Ｉ_w
の計算過程を示す。Ａ_1w＝１／（１＋ｂ₁＊ｅｘｐ（−Ｎ_w／ｂ₂））＝１／（１＋５．０＊ｅｘｐ（−４／５７２．２７））＝０．１６６Ａ_2w＝１／（ｃ₁＋ｃ₂／Ｎ_w）＝１／（０．６＋１６．０／４）＝０．２１７Ｇ_w＝（Ｃ_w／Ｎ_w）＊Ａ_1w＊Ａ_2w ＝（３６／４）＊０．１６６＊０．２１７＝０．３２４Ｉ_w＝ａ₁−（Ｇ_w／ａ₂）＝１．０−（０．３２４／２．４）＝０．８６５

【００８２】ステップＳＢ７では、単語重要度計算処理
部４０は、単語ｗ（＝単語「原因」）に関する単語重要
度Ｉ_w（＝０．８６５）、共出語種数Ｃ_w（＝３６）およ
び出現文書数Ｎ_w（＝４）のそれぞれのデータを記憶部
２０に書き込んだ後、ステップＳＢ８へ進む。ステップ
ＳＢ８では、単語重要度計算処理部４０は、記憶部２０
に記憶されている単語群（図８（ｂ）参照）におけるす
べての単語に関する処理（単語重要度計算）が終了した
か否かを判断する。この場合、単語重要度計算処理部４
０は、ステップＳＢ８の判断結果を「Ｎｏ」として、ス
テップＳＢ１へ戻り、上述した工程を繰り返す。

【００８３】以後、単語重要度計算処理部４０は、上述
した単語ｗ（＝単語「原因」）場合と同様にして、他の
単語について共出語種数Ｃ_w、出現文書数Ｎ_w、単語重
要度Ｉ_wを求め、これらを記憶部２０に書き込む。そし
て、最後の単語ｗに関する計算が終了すると、単語重要
度計算処理部４０は、ステップＳＢ８の判断結果を「Ｙ
ｅｓ」として、単語重要度計算処理を終了する。この時
点では、記憶部２０には、図８（ａ）に示した文書番号
「７Ｅ１−８１２４」〜「７Ｅ２−２９３２」に対応す
る五つの被検索対象文書に含まれるすべての単語に関す
る単語重要度Ｉ _w、共出語種数Ｃ_wおよび出現文書数Ｎ
_wに関するデータが記憶されている。

【００８４】（検索処理）つぎに、図６および図７を参
照して検索処理について説明する。この検索処理におい
て、記憶部２０には、図８（ａ）に示した文書番号「７
Ｅ１−８１２４」〜「７Ｅ２−２９３２」に対応する五
つの被検索対象文書に含まれるすべての単語に関する単
語重要度Ｉ_w、共出語種数Ｃ_wおよび出現文書数Ｎ_wに
関するデータが記憶されているものとする。

【００８５】このような状態において、図６に示したス
テップＳＣ１では、検索者は、図１に示した入力部６０
を用いて、検索キーとなる文書のデータを入力した後、
検索開始を指示する。これにより、検索処理部５０の単
語抽出部５２は、入力された文書のデータを入力文Ｑの
データとした後、ステップＳＣ２へ進む。ステップＳＣ
２では、単語抽出部５２は、前述した単語抽出手法によ
り、上記入力文Ｑに含まれる単語をすべて抽出し、抽出
結果を単語群Ｗ_qとする。

【００８６】つぎに、ステップＳＣ３では、検索部５１
は、周知のベクトル空間法により単語群Ｗ_qから入力文
Ｑに関する文書ベクトルＶ_qを求めた後、ステップＳＣ
４へ進む。ステップＳＣ４では、検索部５１は、図８
（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ
２−２９３２」がそれぞれ付与された五つの被検索対象
文書のうち、一つの被検索対象文書のデータを記憶部１
０から読み込み、これを文書Ａ_qとした後、ステップＳ
Ｃ５へ進む。この場合、文書Ａ_qは、文書番号「７Ｅ１
−８１２４」の被検索対象文書であるものとする。

【００８７】ステップＳＣ５では、検索部５１は、文書
Ａ_qに含まれるすべての単語のデータを記憶部２０から
読み出した後、これを単語群Ｗ_aとした後、ステップＳ
Ｃ６へ進む。この場合、上記単語群Ｗ_aは、図８（ｂ）
に示した文書番号「７Ｅ１−８１２４」に関する単語群
である。ステップＳＣ６では、検索部５１は、入力文Ｑ
と文書Ａ_qとの間の類似度を計算する類似度計算処理
（図７参照）を実行する。

【００８８】すなわち、図７に示したステップＳＤ１で
は、検索部５１は、ステップＳＣ２（図６参照）で抽出
された単語群Ｗ_qおよびステップＳＣ５で読み込まれた
単語群Ｗ_aから、入力文Ｑと文書Ａ_qとに共通に含まれ
る単語を抽出し、抽出結果を単語群Ｗ_aqとした後、ステ
ップＳＤ２へ進む。ステップＳＤ２では、検索入力部５
１は、入力文Ｑと文書Ａ_qとの間、すなわち二つの文書
間の類似度Ｐ_aに初期値「０」を代入した後、ステップ
ＳＤ３へ進む。

【００８９】ステップＳＤ３では、検索部５１は、ステ
ップＳＤ１で抽出された単語群Ｗ_aqから一つの単語を抽
出し、これを単語Ｗ_tとした後、ステップＳＤ４へ進
む。ステップＳＤ４では、検索部５１は、上記単語Ｗ_t
の単語重要度のデータを記憶部２０から読み込み、これ
を単語重要度Ｉ_tとした後、ステップＳＤ５へ進む。ス
テップＳＤ５では、検索部５１は、上記単語重要度Ｉ_t
を二乗した値を類似度Ｐ _aに加算した後、ステップＳＤ
６へ進む。ステップＳＤ６では、検索部５１は、ステッ
プＳＤ１で抽出された単語群Ｗ_aqのすべての単語に関す
る処理が終了したか否かを判断する。ここでいう処理と
は、ステップＳＤ３〜ステップＳＤ５までの一連の処理
をいう。この場合、検索部５１は、ステップＳＤ６の判
断結果を「Ｎｏ」として、ステップＳＤ３に戻る。

【００９０】以後、検索部５１は、上述した動作と同様
にして、単語群Ｗ_aqにおける他の単語Ｗ_tにおける単
語重要度Ｉ_tを二乗した値を類似度Ｐ_aに加算する。そ
して、単語群Ｗ_aqにおける最後の単語Ｗ_tに関する処理
が終了すると、検索部５１は、ステップＳＤ６の判断結
果を「Ｙｅｓ」として、ステップＳＤ７へ進む。ステッ
プＳＤ７では、検索部５１は、複数の単語Ｗ_tに関する
それぞれの単語重要度Ｉ_tの二乗和として計算された類
似度Ｐ_aを文書Ａ_q（ステップＳＣ４：図６参照）と入
力文Ｑ（ステップＳＣ１：図６参照）との文書間類似度
とした後、図６に示したメインルーチンに戻る。

【００９１】つぎに、図６に示したステップＳＣ７で
は、検索部５１は、上述した文書Ａ_qおよびこれに対応
する類似度Ｐ_aを検索結果として出力部７０へ出力した
後、ステップＳＣ８へ進む。ステップＳＣ８では、検索
部５１は、記憶部１０に記憶されているすべての被検索
対象文書に関する処理が終了したか否かを判断する。こ
こでいう処理とは、ステップＳＣ４〜ステップＳＣ７ま
での一連の処理をいう。この場合、検索部５１は、ステ
ップＳＣ８の判断結果を「Ｎｏ」として、ステップＳＣ
４に戻る。

【００９２】以後、検索部５１は、上述した動作と同様
にして、図８（ａ）に示した文書番号「７Ｅ１−８１２
４」以外の文書番号に対応する他の被検索対象文書につ
いての処理を行う。そして、図８（ａ）に示した最後の
被検索対象文書（たとえば、文書番号「７Ｅ２−２９３
２」の被検索対象文書）に関する処理が終了すると、検
索部５１は、ステップＳＣ８の判断結果を「Ｙｅｓ」と
して、ステップＳＣ９へ進む。ステップＳＣ９では、検
索部５１は、出力部７０に対してすべての検索結果（文
書Ａ_qおよび類似度Ｐ_a）を類似度が高いものから順に
出力するように指示を出した後、検索処理を終了する。
これにより、出力部７０には、検索結果として、入力文
Ｑに類似する文書Ａ_qおよび類似度Ｐ_aが、類似度が高
い順に表示される。したがって、検索者は、たとえば、
最も類似度が高い文書Ａ_qを検索結果として利用する。

【００９３】以上説明したように、一実施の形態によれ
ば、前述した（１式）に示した共出語種数Ｃ_wと出現文
書数Ｎ_wという考え方を導入し、両者の共出語種比率
（Ｃ_w／Ｎ_w）に基づいて、単語重要度Ｉ_wを求めるよ
うにしたので、被検索対象文書に含まれる重要度が高い
単語を的確に判断することが可能となる。

【００９４】また、一実施の形態によれば、入力文Ｑに
含まれる単語を抽出した抽出結果と被検索対象文書に含
まれる単語を抽出した抽出結果とを比較し、両者に共通
の単語に関する単語重要度に基づいて、入力文Ｑと被検
索対象文書との間の類似度Ｐ _aを計算し、この類似度Ｐ
_aに基づいて検索結果を求めるようにしたので、単語重
要度が考慮された検索結果が得られることから、検索結
果の信頼性が向上する。

【００９５】また、一実施の形態によれば、単語重要度
が考慮された検索結果が得られることから、検索者にと
って重要度が低い被検索対象文書が検索結果とされるこ
とがないため検索時間を短縮することができる。

【００９６】さらに、一実施の形態によれば、自然言語
の入力文Ｑから単語を抽出し、この抽出結果と、単語重
要度とに基づく文書検索が行われるため、従来のキーワ
ード検索に比して、検索者のスキルに左右されることな
く、的確に文書検索を行うことができる。

【００９７】ここで、発明者は、一実施の形態の効果を
定量的に知るために、１２０００件の被検索対象文書に
含まれる１６６６個の単語の単語重要度を上述した装置
によりそれぞれ計算する評価試験を行った。図９（ａ）
は、評価試験において重要度が高い単語の例であり、図
９（ｂ）は、上記評価試験において重要度が低い単語の
例である。また、図９（ａ）および（ｂ）において、
「単語」は、単語重要度の計算対象であり、「出現事例
数」は、前述した出現文書数Ｎ_w（ステップＳＢ５参
照）に対応しており、「重要度」は、前述した単語重要
度Ｉ_w（ステップＳＢ６参照）に対応している。また、
図９（ａ）および（ｂ）においては、被検索対象文書に
おける出現頻度がほぼ同じ単語群についての評価試験の
結果が図示されている。

【００９８】図９（ａ）および（ｂ）からわかるよう
に、「再度」、「確認」、「状態」等のように一般的な
単語は、単語重要度が低く評価されているのに対して、
「２０５１」、「製品名」、「ＳＱＬ」等のように被検
索対象文書の特徴を表す特徴的な単語は、単語重要度が
高く評価されている。また、発明者は、上記評価試験の
妥当性を確認するために、一般的な単語と特徴的な単語
が正しく識別されているか否かを英和・和英辞典を用い
て検証した。ここで、発明者は、英和・和英辞典とし
て、研究社刊の新英和・和英中辞典（竹林・吉川・小川
・コリック・日南田、田辺編）を使用した。

【００９９】この検証の手法としては、上記英和・和英
辞典の見出し語を一般的な単語と見なし、出現事例数が
「５０」以上の単語（３５２語）および出現事例数が
「５０」未満の単語（１３１４語）に関して、それぞれ
単語重要度が上位５０語の単語および下位５０語の単語
が上記見出し語になっているか否かを調査する手法をと
った。この検証結果を図９（ｃ）に示す。この図９
（ｃ）からわかるように、発明者が行った評価試験にお
いては、一般的な単語と特徴的な単語とが識別されてい
る。

【０１００】以上本発明にかかる一実施の形態について
図面を参照して詳述してきたが、具体的な構成例はこの
一実施の形態に限られるものではなく、本発明の要旨を
逸脱しない範囲の設計変更等があっても本発明に含まれ
る。たとえば、前述した一実施の形態においては、単語
重要度計算装置の機能または文書検索装置の機能を実現
するための単語重要度計算プログラムまたは文書検索プ
ログラムを図１０に示したコンピュータ読み取り可能な
記録媒体２００に記録して、この記録媒体２００に記録
された単語重要度計算プログラムまたは文書検索プログ
ラムを同図に示したコンピュータ１００に読み込ませ、
実行することにより単語重要度計算または文書検索を行
うようにしてもよい。

【０１０１】図１０に示したコンピュータ１００は、上
記単語重要度計算プログラム、文書検索プログラムを実
行するＣＰＵ１０１と、キーボード、マウス等の入力装
置１０２と、各種データを記憶するＲＯＭ（Read Only
Memory）１０３と、演算パラメータ等を記憶するＲＡＭ
（Random Access Memory）１０４と、記録媒体２００か
ら単語重要度計算プログラム、文書検索プログラムを読
み取る読取装置１０５と、ディスプレイ、プリンタ等の
出力装置１０６と、装置各部を接続するバスＢＵとから
構成されている。

【０１０２】ＣＰＵ１０１は、読取装置１０５を経由し
て記録媒体２００に記録されている単語重要度計算プロ
グラムまたは文書検索プログラムを読み込んだ後、単語
重要度計算プログラムまたは文書検索プログラムを実行
することにより、前述した単語重要度計算または文書検
索を行う。なお、記録媒体２００には、光ディスク、フ
ロッピーディスク、ハードディスク等の可搬型の記録媒
体が含まれることはもとより、ネットワークのようにデ
ータを一時的に記録保持するような伝送媒体も含まれ
る。

【０１０３】また、一実施の形態においては、図１に示
したように、単語情報設定処理、単語重要度計算処理お
よび検索処理という三つの処理を一つの装置で実行する
例について説明したが、これに限られることなく、図１
１〜図１３にそれぞれ示した変形例２のように、上記三
つの処理をそれぞれ独立した装置で実行するようにして
もよい。

【０１０４】つまり、図１１に示した例では、記憶部１
０、記憶部２０および単語抽出部３０から単語情報設定
処理を実行する単語情報設定装置が構成されおり、図１
２に示した例では、記憶部２０および単語重要度計算処
理部４０から単語重要度計算装置が構成されている。ま
た、図１３に示した例では、記憶部１０、記憶部２０、
検索処理部５０、検索部５１、単語抽出部５２、入力部
６０および出力部７０から文書検索装置が構成されてい
る。なお、図１１〜図１３においては、図１に対応する
部分には同一の符号を付けその説明を省略する。

【０１０５】また、一実施の形態においては、図１に示
した記憶部１０および記憶部２０としてハードディスク
装置を用いた例について説明したが、これに代えて、可
搬型の記録媒体に対する書き込み、読み出しを行う記憶
装置を用いてもよい。この場合、可搬型の記録媒体とし
ては、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memor
y）、光磁気ディスク、フロッピーディスク等が挙げら
れる。

【０１０６】さらに、一実施の形態においては、一つの
被検索対象文書のすべての範囲（単語）を対象として共
出語を計数しこの計数結果を共出語種数Ｃ_w (ステップ
ＳＢ４：図５参照)とする例について説明したが、一つ
の被検索対象文書において共出語を計数する範囲は、適
宜変更される。たとえば、一つの被検索対象文書におい
て共出語を計数する範囲は、つぎの（Ａ）項〜（Ｃ）項
の範囲としてもよい。なお、（Ａ）項〜（Ｃ）項以外の
範囲であっても本発明に含まれる。（Ａ）被検索対象文書において単語ｗ（ステップＳＢ
４：図５参照）を含む一つの段落を共出語の計数範囲と
する。（Ｂ）被検索対象文書において単語ｗを含む一つの文を
共出語の計数範囲とする。（Ｃ）被検索対象文書において単語ｗよりｎ単語前に存
在する単語から、単語ｗよりｎ単語後に存在する単語ま
での範囲。ただしｎは自然数である。

【０１０７】ここで、被検索対象文書としてつぎの二つ
の文からなるものを例示する。「ＭｑＸＳ／ＪＭを経由
し、バッチプログラムにてＯＲＡＣＬＥの更新を実行
後、１０分ぐらいで、異常終了した。原因と対処方法を
教えてほしい。」

【０１０８】上記被検索対象文書に対して（Ａ）項の範
囲を適用した場合には、単語ｗを「ＯＲＡＣＬＥ」とす
ると、一つの段落（ＭｑＸＳ／ＪＭ・・・教えてほし
い。）が共出語の計数範囲となる。したがって、この場
合、「ＯＲＡＣＬＥ」に関する共出語は、「ＭｑＸＳ／
ＪＭ」、「経由」、「バッチプログラム」、「更新」、
「実行後」、「１０」、「異常終了」、「原因」および
「対処方法」である。

【０１０９】同様にして、被検索対象文書に対して
（Ｂ）項の範囲を適用した場合には、単語ｗを「ＯＲＡ
ＣＬＥ」とすると、一つの文（ＭｑＸＳ／ＪＭ・・・異
常終了した。）が共出語の計数範囲となる。したがっ
て、この場合、「ＯＲＡＣＬＥ」に関する共出語は、
「ＭｑＸＳ／ＪＭ」、「経由」、「バッチプログラ
ム」、「更新」、「実行後」、「１０」および「異常終
了」である。

【０１１０】さらに、被検索対象文書に対して（Ｃ）項
の範囲を適用した場合には、単語ｗを「ＯＲＡＣＬＥ」
とし、かつｎ＝２とすると、「ＯＲＡＣＬＥ」より２単
語前に存在する「経由」から、２単語後に存在する「実
行後」までが共出語の計数範囲となる。したがって、こ
の場合、「ＯＲＡＣＬＥ」に関する共出語は、「経
由」、「バッチプログラム」、「更新」および「実行
後」である。このように、一つの被検索対象文書におい
て共出語を計数する範囲を適宜変更できるようにした場
合には、文書の検索条件（単語重要度の計算条件）を変
えて文書検索（単語重要度の計算）が可能となることか
ら、汎用性が向上する。

【０１１１】

【発明の効果】以上説明したように、請求項１にかかる
発明によれば、被検索対象文書における計算対象単語以
外の単語の計数結果、および選択手段により選択された
すべての被検索対象文書の文書数の計数結果に基づい
て、単語重要度を求めるようにしたので、被検索対象文
書に含まれる重要度が高い単語を的確に判断することが
可能となるという効果を奏する。

【０１１２】また、請求項２にかかる発明によれば、計
算対象単語以外の単語を計数すべき被検索対象文書にお
ける範囲を任意の範囲として変更できるため、単語重要
度の計算条件を変えることが可能となり、汎用性が向上
するという効果を奏する。

【０１１３】また、請求項３、６にかかる発明によれ
ば、入力文に含まれる単語を抽出した抽出結果と被検索
対象文書に含まれる単語を抽出した抽出結果とを比較
し、両者に共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度を計算し、この
類似度に基づいて検索結果を求めるようにしたので、単
語重要度が考慮された検索結果が得られることから、検
索結果の信頼性が向上するという効果を奏する。

【０１１４】さらに、請求項３、６にかかる発明によれ
ば、単語重要度が考慮された検索結果が得られることか
ら、検索者にとって重要度が低い被検索対象文書が検索
結果とされることがないため検索時間を短縮することが
できるという効果を奏する。

【０１１５】加えて、請求項３、６にかかる発明によれ
ば、入力文から単語を抽出し、この抽出結果と、単語重
要度とに基づく文書検索が行われるため、従来のキーワ
ード検索に比して、検索者のスキルに左右されることな
く、的確に文書検索を行うことができるという効果を奏
する。

【０１１６】また、請求項４にかかる発明によれば、計
算対象単語以外の単語を計数すべき被検索対象文書にお
ける範囲を任意の範囲として変更できるため、検索条件
を変えることが可能となり、汎用性が向上するという効
果を奏する。

【０１１７】また、請求項５にかかる発明によれば、被
検索対象文書における計算対象単語以外の単語の計数結
果、および選択工程において選択されたすべての被検索
対象文書の文書数の計数結果に基づいて、単語重要度を
求めるようにしたので、被検索対象文書に含まれる重要
度が高い単語を的確に判断することが可能となるという
効果を奏する。

【図面の簡単な説明】

【図１】本発明にかかる一実施の形態の構成を示すブロ
ック図である。

【図２】同一実施の形態における単語重要度計算処理の
概要を説明する図である。

【図３】同一実施の形態における検索処理の概要を説明
する図である。

【図４】同一実施の形態における単語情報設定処理を説
明するフローチャートである。

【図５】同一実施の形態における単語重要度計算処理を
説明するフローチャートである。

【図６】同一実施の形態における検索処理を説明するフ
ローチャートである。

【図７】図６に示した類似度計算処理を説明するフロー
チャートである。

【図８】同一実施の形態において用いられる文書例を示
す図である。

【図９】同一実施の形態の効果を説明する図である。

【図１０】同一実施の形態の変形例１を示すブロック図
である。

【図１１】同一実施の形態の変形例２を示すブロック図
である。

【図１２】同一実施の形態の変形例２を示すブロック図
である。

【図１３】同一実施の形態の変形例２を示すブロック図
である。

【符号の説明】

１０記憶部２０記憶部３０単語抽出部４０単語重要度計算処理部５０検索処理部５１検索部５２単語抽出部１００コンピュータ２００記録媒体

Claims

【特許請求の範囲】

【請求項１】複数の被検索対象文書を対象として、被
検索対象文書毎に、当該被検索対象文書に含まれる単語
をそれぞれ抽出する単語抽出手段と、前記単語抽出手段の抽出結果から単語重要度の計算対象
である計算対象単語を一つづつ選択し、前記複数の被検
索対象文書から該計算対象単語を含む被検索対象文書を
選択する選択手段と、前記選択手段により選択されたすべての被検索対象文書
における前記計算対象単語以外の単語を計数し、前記選
択手段により選択されたすべての被検索対象文書の文書
数を計数する計数手段と、前記計数手段の計数結果に基づいて、前記複数の被検索
対象文書に含まれる計算対象単語の重要度を計算する単
語重要度計算手段と、を備えることを特徴とする単語重要度計算装置。
【請求項２】前記計数手段は、前記被検索対象文書に
おける任意の範囲を、前記計算対象単語以外の単語を計
数すべき範囲とすることを特徴とする請求項１に記載の
単語重要度計算装置。
【請求項３】複数の被検索対象文書を対象として、被
検索対象文書毎に、当該被検索対象文書に含まれる単語
をそれぞれ抽出する第１の単語抽出手段と、前記第１の単語抽出手段の抽出結果から単語重要度の計
算対象である計算対象単語を一つづつ選択し、前記複数
の被検索対象文書から該計算対象単語を含む被検索対象
文書を選択する選択手段と、前記選択手段により選択されたすべての被検索対象文書
における前記計算対象単語以外の単語を計数し、前記選
択手段により選択されたすべての被検索対象文書の文書
数を計数する計数手段と、前記計数手段の計数結果に基づいて、前記複数の被検索
対象文書に含まれる計算対象単語の重要度を計算する単
語重要度計算手段と、検索キーである入力文に含まれる単語を抽出する第２の
単語抽出手段と、前記第１の単語抽出手段における一つの被検索対象文書
に対応する抽出結果と前記第２の単語抽出手段の抽出結
果とを、被検索対象文書毎に順次比較する比較手段と、前記比較手段の比較結果より両抽出結果間で共通の単語
を認識し、該共通の単語に関する単語重要度に基づい
て、前記入力文と当該被検索対象文書との間の類似度を
計算する類似度計算手段と、前記類似度計算手段の計算結果に基づいて、類似度が高
い被検索対象文書を検索結果として出力する出力手段
と、を備えることを特徴とする文書検索装置。
【請求項４】前記計数手段は、前記被検索対象文書に
おける任意の範囲を、前記計算対象単語以外の単語を計
数すべき範囲とすることを特徴とする請求項３に記載の
文書検索装置。
【請求項５】複数の被検索対象文書を対象として、被
検索対象文書毎に、当該被検索対象文書に含まれる単語
をそれぞれ抽出させる単語抽出工程と、前記単語抽出工程における抽出結果から単語重要度の計
算対象である計算対象単語を一つづつ選択させ、前記複
数の被検索対象文書から該計算対象単語を含む被検索対
象文書を選択させる選択工程と、前記選択工程において選択されたすべての被検索対象文
書における前記計算対象単語以外の単語を計数させ、前
記選択工程において選択されたすべての被検索対象文書
の文書数を計数させる計数工程と、前記計数工程における計数結果に基づいて、前記複数の
被検索対象文書に含まれる計算対象単語の重要度を計算
させる単語重要度計算工程と、をコンピュータに実行させるための単語重要度計算プロ
グラムを記録したコンピュータ読み取り可能な記録媒
体。
【請求項６】複数の被検索対象文書を対象として、被
検索対象文書毎に、当該被検索対象文書に含まれる単語
をそれぞれ抽出させる第１の単語抽出工程と、前記第１の単語抽出工程における抽出結果から単語重要
度の計算対象である計算対象単語を一つづつ選択させ、
前記複数の被検索対象文書から該計算対象単語を含む被
検索対象文書を選択させる選択工程と、前記選択工程において選択されたすべての被検索対象文
書における前記計算対象単語以外の単語を計数させ、前
記選択工程において選択されたすべての被検索対象文書
の文書数を計数させる計数工程と、前記計数工程における計数結果に基づいて、前記複数の
被検索対象文書に含まれる計算対象単語の重要度を計算
させる単語重要度計算工程と、検索キーである入力文に含まれる単語を抽出させる第２
の単語抽出工程と、前記第１の単語抽出工程における一つの被検索対象文書
に対応する抽出結果と前記第２の単語抽出工程の抽出結
果とを、被検索対象文書毎に順次比較させる比較工程
と、前記比較工程における比較結果より両抽出結果間で共通
の単語を認識させ、該共通の単語に関する単語重要度に
基づいて、前記入力文と当該被検索対象文書との間の類
似度を計算させる類似度計算工程と、前記類似度計算工程の計算結果に基づいて、類似度が高
い被検索対象文書を検索結果として出力させる出力工程
と、をコンピュータに実行させるための文書検索プログラム
を記録したコンピュータ読み取り可能な記録媒体。