JP3725373B2

JP3725373B2 - 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3725373B2
Application number: JP22148399A
Authority: JP
Inventors: 陽彦寺本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-08-04
Filing date: 1999-08-04
Publication date: 2005-12-07
Anticipated expiration: 2019-08-04
Also published as: JP2001052001A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力文を検索キーとして、電子化された複数の被検索対象文書の中から所望の被検索対象文書を検索するときに用いられる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものであり、特に、被検索対象文書に含まれる単語の単語重要度の計算を的確に行うことができ、しかも検索結果の信頼性を高めることができる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【０００２】
近年、コンピュータの処理能力の向上、コンピュータの普及により、膨大な量の電子化された文書が企業内のデータベースとして活用されている。また、従来より、膨大な量の文書の中から所望の文書を検索するためには、検索キーワードと被検索対象である文書とを照合する手法等を用いた検索装置が用いられている。しかしながら、近時、電子化された文書が加速的に増加しているという背景から、企業においては、業務効率の改善を目指して、さらに効率良く検索を行うことができる手段、方法が切望されている。
【０００３】
【従来の技術】
従来より、データベース化された文書（電子化文書）から、キーワード一致方式により、キーワードを含む当該文書を検索する検索装置が用いられている。また、文書の検索においては、文書に含まれる単語に重要度を設定する方法がある。この重要度を求める手法としては、ｔｆ・ｉｄｆ法がある。このｔｆ・ｉｄｆ法においては、複数の文書のうち、ある文書における単語の重要度を、その文書における出現頻度とすべての文書における上記単語の出現頻度の逆数の積としている。また、ｔｆ・ｉｄｆ法をベクトル空間法に適用した場合には、上記重要度を重みとして、検索キーに相当する入力文に含まれる単語群から得られる文書ベクトルと被検索対象の文書に含まれる単語群から得られる文書ベクトルとの内積が、入力文と被検索対象文書との間の類似度である。したがって、この場合には、類似度が高い被検索対象文書を検索結果としている。ここで、ベクトル空間法は、文書に含まれる複数の単語をベクトルとして表現する方法である。
【０００４】
【発明が解決しようとする課題】
ところで、前述した検索キーワード一致方式においては、キーワードの指定が不適切である場合には、所望の被検索対象文書と全く関連性がない大量の被検索対象文書とともに所望の被検索対象文書が検索結果とされる。したがって、この場合には、関連性がない大量の被検索対象文書に、所望の被検索対象文書が埋もれてしまうため、検索に長時間を要するという問題があった。言い換えれば、検索キーワード一致方式においては、スキルのある検索者が適切なキーワードを指定した場合、比較的短時間で検索することができるが、初心者等のようにスキル不足の検索者の場合、適切なキーワード指定が難しいため、いたずらに検索に時間がかかってしまう。
【０００５】
また、前述したｔｆ・ｉｄｆ法においては、単語の出現頻度に基づいて単語重要度を計算している。したがって、出現頻度が同じ単語（たとえば、「状態」、「ＳＱＬ」）については、単語重要度も同じ値として計算される。しかしながら、実際の文書においては、単語の出現頻度と単語重要度とは必ずしも一致しない。これは、経験的にもわかることであり、「状態」等といった一般的な単語の単語重要度は、「ＳＱＬ」といった専門用語の単語重要度より高い。
【０００６】
このような場合、ｔｆ・ｉｄｆ法においては、出現頻度に基づいて単語重要度が計算されるため、本来ならば一般的な単語「状態」の単語重要度に比べて、単語重要度が高い「ＳＱＬ」という専門用語の単語重要度が、一般的な単語「状態」と同じ値の単語重要度として計算される。したがって、ｔｆ・ｉｄｆ法により計算される単語重要度は、実際の値と大きく異なる場合があり、信頼性が低い。また、ｔｆ・ｉｄｆ法により計算された単語重要度をファクタとして検索を行った場合にも、当然のことながら検索結果の信頼性が低い。
【０００７】
本発明は、上記に鑑みてなされたもので、単語重要度が高い単語を的確に判断することができるとともに、短時間でしかも検索者のスキルに依存することなく信頼性が高い検索結果を得ることができる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記目的を達成するために、請求項１にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出手段（後述する一実施の形態の単語抽出部３０に相当）と、前記単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段（後述する一実施の形態の単語重要度計算処理部４０に相当）と、前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段（後述する一実施の形態の単語重要度計算処理部４０に相当）と、前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段（後述する一実施の形態の単語重要度計算処理部４０に相当）とを備えることを特徴とする。
【０００９】
この請求項１にかかる発明によれば、単語抽出手段により、複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択手段により、単語抽出手段の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数手段では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択手段により選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算手段では、計数手段における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【００１０】
このように、請求項１にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択手段により選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となる。
【００１１】
また、請求項２にかかる発明は、請求項１に記載の単語重要度計算装置において、前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする。
【００１２】
この請求項２にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、単語重要度の計算条件を変えることが可能となり、汎用性が向上する。
【００１３】
また、請求項３にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第１の単語抽出手段（後述する一実施の形態の単語抽出部３０に相当）と、前記第１の単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段（後述する一実施の形態の単語重要度計算処理部４０に相当）と、前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段（後述する一実施の形態の単語重要度計算処理部４０に相当）と、前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段（後述する一実施の形態の単語重要度計算処理部４０に相当）と、検索キーである入力文に含まれる単語を抽出する第２の単語抽出手段（後述する一実施の形態の単語抽出部５２に相当）と、前記第１の単語抽出手段における一つの被検索対象文書に対応する抽出結果と前記第２の単語抽出手段の抽出結果とを、被検索対象文書毎に順次比較する比較手段（後述する一実施の形態の検索部５１に相当）と、前記比較手段の比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算手段（後述する一実施の形態の検索部５１に相当）と、前記類似度計算手段の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力手段（後述する一実施の形態の出力部７０に相当）とを備えることを特徴とする。
【００１４】
この請求項３にかかる発明によれば、第１の単語抽出手段により、複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択手段により、第１の単語抽出手段の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数手段では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択手段により選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算手段では、計数手段における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【００１５】
そして、すべての計算対象単語の単語重要度が計算された状態において、検索キーである入力文が入力されると、第２の単語抽出手段により上記入力文に含まれる単語が抽出される。つぎに、比較手段により、第１の単語抽出手段における抽出結果と第２の単語抽出手段における抽出結果が比較され、類似度計算手段により、共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度が計算される。最後に、出力手段では、類似度が高い被検索対象文書が検索結果として出力される。
【００１６】
このように、請求項３にかかる発明によれば、入力文に含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度を計算し、この類似度に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上する。
【００１７】
また、請求項３にかかる発明によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができる。
【００１８】
さらに、請求項３にかかる発明によれば、入力文から単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができる。
【００１９】
また、請求項４にかかる発明は、請求項３に記載の文書検索装置において、前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする。
【００２０】
この請求項４にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、検索条件を変えることが可能となり、汎用性が向上する。
【００２１】
また、請求項５にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出工程（後述する一実施の形態のステップＳＡ２に相当）と、前記単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程（後述する一実施の形態のステップステップＳＢ１およびステップＳＢ２に相当）と、前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程（後述する一実施の形態のステップＳＢ４およびステップＳＢ５に相当）と、前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程（後述する一実施の形態のステップＳＢ６に相当）とをコンピュータに実行させるための単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００２２】
この請求項５にかかる発明によれば、単語抽出工程において複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択工程において単語抽出工程の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数工程では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択工程において選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算工程では、計数工程における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【００２３】
このように、請求項５にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択工程において選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となる。
【００２４】
また、請求項６にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第１の単語抽出工程（後述する一実施の形態のステップＳＡ２に相当）と、前記第１の単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程（後述する一実施の形態のステップステップＳＢ１およびステップＳＢ２に相当）と、前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程（後述する一実施の形態のステップＳＢ４およびステップＳＢ５に相当）と、前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程（後述する一実施の形態のステップＳＢ６に相当）と、検索キーである入力文に含まれる単語を抽出する第２の単語抽出工程（後述する一実施の形態のステップＳＣ２に相当）と、前記第１の単語抽出工程における一つの被検索対象文書に対応する抽出結果と前記第２の単語抽出工程の抽出結果とを、被検索対象文書毎に順次比較する比較工程（後述する一実施の形態のステップＳＤ１〜ステップＳＤ３に相当）と、前記比較工程における比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算工程（後述する一実施の形態のステップＳＤ５に相当）と、前記類似度計算工程の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力工程（後述する一実施の形態のステップＳＣ９に相当）とをコンピュータに実行させるための文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００２５】
この請求項６にかかる発明によれば、第１の単語抽出工程において複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択工程において第１の単語抽出工程の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数工程では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択工程において選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算工程では、計数工程における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【００２６】
そして、すべての計算対象単語の単語重要度が計算された状態において、検索キーである入力文が入力されると、第２の単語抽出工程において上記入力文に含まれる単語が抽出される。つぎに、比較工程において、第１の単語抽出工程における抽出結果と第２の単語抽出工程における抽出結果が比較され、類似度計算工程において、共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度が計算される。最後に、出力工程では、類似度が高い被検索対象文書が検索結果として出力される。
【００２７】
このように、請求項６にかかる発明によれば、入力文に含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度を計算し、この類似度に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上する。
【００２８】
また、請求項６にかかる発明によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができる。
【００２９】
さらに、請求項６にかかる発明によれば、入力文から単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができる。
【００３０】
【発明の実施の形態】
以下、図面を参照して本発明にかかる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体の一実施の形態について詳細に説明する。
【００３１】
図１は、本発明にかかる一実施の形態の構成を示すブロック図である。この図において、記憶部１０は、たとえば、ハードディスク装置であり、後述する単語抽出部３０および検索処理部５０にアクセスされる。この記憶部１０には、図８（ａ）に示した複数の被検索対象の文書（以下、被検索対象文書という）のデータがそれぞれ記憶されている。これらの被検索対象文書には、文書番号がそれぞれ付与されている。これらの被検索対象文書は、後述する単語重要度計算処理および検索処理の対象とされる文書であり、企業におけるユーザサポートデスクの担当者に、ユーザから問い合わせがあった質問文である。
【００３２】
図８（ａ）において、被検索対象文書「ＳＱＬ＊Ｌｏａｄｅｒ・・・十分。原因と対処方法を教えてほしい。」には、文書番号「７Ｅ１−８１２４」が付与されており、被検索対象文書「毎日・・・終了する。・・・教えてほしい。」には、文書番号「７Ｅ１−８３５３」が付与されている。また、被検索対象文書「ＤＡＴ装置・・・教えてほしい。」には、文書番号「７Ｅ２−３４３６」が付与されており、被検索対象文書「ＭｑＸＳ／ＪＭ・・・教えてほしい。」には、文書番号「７Ｅ１−８５５７」が付与されており、被検索対象文書「ＳＱＬ＊Ｐｌｕｓ・・・・出来ている。」には、文書番号「７Ｅ２−２９３２」が付与されている。
【００３３】
以下の説明においては、図８（ａ）に示した都合五つの被検索対象文書を上述した文書番号により区別する。また、実際には、膨大な数の被検索対象文書のデータが記憶部１０に記憶されているが、以下においては、説明を簡略化するために、図８（ａ）に示した五つの被検索対象文書のデータが記憶部１０に記憶されているものとして説明する。
【００３４】
記憶部２０は、記憶部１０と同様にして、たとえば、ハードディスク装置であり、後述する単語重要度計算処理部４０および検索処理部５０にアクセスされる。この記憶部２０には、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」にそれぞれ対応する単語群のデータ、およびこれら単語群にそれぞれ対応する被検索対象文書（図８（ａ）参照）が記憶されている。なお、記憶部２０には、図８（ａ）に示した文書番号「７Ｅ２−２９３２」の被検索対象文書に対応する単語群も記憶されているが、図８（ｂ）においては、該単語群の図示が省略されている。これらの単語群は、後述する単語抽出部３０により、被検索対象文書（図８（ａ）参照）から抽出された単語の集合である。
【００３５】
具体的には、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」の単語群（「ＳＱＬ」、「Ｌｏａｄｅｒ」、・・・、「対処方法」）は、図８（ａ）に示した文書番号「７Ｅ１−８１２４」の被検索対象文書から抽出されたものである。同様にして、文書番号「７Ｅ１−８３５３」〜「７Ｅ１−８５５７」のそれぞれの単語群（図８（ｂ）参照）は、文書番号「７Ｅ１−８３５３」〜「７Ｅ１−８５５７」（図８（ａ）参照）のそれぞれの被検索対象文書から抽出されたものである。
【００３６】
単語抽出部３０は、記憶部１０に記憶されている一つの被検索対象文書（図８（ａ）参照）を読み出し、この被検索対象文書から、被検索対象文書を構成する単語を抽出する。ここで単語抽出部３０においては、さまざまな単語抽出手法が適用可能である。たとえば、第１の単語抽出方法としては、日本語文の場合、被検索対象文書においてひらがなを除く文字種の文字（たとえば、英数字、漢字等）が二文字以上連続しているとき、当該文字列を一単語として抽出する手法がある。また、この手法において、欧文の場合には、被検索対象文書において二つのスペース（空白）に挟まれた文字列が一単語として抽出される。
【００３７】
また、第２の単語抽出手法としては、形態素解析を用いた手法がある。ここで形態素解析とは、被検索対象文書を構成する文がどのような形態素（単語）で構成され、かつその形態素の品詞が何であるのかを、辞書および言語モデルを参照しつつ解析することをいう。たとえば、「今日は会社に行かなかった」という日本語文を形態素解析した場合には、つぎのような解析結果となる。
【００３８】
（形態素）（品詞）
「今日」副詞的名詞
「は」係助詞
「会社」名詞
「に」格助詞
「行」カ行５段動詞
「か」未然形活用語尾
「な」助動詞
「かっ」形容詞連用形活用語尾
「た」助動詞
【００３９】
また、単語抽出部３０は、記憶部１０に記憶されているすべての被検索対象文書について単語抽出を行い、抽出した単語群（図８（ｂ）参照）のデータを当該被検索対象文書のデータとともに記憶部２０に記憶させる。この単語抽出部３０の動作の詳細については後述する。
【００４０】
単語重要度計算処理部４０は、記憶部２０に記憶されたすべての単語について、後述する計算式に基づいて、定量的に単語重要度をそれぞれ計算する。ここで単語重要度は、後述する文書検索における当該単語の重要性を表す指標である。つまり、単語重要度計算処理部４０においては、被検索対象文書の特徴を表す単語は単語重要度が高い値として計算され、逆に、被検索対象文書の特徴を表さない一般的な単語は重要度が低い値として計算される。
【００４１】
たとえば、被検索対象文書が通信制御技術に関するものであり、かつ当該被検索対象文書に「通信制御」、「以降」、「再度」という単語が含まれている場合、単語「通信制御」は、当該被検索対象文書の特徴を表す単語であるため、単語重要度が高い値として計算され、逆に一般的な単語「以降」および「再度」は、当該被検索対象文書の特徴を表す単語でないため、単語重要度が低い値として計算される。
【００４２】
また、単語重要度計算処理部４０は、記憶部２０に記憶されたすべての単語について単語重要度を計算した後、この単語重要度のデータを記憶部２０に記憶させる。さらに、単語重要度計算処理部４０は、上記単語重要度の他に、後述する文書検索に用いられる検索用パラメータを計算式に基づいて計算し、計算結果を記憶部２０に記憶させる。なお、単語重要度計算処理部４０の動作の詳細については後述する。
【００４３】
検索処理部５０は、入力部６０より入力される自然言語の入力文を検索キーとして、記憶部１０に記憶されている複数の被検索対象文書の中から上記入力文との類似度に基づいて被検索対象文書を検索し、検索結果を出力部７０に表示する。ここで、入力部６０は、キーボード、マウス等であり、出力部７０は、ＣＲＴ（Cathode-Ray Tube）、ＬＣＤ（Liquid Crystal Display）である。なお、出力部７０は、プリンタであってもよい。
【００４４】
上記検索処理部５０は、検索部５１および単語抽出部５２から構成されている。単語抽出部５２は、入力部６０より入力された入力文から、前述した単語抽出部３０における単語抽出の手法と同様の手法により、すべての単語を単語群として抽出する。検索部５１は、単語抽出部５２により抽出された単語群、記憶部２０に記憶された被検索対象文書に関する単語群および単語重要度に基づいて、入力文と被検索対象文書との間の類似度を後述する計算式により計算する。また、検索部５１は、類似度が高い被検索対象文書を検索結果として出力部７０に表示させる。これら検索部５１および単語抽出部５２の動作の詳細については後述する。
【００４５】
つぎに、一実施の形態における動作を詳細に説明する前に、図２および図３を参照して一実施の形態における動作の概要について簡単に説明する。図２は、一実施の形態における単語重要度計算処理の概要を説明する図であり、図３は、一実施の形態における検索処理の概要を説明する図である。図２および図３においては、図１の各部にそれぞれ対応する部分には同一の符号を付ける。
【００４６】
図２に示した記憶部１０には、被検索対象の文書例としてつぎの文書１〜３、・・・のそれぞれのデータが記憶されているものとする。
文書１：「ＡＡＡにおいてＢＢＢはＣＣＣである」
文書２：「ＥＥＥのＤＤＤはＡＡＡに関するＦＦＦである」
文書３：「ＢＢＢはＡＡＡのＤＤＤである」
・・・
【００４７】
この状態において、まず、単語抽出部３０は、記憶部１０から文書１のデータを読み込んだ後、前述した単語抽出手法により、文書１に含まれるすべての単語を抽出する。この場合、文書１からは、単語「ＡＡＡ」、「ＢＢＢ」および「ＣＣＣ」が抽出される。つぎに、単語抽出部３０は、抽出結果を単語群として文書１に関連付けて記憶部２０に記憶させる。
【００４８】
以後、単語抽出部３０は、文書１の場合と同様にして、文書２、文書３、・・・の順で、それぞれの文書に含まれるすべての単語を抽出した後、抽出結果に対応する文書２、３、・・・とともに記憶部２０に記憶させる。この場合、文書２からは、単語「ＥＥＥ」、「ＤＤＤ」、「ＡＡＡ」および「ＦＦＦ」が抽出され、文書３からは、単語「ＢＢＢ」、「ＡＡＡ」および「ＤＤＤ」が抽出される。そして、最後の文書（図示略）の単語抽出が終了した時点において、記憶部２０には、単語群（「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」）、（「ＥＥＥ」、「ＤＤＤ」、「ＡＡＡ」、「ＦＦＦ」）、（「ＢＢＢ」、「ＡＡＡ」、「ＤＤＤ」）、・・・のデータとともに、それぞれの単語群に対応する文書１、文書２、文書３、・・・のデータが記憶されている。
【００４９】
つぎに、単語重要度計算処理部４０は、記憶部２０に記憶されている単語群の中から一つの単語（以下、単語ｗという）として、たとえば、単語「ＡＡＡ」のデータを読み込んだ後、文書１〜３、・・・の中から、上記単語「ＡＡＡ」を含むすべての文書のデータを読み込む。この場合、単語重要度計算処理部４０は、単語「ＡＡＡ」を含む文書１〜３（以下、文書群Ａという）を記憶部２０から読み込む。
【００５０】
つぎに、単語重要度計算処理部４０は、上記文書群Ａ（文書１〜３）に含まれるすべての単語（以下、単語群Ｃという）のデータを記憶部２０から読み込む。この場合、単語群Ｃは、つぎの複数の単語の集合である。
文書１：「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」
文書２：「ＥＥＥ」、「ＤＤＤ」、「ＡＡＡ」、「ＦＦＦ」
文書３：「ＢＢＢ」、「ＡＡＡ」、「ＤＤＤ」
【００５１】
つぎに、単語重要度計算処理部４０は、上記単語群Ｃに含まれる単語ｗ（この場合、「ＡＡＡ」）以外の単語を計数し、計数結果を共出語種数Ｃ_wとする。ただし、単語群Ｃにおける同一の単語は、一つの単語として計数される。上記共出語種数Ｃ_wは、単語ｗを含む被検索対象文書に含まれる共出語の種類であり、共出語とは、被検索対象文書において単語ｗと共に出現する単語をいう。この場合、共出語種数Ｃ_wは、「５」（「ＢＢＢ」、「ＣＣＣ」、「ＤＤＤ」、「ＥＥＥ」および「ＦＦＦ」の総数）である。
【００５２】
つぎに、単語重要度計算処理部４０は、文書群Ａに含まれる被検索対象文書を計数し、この計数結果を出現文書数Ｎ_wとする。この場合、出現文書数Ｎ_wは、「３」（文書１、文書２および文書３の総数）である。つぎに、単語重要度計算処理部４０は、上述した共出語種数Ｃ_wおよび出現文書数Ｎ_wおよびつぎの（式１）に基づいて、単語ｗの単語重要度Ｉ_wを求める。なお、（式１）の詳細な説明については後述する。
【００５３】
Ｉ_w＝ａ₁−（Ｇ_w／ａ₂）
Ｇ_w＝（Ｃ_w／Ｎ_w）＊Ａ_1w＊Ａ_2w
Ａ_1w＝１／（１＋ｂ₁＊ｅｘｐ（−Ｎ_w／ｂ₂））
Ａ_2w＝１／（ｃ₁＋ｃ₂／Ｎ_w）・・・（式１）
【００５４】
この場合には、上記（式１）より、単語ｗ（＝単語「ＡＡＡ」）の単語重要度Ｉ_wが「０．４」として算出されたものとする。つぎに、単語重要度計算処理部４０は、単語ｗ（＝「ＡＡＡ」）の単語重要度Ｉ_w（＝０．４）とともに出現文書に関するデータを記憶部２０に記憶させる。ここで、出現文書とは、単語ｗが出現している被検索対象文書をいい、この場合、上記出現文書は、文書１〜３である。
【００５５】
以後、単語重要度計算処理部４０は、単語ｗ（＝「ＡＡＡ」）の場合と同様にして、記憶部２０に記憶されている他の単語ｗ（「ＢＢＢ」、「ＣＣＣ」、・・・）のすべてについて単語重要度Ｉ_wを計算した後、単語重要度Ｉ_wとともに出現文書のデータを記憶部２０に記憶させる（図２参照）。
【００５６】
そして、単語重要度計算処理部４０による単語重要度計算処理が終了すると、図３に示した検索処理部５０による検索処理が実行可能となる。すなわち、検索処理において、入力部６０より自然言語の入力文例「ＣＣＣまたはＥＥＥにおいてＡＡＡに関するものは？」のデータが入力されると、検索処理部５０の単語抽出部５２は、単語抽出部３０と同様の単語抽出手法により、上記入力文（以下、入力文Ｑという）に含まれるすべての単語を抽出する。この場合、単語抽出部５２は、入力文Ｑから単語「ＣＣＣ」、「ＥＥＥ」および「ＡＡＡ」を抽出し、これらを単語群Ｗ_qとする。
【００５７】
つぎに、検索処理部５０の検索部５１は、記憶部１０に記憶されている文書１〜３、・・・の中から、一つの文書（以下、文書Ａ_qという）のデータを読み込む。この場合、検索部５１は、文書Ａ_qとして文書１を読み込んだものとする。つぎに、検索部５１は、文書Ａ_q（＝文書１）に含まれるすべての単語のデータを記憶部２０から読み込み、これらを単語群Ｗ_aとする。この場合、単語群Ｗ_aは、文書１に含まれる単語「ＡＡＡ」、「ＢＢＢ」および「ＣＣＣ」からなる。
【００５８】
つぎに、検索部５１は、以下に示した入力文Ｑに対応する単語群Ｗ_qと文書Ａ_qに対応する単語群Ｗ_aとに共通に含まれる単語を抽出し、抽出結果を単語群Ｗ_aqとする。この場合の単語群Ｗ_aqは、単語「ＡＡＡ」および「ＣＣＣ」からなる。
単語群Ｗ_q：「ＡＡＡ」「ＣＣＣ」「ＥＥＥ」
単語群Ｗ_a：「ＡＡＡ」「ＢＢＢ」「ＣＣＣ」
【００５９】
つぎに、検索部５１は、上記単語群Ｗ_aqを構成する単語「ＡＡＡ」および「ＣＣＣ」のそれぞれの単語重要度Ｉ_wのデータを記憶部２０から読み出した後、単語「ＡＡＡ」の単語重要度Ｉ_wを二乗した値と単語「ＣＣＣ」の単語重要度Ｉ_wを二乗した値との和を、文書Ａ_q（＝文書１）と入力文Ｑとの間の類似度Ｐ_aとする。
【００６０】
以後、検索部５１は、文書Ａ_q（＝文書１）の場合と同様にして、記憶部１０に記憶されている他の文書２、３、・・・のすべてについて類似度Ｐ_aを計算する。そして、すべての類似度Ｐ_aに関する計算が終了すると、検索部５１は、図３に示したように、類似度Ｐ_aが高い文書から順次出力部７０に表示させる。同図に示した出力例では、出力部７０には、類似度Ｐ_aが最も高い類似度順位１の文書１（「ＡＡＡにおいてＢＢＢ・・・」）、この文書１のつぎに類似度Ｐ_aが高い文書２（「ＥＥＥのＤＤＤは・・・」）が検索結果として表示される。
【００６１】
つぎに、図４〜図７にそれぞれ示したフローチャートを参照しつつ一実施の形態の動作について詳細に説明する。図４は、一実施の形態における単語情報設定処理を説明するフローチャートである。この単語情報設定処理は、被検索対象文書から単語を抽出し、抽出された単語を単語群として記憶部２０に記憶させる処理である。
【００６２】
また、図５は、一実施の形態における単語重要度計算処理を説明するフローチャートである。この単語重要度計算処理は、記憶部２０に記憶された上記単語群におけるそれぞれの単語の単語重要度を計算する処理である。図６は、一実施の形態における検索処理を説明するフローチャートである。この検索処理は、記憶部１０に記憶された複数の被検索対象文書の中から、検索キーとしての入力文に類似している被検索対象文書を検索する処理である。
【００６３】
（単語情報設定処理）
はじめに、図４を参照して単語情報設定処理について説明する。この単語情報設定処理において、図１に示した記憶部１０には、あらかじめ図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ２−２９３２」の都合五つの被検索対象文書のデータが記憶されているものとする。この状態において、図４に示したステップＳＡ１では、単語抽出部３０（図１参照）は、上記五つの被検索対象文書のデータうち、たとえば、文書番号「７Ｅ１−８１２４」の被検索対象文書のデータを文書ｄのデータとして記憶部１０から読み込んだ後、ステップＳＡ２へ進む。
【００６４】
ステップＳＡ２では、単語抽出部３０は、前述した単語抽出手法により、上記文書ｄに含まれる単語をすべて抽出し、抽出結果を単語群Ｗとした後、ステップＳＡ３へ進む。この場合、単語群Ｗは、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」の単語群（「ＳＱＬ」、・・・、「対処方法」）である。ステップＳＡ３では、単語抽出部３０は、上記単語群Ｗから単語を一つ取り出し、これを単語ｗとした後、ステップＳＡ４へ進む。この場合、上記単語ｗは、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」に対応する単語「ＳＱＬ」である。
【００６５】
ステップＳＡ４では、単語抽出部３０は、上記単語ｗ（＝単語「ＳＱＬ」）が文書ｄ（＝文書番号「７Ｅ１−８１２４」の被検索対象文書）に含まれているという情報を記憶部２０に書き込んだ後、ステップＳＡ５へ進む。この場合、単語抽出部３０は、上記情報として単語ｗに対応付けて文書番号「７Ｅ１−８１２４」の被検索対象文書を記憶部２０に書き込む。ステップＳＡ５では、単語抽出部３０は、ステップＳＡ２で抽出した単語群Ｗにおけるすべての単語に関する処理が終了したか否かを判断する。ここでいう処理とは、ステップＳＡ３およびステップＳＡ４の処理をいう。この場合、単語抽出部３０は、ステップＳＡ５の判断結果を「Ｎｏ」として、ステップＳＡ３に戻る。
【００６６】
以後、ステップＳＡ３では、上述した動作と同様にして、単語群Ｗからつぎの単語ｗが取り出された後、ステップＳＡ４では、上記単語ｗが文書ｄに含まれているという情報が記憶部２０に書き込まれる。そして、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」に対応する単語群における最後の単語ｗ（＝単語「対処方法」）に関する処理が終了すると、単語抽出部３０は、ステップＳＡ５の判断結果を「Ｙｅｓ」として、ステップＳＡ６へ進む。
【００６７】
ステップＳＡ６では、単語抽出部３０は、記憶部１０に記憶されているすべての被検索対象文書に関する一連の処理（ステップＳＡ２〜ステップＳＡ４）が終了したか否かを判断する。つまり、ステップＳＡ６では、単語抽出部３０は、図８（ａ）に示した五つの被検索対象文書における単語抽出が終了したか否かを判断する。この場合、単語抽出部３０は、ステップＳＡ６の判断結果を「Ｎｏ」として、ステップＳＡ１に戻る。
【００６８】
以後、単語抽出部３０は、上述した文書ｄ（＝文書番号「７Ｅ１−８１２４」の被検索対象文書）の場合と同様にして、文書番号「７Ｅ１−８３５３」以降の被検索対象文書に関する単語を抽出する処理を行う。そして、最後の文書番号「７Ｅ２−２９３２」の被検索対象文書に関する単語の抽出処理が終了すると、単語抽出部３０は、ステップＳＡ６の判断結果を「Ｙｅｓ」として、単語情報設定処理を終了する。この時点では、記憶部２０には、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」および図示しない文書番号「７Ｅ２−２９３２」にそれぞれ関する単語群Ｗが記憶部２０に記憶されている。加えて、記憶部２０には、単語ｗが文書ｄに含まれているという情報が単語毎にそれぞれ記憶されている。
【００６９】
（単語重要度計算処理）
つぎに、図５を参照して単語重要度計算処理について説明する。この単語重要度計算処理において、記憶部２０には、図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ２−２９３２」にそれぞれ対応する単語群のデータが記憶されているものとする。この状態において、図５に示したステップＳＢ１では、単語重要度計算処理部４０（図１参照）は、記憶部２０から一つの単語ｗのデータを読み込んだ後、ステップＳＢ２へ進む。この場合、単語重要度計算処理部４０は、単語ｗとして図８（ｂ）に示した単語「原因」を記憶部２０から読み込んだものとする。
【００７０】
ステップＳＢ２では、単語重要度計算処理部４０は、単語ｗ（＝単語「原因」）を含む被検索対象文書のデータを記憶部２０から読み込んだ後、ステップＳＢ３へ進む。この場合、単語重要度計算処理部４０は、単語ｗ（＝単語「原因」）を含む被検索対象文書として、図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」の被検索対象文書のデータを記憶部２０から読み込み、これらの被検索対象文書を文書群Ａとする。
【００７１】
ステップＳＢ３では、単語重要度計算処理部４０は、上記文書群Ａに含まれるすべての単語のデータを単語群Ｃとして記憶部２０から読み込んだ後、ステップＳＢ４へ進む。この場合、単語重要度計算処理部４０は、単語群Ｃのデータとして、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」に対応する単語群のデータを記憶部２０から読み込む。
【００７２】
ステップＳＢ４では、単語重要度計算処理部４０は、読み込んだ単語群Ｃに含まれる単語ｗ（＝単語「原因」）以外の単語を計数した後、ステップＳＢ５へ進む。ただし、この計数において、同一の単語（重複単語）は、一つの単語として計数される。ここで、図８（ｂ）に示した単語群Ｃから重複単語を一つの単語とし、かつ単語ｗ（＝単語「原因」）を排除すると、上記単語群Ｃは、図８（ｃ）に示した単語群となる。したがって、この場合、単語重要度計算処理部４０は、図８（ｃ）に示した単語群における単語の計数結果（＝「３６」）を前述した共出語種数Ｃ_wとする。
【００７３】
ステップＳＢ５では、単語重要度計算処理部４０は、単語ｗ（＝単語「原因」）を含む文書群Ａに含まれる被検索対象文書を計数した後、ステップＳＢ６へ進む。この場合、単語重要度計算処理部４０は、上記文書群Ａが、図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ１−８５５７」にそれぞれ対応する都合四つの被検索対象文書から構成されているため、計数結果（＝「４」）を前述した出現文書数Ｎ_wとする。
【００７４】
ステップＳＢ６では、単語重要度計算処理部４０は、前述した（式１）に基づいて、単語ｗ（＝単語「原因」）の単語重要度Ｉ_w等を求める。
【００７５】
ここで、上記（式１）は、単語に関するつぎの（１）項および（２）項の特性に基づいて導出された式である。
（１）文書の特徴を表さない一般的な単語は、様々なトピックの文書において出現する。したがって、文書データ全体においては、一般的な単語と同一の文書に出現する前述した共出語の種類が多岐にわたる。
（２）文書の特徴を表す特徴的な単語は、限定されたトピックの文書において出現する傾向がある。したがって、特徴的な単語と同一の文書に出現する共出語の種類は限定される傾向がある。
【００７６】
上記（１）項および（２）項より、（式１）においては、共出語の種類（前述した共出語種数Ｃ_w）が限定される度合いを単語重要度Ｉ_wとしている。具体的には、（式１）において、Ｉ_wは単語ｗの単語重要度である。ａ₁およびａ₂は、単語重要度Ｉ_wのダイナミックレンジをそれぞれ決定するパラメータであり、いずれも正の値をとる。たとえば、パラメータａ₁およびａ₂は、「１．０」および「２．４」である。
【００７７】
また、Ｃ_w、Ｎ_wは、ステップＳＢ４およびステップＳＢ５（図５参照）において求められた単語の共出語種数および出現文書数である。Ｇ_wは、共出語種数Ｃ_wと出現文書数Ｎ_wとの比率（Ｃ_w／Ｎ_w：以下、共出語種比率という）に補正項Ａ_1wおよびＡ_2wを付加したものであり、単語ｗの一般性を表す指標（以下、一般性指標Ｇ_wという）である。したがって、一般性が高い単語ｗほど、その一般性指標Ｇ_wが大きくなる。
【００７８】
補正項Ａ_1wは、ある単語ｗに着目した場合に、当該単語ｗに関する出現文書数Ｎ_wが増加するのに伴って共出語種比率（Ｃ_w／Ｎ_w）が減少することによる単語重要度計算に対する影響を減少させるためのものである。また、ｂ₁およびｂ₂は、補正項Ａ_1wによる補正の強さをそれぞれ決定するパラメータであり、たとえば、「５．０」および「５７２．２７」である。
【００７９】
補正項Ａ_2wは、出現回数が少ない単語ｗ（稀出単語）の単語重要度を高く見積もるためのものである。ｃ₁およびｃ₂は、補正項Ａ_2wによる見積もりの高さをそれぞれ決定するパラメータであり、たとえば、「０．６」および「１６．０」である。
【００８０】
図５に戻り、ステップＳＢ６では、単語重要度計算処理部４０は、ステップＳＢ４で求められた単語ｗ（＝単語「原因」）に関する共出語種数Ｃ_w（＝３６）およびステップＳＢ５で求められた単語ｗ（＝単語「原因」）に関する出現文書数Ｎ_w（＝４）を、上述した（式１）に代入することにより、単語ｗ（＝単語「原因」）の単語重要度Ｉ_w（＝０．８６５）を求めた後、ステップＳＢ７へ進む。
【００８１】
以下に、（式１）における単語重要度Ｉ_wの計算過程を示す。

【００８２】
ステップＳＢ７では、単語重要度計算処理部４０は、単語ｗ（＝単語「原因」）に関する単語重要度Ｉ_w（＝０．８６５）、共出語種数Ｃ_w（＝３６）および出現文書数Ｎ_w（＝４）のそれぞれのデータを記憶部２０に書き込んだ後、ステップＳＢ８へ進む。ステップＳＢ８では、単語重要度計算処理部４０は、記憶部２０に記憶されている単語群（図８（ｂ）参照）におけるすべての単語に関する処理（単語重要度計算）が終了したか否かを判断する。この場合、単語重要度計算処理部４０は、ステップＳＢ８の判断結果を「Ｎｏ」として、ステップＳＢ１へ戻り、上述した工程を繰り返す。
【００８３】
以後、単語重要度計算処理部４０は、上述した単語ｗ（＝単語「原因」）場合と同様にして、他の単語について共出語種数Ｃ_w、出現文書数Ｎ_w、単語重要度Ｉ_wを求め、これらを記憶部２０に書き込む。そして、最後の単語ｗに関する計算が終了すると、単語重要度計算処理部４０は、ステップＳＢ８の判断結果を「Ｙｅｓ」として、単語重要度計算処理を終了する。この時点では、記憶部２０には、図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ２−２９３２」に対応する五つの被検索対象文書に含まれるすべての単語に関する単語重要度Ｉ_w、共出語種数Ｃ_wおよび出現文書数Ｎ_wに関するデータが記憶されている。
【００８４】
（検索処理）
つぎに、図６および図７を参照して検索処理について説明する。この検索処理において、記憶部２０には、図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ２−２９３２」に対応する五つの被検索対象文書に含まれるすべての単語に関する単語重要度Ｉ_w、共出語種数Ｃ_wおよび出現文書数Ｎ_wに関するデータが記憶されているものとする。
【００８５】
このような状態において、図６に示したステップＳＣ１では、検索者は、図１に示した入力部６０を用いて、検索キーとなる文書のデータを入力した後、検索開始を指示する。これにより、検索処理部５０の単語抽出部５２は、入力された文書のデータを入力文Ｑのデータとした後、ステップＳＣ２へ進む。ステップＳＣ２では、単語抽出部５２は、前述した単語抽出手法により、上記入力文Ｑに含まれる単語をすべて抽出し、抽出結果を単語群Ｗ_qとする。
【００８６】
つぎに、ステップＳＣ３では、検索部５１は、周知のベクトル空間法により単語群Ｗ_qから入力文Ｑに関する文書ベクトルＶ_qを求めた後、ステップＳＣ４へ進む。ステップＳＣ４では、検索部５１は、図８（ａ）に示した文書番号「７Ｅ１−８１２４」〜「７Ｅ２−２９３２」がそれぞれ付与された五つの被検索対象文書のうち、一つの被検索対象文書のデータを記憶部１０から読み込み、これを文書Ａ_qとした後、ステップＳＣ５へ進む。この場合、文書Ａ_qは、文書番号「７Ｅ１−８１２４」の被検索対象文書であるものとする。
【００８７】
ステップＳＣ５では、検索部５１は、文書Ａ_qに含まれるすべての単語のデータを記憶部２０から読み出した後、これを単語群Ｗ_aとした後、ステップＳＣ６へ進む。この場合、上記単語群Ｗ_aは、図８（ｂ）に示した文書番号「７Ｅ１−８１２４」に関する単語群である。ステップＳＣ６では、検索部５１は、入力文Ｑと文書Ａ_qとの間の類似度を計算する類似度計算処理（図７参照）を実行する。
【００８８】
すなわち、図７に示したステップＳＤ１では、検索部５１は、ステップＳＣ２（図６参照）で抽出された単語群Ｗ_qおよびステップＳＣ５で読み込まれた単語群Ｗ_aから、入力文Ｑと文書Ａ_qとに共通に含まれる単語を抽出し、抽出結果を単語群Ｗ_aqとした後、ステップＳＤ２へ進む。ステップＳＤ２では、検索入力部５１は、入力文Ｑと文書Ａ_qとの間、すなわち二つの文書間の類似度Ｐ_aに初期値「０」を代入した後、ステップＳＤ３へ進む。
【００８９】
ステップＳＤ３では、検索部５１は、ステップＳＤ１で抽出された単語群Ｗ_aqから一つの単語を抽出し、これを単語Ｗ_tとした後、ステップＳＤ４へ進む。ステップＳＤ４では、検索部５１は、上記単語Ｗ_tの単語重要度のデータを記憶部２０から読み込み、これを単語重要度Ｉ_tとした後、ステップＳＤ５へ進む。ステップＳＤ５では、検索部５１は、上記単語重要度Ｉ_tを二乗した値を類似度Ｐ_aに加算した後、ステップＳＤ６へ進む。ステップＳＤ６では、検索部５１は、ステップＳＤ１で抽出された単語群Ｗ_aqのすべての単語に関する処理が終了したか否かを判断する。ここでいう処理とは、ステップＳＤ３〜ステップＳＤ５までの一連の処理をいう。この場合、検索部５１は、ステップＳＤ６の判断結果を「Ｎｏ」として、ステップＳＤ３に戻る。
【００９０】
以後、検索部５１は、上述した動作と同様にして、単語群Ｗ_aqにおける他の単語Ｗ_tにおける単語重要度Ｉ_tを二乗した値を類似度Ｐ_aに加算する。そして、単語群Ｗ_aqにおける最後の単語Ｗ_tに関する処理が終了すると、検索部５１は、ステップＳＤ６の判断結果を「Ｙｅｓ」として、ステップＳＤ７へ進む。ステップＳＤ７では、検索部５１は、複数の単語Ｗ_tに関するそれぞれの単語重要度Ｉ_tの二乗和として計算された類似度Ｐ_aを文書Ａ_q（ステップＳＣ４：図６参照）と入力文Ｑ（ステップＳＣ１：図６参照）との文書間類似度とした後、図６に示したメインルーチンに戻る。
【００９１】
つぎに、図６に示したステップＳＣ７では、検索部５１は、上述した文書Ａ_qおよびこれに対応する類似度Ｐ_aを検索結果として出力部７０へ出力した後、ステップＳＣ８へ進む。ステップＳＣ８では、検索部５１は、記憶部１０に記憶されているすべての被検索対象文書に関する処理が終了したか否かを判断する。ここでいう処理とは、ステップＳＣ４〜ステップＳＣ７までの一連の処理をいう。この場合、検索部５１は、ステップＳＣ８の判断結果を「Ｎｏ」として、ステップＳＣ４に戻る。
【００９２】
以後、検索部５１は、上述した動作と同様にして、図８（ａ）に示した文書番号「７Ｅ１−８１２４」以外の文書番号に対応する他の被検索対象文書についての処理を行う。そして、図８（ａ）に示した最後の被検索対象文書（たとえば、文書番号「７Ｅ２−２９３２」の被検索対象文書）に関する処理が終了すると、検索部５１は、ステップＳＣ８の判断結果を「Ｙｅｓ」として、ステップＳＣ９へ進む。ステップＳＣ９では、検索部５１は、出力部７０に対してすべての検索結果（文書Ａ_qおよび類似度Ｐ_a）を類似度が高いものから順に出力するように指示を出した後、検索処理を終了する。これにより、出力部７０には、検索結果として、入力文Ｑに類似する文書Ａ_qおよび類似度Ｐ_aが、類似度が高い順に表示される。したがって、検索者は、たとえば、最も類似度が高い文書Ａ_qを検索結果として利用する。
【００９３】
以上説明したように、一実施の形態によれば、前述した（１式）に示した共出語種数Ｃ_wと出現文書数Ｎ_wという考え方を導入し、両者の共出語種比率（Ｃ_w／Ｎ_w）に基づいて、単語重要度Ｉ_wを求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となる。
【００９４】
また、一実施の形態によれば、入力文Ｑに含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文Ｑと被検索対象文書との間の類似度Ｐ_aを計算し、この類似度Ｐ_aに基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上する。
【００９５】
また、一実施の形態によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができる。
【００９６】
さらに、一実施の形態によれば、自然言語の入力文Ｑから単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができる。
【００９７】
ここで、発明者は、一実施の形態の効果を定量的に知るために、１２０００件の被検索対象文書に含まれる１６６６個の単語の単語重要度を上述した装置によりそれぞれ計算する評価試験を行った。図９（ａ）は、評価試験において重要度が高い単語の例であり、図９（ｂ）は、上記評価試験において重要度が低い単語の例である。また、図９（ａ）および（ｂ）において、「単語」は、単語重要度の計算対象であり、「出現事例数」は、前述した出現文書数Ｎ_w（ステップＳＢ５参照）に対応しており、「重要度」は、前述した単語重要度Ｉ_w（ステップＳＢ６参照）に対応している。また、図９（ａ）および（ｂ）においては、被検索対象文書における出現頻度がほぼ同じ単語群についての評価試験の結果が図示されている。
【００９８】
図９（ａ）および（ｂ）からわかるように、「再度」、「確認」、「状態」等のように一般的な単語は、単語重要度が低く評価されているのに対して、「２０５１」、「製品名」、「ＳＱＬ」等のように被検索対象文書の特徴を表す特徴的な単語は、単語重要度が高く評価されている。また、発明者は、上記評価試験の妥当性を確認するために、一般的な単語と特徴的な単語が正しく識別されているか否かを英和・和英辞典を用いて検証した。ここで、発明者は、英和・和英辞典として、研究社刊の新英和・和英中辞典（竹林・吉川・小川・コリック・日南田、田辺編）を使用した。
【００９９】
この検証の手法としては、上記英和・和英辞典の見出し語を一般的な単語と見なし、出現事例数が「５０」以上の単語（３５２語）および出現事例数が「５０」未満の単語（１３１４語）に関して、それぞれ単語重要度が上位５０語の単語および下位５０語の単語が上記見出し語になっているか否かを調査する手法をとった。この検証結果を図９（ｃ）に示す。この図９（ｃ）からわかるように、発明者が行った評価試験においては、一般的な単語と特徴的な単語とが識別されている。
【０１００】
以上本発明にかかる一実施の形態について図面を参照して詳述してきたが、具体的な構成例はこの一実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。たとえば、前述した一実施の形態においては、単語重要度計算装置の機能または文書検索装置の機能を実現するための単語重要度計算プログラムまたは文書検索プログラムを図１０に示したコンピュータ読み取り可能な記録媒体２００に記録して、この記録媒体２００に記録された単語重要度計算プログラムまたは文書検索プログラムを同図に示したコンピュータ１００に読み込ませ、実行することにより単語重要度計算または文書検索を行うようにしてもよい。
【０１０１】
図１０に示したコンピュータ１００は、上記単語重要度計算プログラム、文書検索プログラムを実行するＣＰＵ１０１と、キーボード、マウス等の入力装置１０２と、各種データを記憶するＲＯＭ（Read Only Memory）１０３と、演算パラメータ等を記憶するＲＡＭ（Random Access Memory）１０４と、記録媒体２００から単語重要度計算プログラム、文書検索プログラムを読み取る読取装置１０５と、ディスプレイ、プリンタ等の出力装置１０６と、装置各部を接続するバスＢＵとから構成されている。
【０１０２】
ＣＰＵ１０１は、読取装置１０５を経由して記録媒体２００に記録されている単語重要度計算プログラムまたは文書検索プログラムを読み込んだ後、単語重要度計算プログラムまたは文書検索プログラムを実行することにより、前述した単語重要度計算または文書検索を行う。なお、記録媒体２００には、光ディスク、フロッピーディスク、ハードディスク等の可搬型の記録媒体が含まれることはもとより、ネットワークのようにデータを一時的に記録保持するような伝送媒体も含まれる。
【０１０３】
また、一実施の形態においては、図１に示したように、単語情報設定処理、単語重要度計算処理および検索処理という三つの処理を一つの装置で実行する例について説明したが、これに限られることなく、図１１〜図１３にそれぞれ示した変形例２のように、上記三つの処理をそれぞれ独立した装置で実行するようにしてもよい。
【０１０４】
つまり、図１１に示した例では、記憶部１０、記憶部２０および単語抽出部３０から単語情報設定処理を実行する単語情報設定装置が構成されおり、図１２に示した例では、記憶部２０および単語重要度計算処理部４０から単語重要度計算装置が構成されている。また、図１３に示した例では、記憶部１０、記憶部２０、検索処理部５０、検索部５１、単語抽出部５２、入力部６０および出力部７０から文書検索装置が構成されている。なお、図１１〜図１３においては、図１に対応する部分には同一の符号を付けその説明を省略する。
【０１０５】
また、一実施の形態においては、図１に示した記憶部１０および記憶部２０としてハードディスク装置を用いた例について説明したが、これに代えて、可搬型の記録媒体に対する書き込み、読み出しを行う記憶装置を用いてもよい。この場合、可搬型の記録媒体としては、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）、光磁気ディスク、フロッピーディスク等が挙げられる。
【０１０６】
さらに、一実施の形態においては、一つの被検索対象文書のすべての範囲（単語）を対象として共出語を計数しこの計数結果を共出語種数Ｃ_w (ステップＳＢ４：図５参照)とする例について説明したが、一つの被検索対象文書において共出語を計数する範囲は、適宜変更される。たとえば、一つの被検索対象文書において共出語を計数する範囲は、つぎの（Ａ）項〜（Ｃ）項の範囲としてもよい。なお、（Ａ）項〜（Ｃ）項以外の範囲であっても本発明に含まれる。
（Ａ）被検索対象文書において単語ｗ（ステップＳＢ４：図５参照）を含む一つの段落を共出語の計数範囲とする。
（Ｂ）被検索対象文書において単語ｗを含む一つの文を共出語の計数範囲とする。
（Ｃ）被検索対象文書において単語ｗよりｎ単語前に存在する単語から、単語ｗよりｎ単語後に存在する単語までの範囲。ただしｎは自然数である。
【０１０７】
ここで、被検索対象文書としてつぎの二つの文からなるものを例示する。
「ＭｑＸＳ／ＪＭを経由し、バッチプログラムにてＯＲＡＣＬＥの更新を実行後、１０分ぐらいで、異常終了した。原因と対処方法を教えてほしい。」
【０１０８】
上記被検索対象文書に対して（Ａ）項の範囲を適用した場合には、単語ｗを「ＯＲＡＣＬＥ」とすると、一つの段落（ＭｑＸＳ／ＪＭ・・・教えてほしい。）が共出語の計数範囲となる。したがって、この場合、「ＯＲＡＣＬＥ」に関する共出語は、「ＭｑＸＳ／ＪＭ」、「経由」、「バッチプログラム」、「更新」、「実行後」、「１０」、「異常終了」、「原因」および「対処方法」である。
【０１０９】
同様にして、被検索対象文書に対して（Ｂ）項の範囲を適用した場合には、単語ｗを「ＯＲＡＣＬＥ」とすると、一つの文（ＭｑＸＳ／ＪＭ・・・異常終了した。）が共出語の計数範囲となる。したがって、この場合、「ＯＲＡＣＬＥ」に関する共出語は、「ＭｑＸＳ／ＪＭ」、「経由」、「バッチプログラム」、「更新」、「実行後」、「１０」および「異常終了」である。
【０１１０】
さらに、被検索対象文書に対して（Ｃ）項の範囲を適用した場合には、単語ｗを「ＯＲＡＣＬＥ」とし、かつｎ＝２とすると、「ＯＲＡＣＬＥ」より２単語前に存在する「経由」から、２単語後に存在する「実行後」までが共出語の計数範囲となる。したがって、この場合、「ＯＲＡＣＬＥ」に関する共出語は、「経由」、「バッチプログラム」、「更新」および「実行後」である。このように、一つの被検索対象文書において共出語を計数する範囲を適宜変更できるようにした場合には、文書の検索条件（単語重要度の計算条件）を変えて文書検索（単語重要度の計算）が可能となることから、汎用性が向上する。
【０１１１】
【発明の効果】
以上説明したように、請求項１にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択手段により選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となるという効果を奏する。
【０１１２】
また、請求項２にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、単語重要度の計算条件を変えることが可能となり、汎用性が向上するという効果を奏する。
【０１１３】
また、請求項３、６にかかる発明によれば、入力文に含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度を計算し、この類似度に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上するという効果を奏する。
【０１１４】
さらに、請求項３、６にかかる発明によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができるという効果を奏する。
【０１１５】
加えて、請求項３、６にかかる発明によれば、入力文から単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができるという効果を奏する。
【０１１６】
また、請求項４にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、検索条件を変えることが可能となり、汎用性が向上するという効果を奏する。
【０１１７】
また、請求項５にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択工程において選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となるという効果を奏する。
【図面の簡単な説明】
【図１】本発明にかかる一実施の形態の構成を示すブロック図である。
【図２】同一実施の形態における単語重要度計算処理の概要を説明する図である。
【図３】同一実施の形態における検索処理の概要を説明する図である。
【図４】同一実施の形態における単語情報設定処理を説明するフローチャートである。
【図５】同一実施の形態における単語重要度計算処理を説明するフローチャートである。
【図６】同一実施の形態における検索処理を説明するフローチャートである。
【図７】図６に示した類似度計算処理を説明するフローチャートである。
【図８】同一実施の形態において用いられる文書例を示す図である。
【図９】同一実施の形態の効果を説明する図である。
【図１０】同一実施の形態の変形例１を示すブロック図である。
【図１１】同一実施の形態の変形例２を示すブロック図である。
【図１２】同一実施の形態の変形例２を示すブロック図である。
【図１３】同一実施の形態の変形例２を示すブロック図である。
【符号の説明】
１０記憶部
２０記憶部
３０単語抽出部
４０単語重要度計算処理部
５０検索処理部
５１検索部
５２単語抽出部
１００コンピュータ
２００記録媒体

Claims

複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出手段と、
前記単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段と、
前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段と、
前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段と、
を備えることを特徴とする単語重要度計算装置。
前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする請求項１に記載の単語重要度計算装置。
複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第１の単語抽出手段と、
前記第１の単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段と、
前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段と、
前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段と、
検索キーである入力文に含まれる単語を抽出する第２の単語抽出手段と、
前記第１の単語抽出手段における一つの被検索対象文書に対応する抽出結果と前記第２の単語抽出手段の抽出結果とを、被検索対象文書毎に順次比較する比較手段と、
前記比較手段の比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算手段と、
前記類似度計算手段の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力手段と、
を備えることを特徴とする文書検索装置。
前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする請求項３に記載の文書検索装置。
複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出工程と、
前記単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程と、
前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程と、
前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程と、
をコンピュータに実行させるための単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体。
複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第１の単語抽出工程と、
前記第１の単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程と、
前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程と、
前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程と、
検索キーである入力文に含まれる単語を抽出する第２の単語抽出工程と、
前記第１の単語抽出工程における一つの被検索対象文書に対応する抽出結果と前記第２の単語抽出工程の抽出結果とを、被検索対象文書毎に順次比較する比較工程と、
前記比較工程における比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算工程と、
前記類似度計算工程の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力工程と、
をコンピュータに実行させるための文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。