JP3725373B2 - 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP3725373B2 JP3725373B2 JP22148399A JP22148399A JP3725373B2 JP 3725373 B2 JP3725373 B2 JP 3725373B2 JP 22148399 A JP22148399 A JP 22148399A JP 22148399 A JP22148399 A JP 22148399A JP 3725373 B2 JP3725373 B2 JP 3725373B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- document
- search target
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、入力文を検索キーとして、電子化された複数の被検索対象文書の中から所望の被検索対象文書を検索するときに用いられる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものであり、特に、被検索対象文書に含まれる単語の単語重要度の計算を的確に行うことができ、しかも検索結果の信頼性を高めることができる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
近年、コンピュータの処理能力の向上、コンピュータの普及により、膨大な量の電子化された文書が企業内のデータベースとして活用されている。また、従来より、膨大な量の文書の中から所望の文書を検索するためには、検索キーワードと被検索対象である文書とを照合する手法等を用いた検索装置が用いられている。しかしながら、近時、電子化された文書が加速的に増加しているという背景から、企業においては、業務効率の改善を目指して、さらに効率良く検索を行うことができる手段、方法が切望されている。
【0003】
【従来の技術】
従来より、データベース化された文書(電子化文書)から、キーワード一致方式により、キーワードを含む当該文書を検索する検索装置が用いられている。また、文書の検索においては、文書に含まれる単語に重要度を設定する方法がある。この重要度を求める手法としては、tf・idf法がある。このtf・idf法においては、複数の文書のうち、ある文書における単語の重要度を、その文書における出現頻度とすべての文書における上記単語の出現頻度の逆数の積としている。また、tf・idf法をベクトル空間法に適用した場合には、上記重要度を重みとして、検索キーに相当する入力文に含まれる単語群から得られる文書ベクトルと被検索対象の文書に含まれる単語群から得られる文書ベクトルとの内積が、入力文と被検索対象文書との間の類似度である。したがって、この場合には、類似度が高い被検索対象文書を検索結果としている。ここで、ベクトル空間法は、文書に含まれる複数の単語をベクトルとして表現する方法である。
【0004】
【発明が解決しようとする課題】
ところで、前述した検索キーワード一致方式においては、キーワードの指定が不適切である場合には、所望の被検索対象文書と全く関連性がない大量の被検索対象文書とともに所望の被検索対象文書が検索結果とされる。したがって、この場合には、関連性がない大量の被検索対象文書に、所望の被検索対象文書が埋もれてしまうため、検索に長時間を要するという問題があった。言い換えれば、検索キーワード一致方式においては、スキルのある検索者が適切なキーワードを指定した場合、比較的短時間で検索することができるが、初心者等のようにスキル不足の検索者の場合、適切なキーワード指定が難しいため、いたずらに検索に時間がかかってしまう。
【0005】
また、前述したtf・idf法においては、単語の出現頻度に基づいて単語重要度を計算している。したがって、出現頻度が同じ単語(たとえば、「状態」、「SQL」)については、単語重要度も同じ値として計算される。しかしながら、実際の文書においては、単語の出現頻度と単語重要度とは必ずしも一致しない。これは、経験的にもわかることであり、「状態」等といった一般的な単語の単語重要度は、「SQL」といった専門用語の単語重要度より高い。
【0006】
このような場合、tf・idf法においては、出現頻度に基づいて単語重要度が計算されるため、本来ならば一般的な単語「状態」の単語重要度に比べて、単語重要度が高い「SQL」という専門用語の単語重要度が、一般的な単語「状態」と同じ値の単語重要度として計算される。したがって、tf・idf法により計算される単語重要度は、実際の値と大きく異なる場合があり、信頼性が低い。また、tf・idf法により計算された単語重要度をファクタとして検索を行った場合にも、当然のことながら検索結果の信頼性が低い。
【0007】
本発明は、上記に鑑みてなされたもので、単語重要度が高い単語を的確に判断することができるとともに、短時間でしかも検索者のスキルに依存することなく信頼性が高い検索結果を得ることができる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するために、請求項1にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出手段(後述する一実施の形態の単語抽出部30に相当)と、前記単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段(後述する一実施の形態の単語重要度計算処理部40に相当)と、前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段(後述する一実施の形態の単語重要度計算処理部40に相当)と、前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段(後述する一実施の形態の単語重要度計算処理部40に相当)とを備えることを特徴とする。
【0009】
この請求項1にかかる発明によれば、単語抽出手段により、複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択手段により、単語抽出手段の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数手段では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択手段により選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算手段では、計数手段における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【0010】
このように、請求項1にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択手段により選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となる。
【0011】
また、請求項2にかかる発明は、請求項1に記載の単語重要度計算装置において、前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする。
【0012】
この請求項2にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、単語重要度の計算条件を変えることが可能となり、汎用性が向上する。
【0013】
また、請求項3にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第1の単語抽出手段(後述する一実施の形態の単語抽出部30に相当)と、前記第1の単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段(後述する一実施の形態の単語重要度計算処理部40に相当)と、前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段(後述する一実施の形態の単語重要度計算処理部40に相当)と、前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段(後述する一実施の形態の単語重要度計算処理部40に相当)と、検索キーである入力文に含まれる単語を抽出する第2の単語抽出手段(後述する一実施の形態の単語抽出部52に相当)と、前記第1の単語抽出手段における一つの被検索対象文書に対応する抽出結果と前記第2の単語抽出手段の抽出結果とを、被検索対象文書毎に順次比較する比較手段(後述する一実施の形態の検索部51に相当)と、前記比較手段の比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算手段(後述する一実施の形態の検索部51に相当)と、前記類似度計算手段の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力手段(後述する一実施の形態の出力部70に相当)とを備えることを特徴とする。
【0014】
この請求項3にかかる発明によれば、第1の単語抽出手段により、複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択手段により、第1の単語抽出手段の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数手段では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択手段により選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算手段では、計数手段における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【0015】
そして、すべての計算対象単語の単語重要度が計算された状態において、検索キーである入力文が入力されると、第2の単語抽出手段により上記入力文に含まれる単語が抽出される。つぎに、比較手段により、第1の単語抽出手段における抽出結果と第2の単語抽出手段における抽出結果が比較され、類似度計算手段により、共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度が計算される。最後に、出力手段では、類似度が高い被検索対象文書が検索結果として出力される。
【0016】
このように、請求項3にかかる発明によれば、入力文に含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度を計算し、この類似度に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上する。
【0017】
また、請求項3にかかる発明によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができる。
【0018】
さらに、請求項3にかかる発明によれば、入力文から単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができる。
【0019】
また、請求項4にかかる発明は、請求項3に記載の文書検索装置において、前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする。
【0020】
この請求項4にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、検索条件を変えることが可能となり、汎用性が向上する。
【0021】
また、請求項5にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出工程(後述する一実施の形態のステップSA2に相当)と、前記単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程(後述する一実施の形態のステップステップSB1およびステップSB2に相当)と、前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程(後述する一実施の形態のステップSB4およびステップSB5に相当)と、前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程(後述する一実施の形態のステップSB6に相当)とをコンピュータに実行させるための単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0022】
この請求項5にかかる発明によれば、単語抽出工程において複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択工程において単語抽出工程の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数工程では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択工程において選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算工程では、計数工程における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【0023】
このように、請求項5にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択工程において選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となる。
【0024】
また、請求項6にかかる発明は、複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第1の単語抽出工程(後述する一実施の形態のステップSA2に相当)と、前記第1の単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程(後述する一実施の形態のステップステップSB1およびステップSB2に相当)と、前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程(後述する一実施の形態のステップSB4およびステップSB5に相当)と、前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程(後述する一実施の形態のステップSB6に相当)と、検索キーである入力文に含まれる単語を抽出する第2の単語抽出工程(後述する一実施の形態のステップSC2に相当)と、前記第1の単語抽出工程における一つの被検索対象文書に対応する抽出結果と前記第2の単語抽出工程の抽出結果とを、被検索対象文書毎に順次比較する比較工程(後述する一実施の形態のステップSD1〜ステップSD3に相当)と、前記比較工程における比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算工程(後述する一実施の形態のステップSD5に相当)と、前記類似度計算工程の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力工程(後述する一実施の形態のステップSC9に相当)とをコンピュータに実行させるための文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0025】
この請求項6にかかる発明によれば、第1の単語抽出工程において複数の被検索対象文書を対象として、被検索対象文書毎に単語が抽出されると、選択工程において第1の単語抽出工程の抽出結果から計算対象単語が一つづつ選択され、さらに該計算対象単語を含む被検索対象文書が選択される。つぎに、計数工程では、被検索対象文書における計算対象単語以外の単語が計数され、さらに、選択工程において選択されたすべての被検索対象文書の文書数が計数される。最後に、単語重要度計算工程では、計数工程における二つの計数結果に基づいて、計算対象単語の単語重要度が計算される。
【0026】
そして、すべての計算対象単語の単語重要度が計算された状態において、検索キーである入力文が入力されると、第2の単語抽出工程において上記入力文に含まれる単語が抽出される。つぎに、比較工程において、第1の単語抽出工程における抽出結果と第2の単語抽出工程における抽出結果が比較され、類似度計算工程において、共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度が計算される。最後に、出力工程では、類似度が高い被検索対象文書が検索結果として出力される。
【0027】
このように、請求項6にかかる発明によれば、入力文に含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度を計算し、この類似度に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上する。
【0028】
また、請求項6にかかる発明によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができる。
【0029】
さらに、請求項6にかかる発明によれば、入力文から単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができる。
【0030】
【発明の実施の形態】
以下、図面を参照して本発明にかかる単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体の一実施の形態について詳細に説明する。
【0031】
図1は、本発明にかかる一実施の形態の構成を示すブロック図である。この図において、記憶部10は、たとえば、ハードディスク装置であり、後述する単語抽出部30および検索処理部50にアクセスされる。この記憶部10には、図8(a)に示した複数の被検索対象の文書(以下、被検索対象文書という)のデータがそれぞれ記憶されている。これらの被検索対象文書には、文書番号がそれぞれ付与されている。これらの被検索対象文書は、後述する単語重要度計算処理および検索処理の対象とされる文書であり、企業におけるユーザサポートデスクの担当者に、ユーザから問い合わせがあった質問文である。
【0032】
図8(a)において、被検索対象文書「SQL*Loader・・・十分。原因と対処方法を教えてほしい。」には、文書番号「7E1−8124」が付与されており、被検索対象文書「毎日・・・終了する。・・・教えてほしい。」には、文書番号「7E1−8353」が付与されている。また、被検索対象文書「DAT装置・・・教えてほしい。」には、文書番号「7E2−3436」が付与されており、被検索対象文書「MqXS/JM・・・教えてほしい。」には、文書番号「7E1−8557」が付与されており、被検索対象文書「SQL*Plus・・・・出来ている。」には、文書番号「7E2−2932」が付与されている。
【0033】
以下の説明においては、図8(a)に示した都合五つの被検索対象文書を上述した文書番号により区別する。また、実際には、膨大な数の被検索対象文書のデータが記憶部10に記憶されているが、以下においては、説明を簡略化するために、図8(a)に示した五つの被検索対象文書のデータが記憶部10に記憶されているものとして説明する。
【0034】
記憶部20は、記憶部10と同様にして、たとえば、ハードディスク装置であり、後述する単語重要度計算処理部40および検索処理部50にアクセスされる。この記憶部20には、図8(b)に示した文書番号「7E1−8124」〜「7E1−8557」にそれぞれ対応する単語群のデータ、およびこれら単語群にそれぞれ対応する被検索対象文書(図8(a)参照)が記憶されている。なお、記憶部20には、図8(a)に示した文書番号「7E2−2932」の被検索対象文書に対応する単語群も記憶されているが、図8(b)においては、該単語群の図示が省略されている。これらの単語群は、後述する単語抽出部30により、被検索対象文書(図8(a)参照)から抽出された単語の集合である。
【0035】
具体的には、図8(b)に示した文書番号「7E1−8124」の単語群(「SQL」、「Loader」、・・・、「対処方法」)は、図8(a)に示した文書番号「7E1−8124」の被検索対象文書から抽出されたものである。同様にして、文書番号「7E1−8353」〜「7E1−8557」のそれぞれの単語群(図8(b)参照)は、文書番号「7E1−8353」〜「7E1−8557」(図8(a)参照)のそれぞれの被検索対象文書から抽出されたものである。
【0036】
単語抽出部30は、記憶部10に記憶されている一つの被検索対象文書(図8(a)参照)を読み出し、この被検索対象文書から、被検索対象文書を構成する単語を抽出する。ここで単語抽出部30においては、さまざまな単語抽出手法が適用可能である。たとえば、第1の単語抽出方法としては、日本語文の場合、被検索対象文書においてひらがなを除く文字種の文字(たとえば、英数字、漢字等)が二文字以上連続しているとき、当該文字列を一単語として抽出する手法がある。また、この手法において、欧文の場合には、被検索対象文書において二つのスペース(空白)に挟まれた文字列が一単語として抽出される。
【0037】
また、第2の単語抽出手法としては、形態素解析を用いた手法がある。ここで形態素解析とは、被検索対象文書を構成する文がどのような形態素(単語)で構成され、かつその形態素の品詞が何であるのかを、辞書および言語モデルを参照しつつ解析することをいう。たとえば、「今日は会社に行かなかった」という日本語文を形態素解析した場合には、つぎのような解析結果となる。
【0038】
(形態素) (品詞)
「今日」 副詞的名詞
「は」 係助詞
「会社」 名詞
「に」 格助詞
「行」 カ行5段動詞
「か」 未然形活用語尾
「な」 助動詞
「かっ」 形容詞連用形活用語尾
「た」 助動詞
【0039】
また、単語抽出部30は、記憶部10に記憶されているすべての被検索対象文書について単語抽出を行い、抽出した単語群(図8(b)参照)のデータを当該被検索対象文書のデータとともに記憶部20に記憶させる。この単語抽出部30の動作の詳細については後述する。
【0040】
単語重要度計算処理部40は、記憶部20に記憶されたすべての単語について、後述する計算式に基づいて、定量的に単語重要度をそれぞれ計算する。ここで単語重要度は、後述する文書検索における当該単語の重要性を表す指標である。つまり、単語重要度計算処理部40においては、被検索対象文書の特徴を表す単語は単語重要度が高い値として計算され、逆に、被検索対象文書の特徴を表さない一般的な単語は重要度が低い値として計算される。
【0041】
たとえば、被検索対象文書が通信制御技術に関するものであり、かつ当該被検索対象文書に「通信制御」、「以降」、「再度」という単語が含まれている場合、単語「通信制御」は、当該被検索対象文書の特徴を表す単語であるため、単語重要度が高い値として計算され、逆に一般的な単語「以降」および「再度」は、当該被検索対象文書の特徴を表す単語でないため、単語重要度が低い値として計算される。
【0042】
また、単語重要度計算処理部40は、記憶部20に記憶されたすべての単語について単語重要度を計算した後、この単語重要度のデータを記憶部20に記憶させる。さらに、単語重要度計算処理部40は、上記単語重要度の他に、後述する文書検索に用いられる検索用パラメータを計算式に基づいて計算し、計算結果を記憶部20に記憶させる。なお、単語重要度計算処理部40の動作の詳細については後述する。
【0043】
検索処理部50は、入力部60より入力される自然言語の入力文を検索キーとして、記憶部10に記憶されている複数の被検索対象文書の中から上記入力文との類似度に基づいて被検索対象文書を検索し、検索結果を出力部70に表示する。ここで、入力部60は、キーボード、マウス等であり、出力部70は、CRT(Cathode-Ray Tube)、LCD(Liquid Crystal Display)である。なお、出力部70は、プリンタであってもよい。
【0044】
上記検索処理部50は、検索部51および単語抽出部52から構成されている。単語抽出部52は、入力部60より入力された入力文から、前述した単語抽出部30における単語抽出の手法と同様の手法により、すべての単語を単語群として抽出する。検索部51は、単語抽出部52により抽出された単語群、記憶部20に記憶された被検索対象文書に関する単語群および単語重要度に基づいて、入力文と被検索対象文書との間の類似度を後述する計算式により計算する。また、検索部51は、類似度が高い被検索対象文書を検索結果として出力部70に表示させる。これら検索部51および単語抽出部52の動作の詳細については後述する。
【0045】
つぎに、一実施の形態における動作を詳細に説明する前に、図2および図3を参照して一実施の形態における動作の概要について簡単に説明する。図2は、一実施の形態における単語重要度計算処理の概要を説明する図であり、図3は、一実施の形態における検索処理の概要を説明する図である。図2および図3においては、図1の各部にそれぞれ対応する部分には同一の符号を付ける。
【0046】
図2に示した記憶部10には、被検索対象の文書例としてつぎの文書1〜3、・・・のそれぞれのデータが記憶されているものとする。
文書1:「AAAにおいてBBBはCCCである」
文書2:「EEEのDDDはAAAに関するFFFである」
文書3:「BBBはAAAのDDDである」
・・・
【0047】
この状態において、まず、単語抽出部30は、記憶部10から文書1のデータを読み込んだ後、前述した単語抽出手法により、文書1に含まれるすべての単語を抽出する。この場合、文書1からは、単語「AAA」、「BBB」および「CCC」が抽出される。つぎに、単語抽出部30は、抽出結果を単語群として文書1に関連付けて記憶部20に記憶させる。
【0048】
以後、単語抽出部30は、文書1の場合と同様にして、文書2、文書3、・・・の順で、それぞれの文書に含まれるすべての単語を抽出した後、抽出結果に対応する文書2、3、・・・とともに記憶部20に記憶させる。この場合、文書2からは、単語「EEE」、「DDD」、「AAA」および「FFF」が抽出され、文書3からは、単語「BBB」、「AAA」および「DDD」が抽出される。そして、最後の文書(図示略)の単語抽出が終了した時点において、記憶部20には、単語群(「AAA」、「BBB」、「CCC」)、(「EEE」、「DDD」、「AAA」、「FFF」)、(「BBB」、「AAA」、「DDD」)、・・・のデータとともに、それぞれの単語群に対応する文書1、文書2、文書3、・・・のデータが記憶されている。
【0049】
つぎに、単語重要度計算処理部40は、記憶部20に記憶されている単語群の中から一つの単語(以下、単語wという)として、たとえば、単語「AAA」のデータを読み込んだ後、文書1〜3、・・・の中から、上記単語「AAA」を含むすべての文書のデータを読み込む。この場合、単語重要度計算処理部40は、単語「AAA」を含む文書1〜3(以下、文書群Aという)を記憶部20から読み込む。
【0050】
つぎに、単語重要度計算処理部40は、上記文書群A(文書1〜3)に含まれるすべての単語(以下、単語群Cという)のデータを記憶部20から読み込む。この場合、単語群Cは、つぎの複数の単語の集合である。
文書1:「AAA」、「BBB」、「CCC」
文書2:「EEE」、「DDD」、「AAA」、「FFF」
文書3:「BBB」、「AAA」、「DDD」
【0051】
つぎに、単語重要度計算処理部40は、上記単語群Cに含まれる単語w(この場合、「AAA」)以外の単語を計数し、計数結果を共出語種数Cw とする。ただし、単語群Cにおける同一の単語は、一つの単語として計数される。上記共出語種数Cw は、単語wを含む被検索対象文書に含まれる共出語の種類であり、共出語とは、被検索対象文書において単語wと共に出現する単語をいう。この場合、共出語種数Cw は、「5」(「BBB」、「CCC」、「DDD」、「EEE」および「FFF」の総数)である。
【0052】
つぎに、単語重要度計算処理部40は、文書群Aに含まれる被検索対象文書を計数し、この計数結果を出現文書数Nw とする。この場合、出現文書数Nw は、「3」(文書1、文書2および文書3の総数)である。つぎに、単語重要度計算処理部40は、上述した共出語種数Cw および出現文書数Nw およびつぎの(式1)に基づいて、単語wの単語重要度Iw を求める。なお、(式1)の詳細な説明については後述する。
【0053】
Iw =a1−(Gw /a2)
Gw =(Cw /Nw)*A1w*A2w
A1w=1/(1+b1*exp(−Nw/b2))
A2w=1/(c1+c2/Nw) ・・・(式1)
【0054】
この場合には、上記(式1)より、単語w(=単語「AAA」)の単語重要度Iw が「0.4」として算出されたものとする。つぎに、単語重要度計算処理部40は、単語w(=「AAA」)の単語重要度Iw(=0.4)とともに出現文書に関するデータを記憶部20に記憶させる。ここで、出現文書とは、単語wが出現している被検索対象文書をいい、この場合、上記出現文書は、文書1〜3である。
【0055】
以後、単語重要度計算処理部40は、単語w(=「AAA」)の場合と同様にして、記憶部20に記憶されている他の単語w(「BBB」、「CCC」、・・・)のすべてについて単語重要度Iw を計算した後、単語重要度Iw とともに出現文書のデータを記憶部20に記憶させる(図2参照)。
【0056】
そして、単語重要度計算処理部40による単語重要度計算処理が終了すると、図3に示した検索処理部50による検索処理が実行可能となる。すなわち、検索処理において、入力部60より自然言語の入力文例「CCCまたはEEEにおいてAAAに関するものは?」のデータが入力されると、検索処理部50の単語抽出部52は、単語抽出部30と同様の単語抽出手法により、上記入力文(以下、入力文Qという)に含まれるすべての単語を抽出する。この場合、単語抽出部52は、入力文Qから単語「CCC」、「EEE」および「AAA」を抽出し、これらを単語群Wq とする。
【0057】
つぎに、検索処理部50の検索部51は、記憶部10に記憶されている文書1〜3、・・・の中から、一つの文書(以下、文書Aq という)のデータを読み込む。この場合、検索部51は、文書Aq として文書1を読み込んだものとする。つぎに、検索部51は、文書Aq (=文書1)に含まれるすべての単語のデータを記憶部20から読み込み、これらを単語群Wa とする。この場合、単語群Wa は、文書1に含まれる単語「AAA」、「BBB」および「CCC」からなる。
【0058】
つぎに、検索部51は、以下に示した入力文Qに対応する単語群Wq と文書Aq に対応する単語群Wa とに共通に含まれる単語を抽出し、抽出結果を単語群Waqとする。この場合の単語群Waqは、単語「AAA」および「CCC」からなる。
単語群Wq :「AAA」 「CCC」 「EEE」
単語群Wa :「AAA」 「BBB」 「CCC」
【0059】
つぎに、検索部51は、上記単語群Waqを構成する単語「AAA」および「CCC」のそれぞれの単語重要度Iw のデータを記憶部20から読み出した後、単語「AAA」の単語重要度Iw を二乗した値と単語「CCC」の単語重要度Iw を二乗した値との和を、文書Aq (=文書1)と入力文Qとの間の類似度Pa とする。
【0060】
以後、検索部51は、文書Aq (=文書1)の場合と同様にして、記憶部10に記憶されている他の文書2、3、・・・のすべてについて類似度Pa を計算する。そして、すべての類似度Pa に関する計算が終了すると、検索部51は、図3に示したように、類似度Pa が高い文書から順次出力部70に表示させる。同図に示した出力例では、出力部70には、類似度Pa が最も高い類似度順位1の文書1(「AAAにおいてBBB・・・」)、この文書1のつぎに類似度Pa が高い文書2(「EEEのDDDは・・・」)が検索結果として表示される。
【0061】
つぎに、図4〜図7にそれぞれ示したフローチャートを参照しつつ一実施の形態の動作について詳細に説明する。図4は、一実施の形態における単語情報設定処理を説明するフローチャートである。この単語情報設定処理は、被検索対象文書から単語を抽出し、抽出された単語を単語群として記憶部20に記憶させる処理である。
【0062】
また、図5は、一実施の形態における単語重要度計算処理を説明するフローチャートである。この単語重要度計算処理は、記憶部20に記憶された上記単語群におけるそれぞれの単語の単語重要度を計算する処理である。図6は、一実施の形態における検索処理を説明するフローチャートである。この検索処理は、記憶部10に記憶された複数の被検索対象文書の中から、検索キーとしての入力文に類似している被検索対象文書を検索する処理である。
【0063】
(単語情報設定処理)
はじめに、図4を参照して単語情報設定処理について説明する。この単語情報設定処理において、図1に示した記憶部10には、あらかじめ図8(a)に示した文書番号「7E1−8124」〜「7E2−2932」の都合五つの被検索対象文書のデータが記憶されているものとする。この状態において、図4に示したステップSA1では、単語抽出部30(図1参照)は、上記五つの被検索対象文書のデータうち、たとえば、文書番号「7E1−8124」の被検索対象文書のデータを文書dのデータとして記憶部10から読み込んだ後、ステップSA2へ進む。
【0064】
ステップSA2では、単語抽出部30は、前述した単語抽出手法により、上記文書dに含まれる単語をすべて抽出し、抽出結果を単語群Wとした後、ステップSA3へ進む。この場合、単語群Wは、図8(b)に示した文書番号「7E1−8124」の単語群(「SQL」、・・・、「対処方法」)である。ステップSA3では、単語抽出部30は、上記単語群Wから単語を一つ取り出し、これを単語wとした後、ステップSA4へ進む。この場合、上記単語wは、図8(b)に示した文書番号「7E1−8124」に対応する単語「SQL」である。
【0065】
ステップSA4では、単語抽出部30は、上記単語w(=単語「SQL」)が文書d(=文書番号「7E1−8124」の被検索対象文書)に含まれているという情報を記憶部20に書き込んだ後、ステップSA5へ進む。この場合、単語抽出部30は、上記情報として単語wに対応付けて文書番号「7E1−8124」の被検索対象文書を記憶部20に書き込む。ステップSA5では、単語抽出部30は、ステップSA2で抽出した単語群Wにおけるすべての単語に関する処理が終了したか否かを判断する。ここでいう処理とは、ステップSA3およびステップSA4の処理をいう。この場合、単語抽出部30は、ステップSA5の判断結果を「No」として、ステップSA3に戻る。
【0066】
以後、ステップSA3では、上述した動作と同様にして、単語群Wからつぎの単語wが取り出された後、ステップSA4では、上記単語wが文書dに含まれているという情報が記憶部20に書き込まれる。そして、図8(b)に示した文書番号「7E1−8124」に対応する単語群における最後の単語w(=単語「対処方法」)に関する処理が終了すると、単語抽出部30は、ステップSA5の判断結果を「Yes」として、ステップSA6へ進む。
【0067】
ステップSA6では、単語抽出部30は、記憶部10に記憶されているすべての被検索対象文書に関する一連の処理(ステップSA2〜ステップSA4)が終了したか否かを判断する。つまり、ステップSA6では、単語抽出部30は、図8(a)に示した五つの被検索対象文書における単語抽出が終了したか否かを判断する。この場合、単語抽出部30は、ステップSA6の判断結果を「No」として、ステップSA1に戻る。
【0068】
以後、単語抽出部30は、上述した文書d(=文書番号「7E1−8124」の被検索対象文書)の場合と同様にして、文書番号「7E1−8353」以降の被検索対象文書に関する単語を抽出する処理を行う。そして、最後の文書番号「7E2−2932」の被検索対象文書に関する単語の抽出処理が終了すると、単語抽出部30は、ステップSA6の判断結果を「Yes」として、単語情報設定処理を終了する。この時点では、記憶部20には、図8(b)に示した文書番号「7E1−8124」〜「7E1−8557」および図示しない文書番号「7E2−2932」にそれぞれ関する単語群Wが記憶部20に記憶されている。加えて、記憶部20には、単語wが文書dに含まれているという情報が単語毎にそれぞれ記憶されている。
【0069】
(単語重要度計算処理)
つぎに、図5を参照して単語重要度計算処理について説明する。この単語重要度計算処理において、記憶部20には、図8(a)に示した文書番号「7E1−8124」〜「7E2−2932」にそれぞれ対応する単語群のデータが記憶されているものとする。この状態において、図5に示したステップSB1では、単語重要度計算処理部40(図1参照)は、記憶部20から一つの単語wのデータを読み込んだ後、ステップSB2へ進む。この場合、単語重要度計算処理部40は、単語wとして図8(b)に示した単語「原因」を記憶部20から読み込んだものとする。
【0070】
ステップSB2では、単語重要度計算処理部40は、単語w(=単語「原因」)を含む被検索対象文書のデータを記憶部20から読み込んだ後、ステップSB3へ進む。この場合、単語重要度計算処理部40は、単語w(=単語「原因」)を含む被検索対象文書として、図8(a)に示した文書番号「7E1−8124」〜「7E1−8557」の被検索対象文書のデータを記憶部20から読み込み、これらの被検索対象文書を文書群Aとする。
【0071】
ステップSB3では、単語重要度計算処理部40は、上記文書群Aに含まれるすべての単語のデータを単語群Cとして記憶部20から読み込んだ後、ステップSB4へ進む。この場合、単語重要度計算処理部40は、単語群Cのデータとして、図8(b)に示した文書番号「7E1−8124」〜「7E1−8557」に対応する単語群のデータを記憶部20から読み込む。
【0072】
ステップSB4では、単語重要度計算処理部40は、読み込んだ単語群Cに含まれる単語w(=単語「原因」)以外の単語を計数した後、ステップSB5へ進む。ただし、この計数において、同一の単語(重複単語)は、一つの単語として計数される。ここで、図8(b)に示した単語群Cから重複単語を一つの単語とし、かつ単語w(=単語「原因」)を排除すると、上記単語群Cは、図8(c)に示した単語群となる。したがって、この場合、単語重要度計算処理部40は、図8(c)に示した単語群における単語の計数結果(=「36」)を前述した共出語種数Cw とする。
【0073】
ステップSB5では、単語重要度計算処理部40は、単語w(=単語「原因」)を含む文書群Aに含まれる被検索対象文書を計数した後、ステップSB6へ進む。この場合、単語重要度計算処理部40は、上記文書群Aが、図8(a)に示した文書番号「7E1−8124」〜「7E1−8557」にそれぞれ対応する都合四つの被検索対象文書から構成されているため、計数結果(=「4」)を前述した出現文書数Nw とする。
【0074】
ステップSB6では、単語重要度計算処理部40は、前述した(式1)に基づいて、単語w(=単語「原因」)の単語重要度Iw 等を求める。
【0075】
ここで、上記(式1)は、単語に関するつぎの(1)項および(2)項の特性に基づいて導出された式である。
(1)文書の特徴を表さない一般的な単語は、様々なトピックの文書において出現する。したがって、文書データ全体においては、一般的な単語と同一の文書に出現する前述した共出語の種類が多岐にわたる。
(2)文書の特徴を表す特徴的な単語は、限定されたトピックの文書において出現する傾向がある。したがって、特徴的な単語と同一の文書に出現する共出語の種類は限定される傾向がある。
【0076】
上記(1)項および(2)項より、(式1)においては、共出語の種類(前述した共出語種数Cw )が限定される度合いを単語重要度Iw としている。具体的には、(式1)において、Iw は単語wの単語重要度である。a1 およびa2 は、単語重要度Iw のダイナミックレンジをそれぞれ決定するパラメータであり、いずれも正の値をとる。たとえば、パラメータa1 およびa2 は、「1.0」および「2.4」である。
【0077】
また、Cw 、Nw は、ステップSB4およびステップSB5(図5参照)において求められた単語の共出語種数および出現文書数である。Gw は、共出語種数Cw と出現文書数Nw との比率(Cw /Nw :以下、共出語種比率という)に補正項A1wおよびA2wを付加したものであり、単語wの一般性を表す指標(以下、一般性指標Gw という)である。したがって、一般性が高い単語wほど、その一般性指標Gw が大きくなる。
【0078】
補正項A1wは、ある単語wに着目した場合に、当該単語wに関する出現文書数Nw が増加するのに伴って共出語種比率(Cw /Nw )が減少することによる単語重要度計算に対する影響を減少させるためのものである。また、b1 およびb2 は、補正項A1wによる補正の強さをそれぞれ決定するパラメータであり、たとえば、「5.0」および「572.27」である。
【0079】
補正項A2wは、出現回数が少ない単語w(稀出単語)の単語重要度を高く見積もるためのものである。c1 およびc2 は、補正項A2wによる見積もりの高さをそれぞれ決定するパラメータであり、たとえば、「0.6」および「16.0」である。
【0080】
図5に戻り、ステップSB6では、単語重要度計算処理部40は、ステップSB4で求められた単語w(=単語「原因」)に関する共出語種数Cw (=36)およびステップSB5で求められた単語w(=単語「原因」)に関する出現文書数Nw (=4)を、上述した(式1)に代入することにより、単語w(=単語「原因」)の単語重要度Iw (=0.865)を求めた後、ステップSB7へ進む。
【0081】
以下に、(式1)における単語重要度Iw の計算過程を示す。
【0082】
ステップSB7では、単語重要度計算処理部40は、単語w(=単語「原因」)に関する単語重要度Iw(=0.865)、共出語種数Cw(=36)および出現文書数Nw (=4)のそれぞれのデータを記憶部20に書き込んだ後、ステップSB8へ進む。ステップSB8では、単語重要度計算処理部40は、記憶部20に記憶されている単語群(図8(b)参照)におけるすべての単語に関する処理(単語重要度計算)が終了したか否かを判断する。この場合、単語重要度計算処理部40は、ステップSB8の判断結果を「No」として、ステップSB1へ戻り、上述した工程を繰り返す。
【0083】
以後、単語重要度計算処理部40は、上述した単語w(=単語「原因」)場合と同様にして、他の単語について共出語種数Cw 、出現文書数Nw 、単語重要度Iw を求め、これらを記憶部20に書き込む。そして、最後の単語wに関する計算が終了すると、単語重要度計算処理部40は、ステップSB8の判断結果を「Yes」として、単語重要度計算処理を終了する。この時点では、記憶部20には、図8(a)に示した文書番号「7E1−8124」〜「7E2−2932」に対応する五つの被検索対象文書に含まれるすべての単語に関する単語重要度Iw 、共出語種数Cw および出現文書数Nw に関するデータが記憶されている。
【0084】
(検索処理)
つぎに、図6および図7を参照して検索処理について説明する。この検索処理において、記憶部20には、図8(a)に示した文書番号「7E1−8124」〜「7E2−2932」に対応する五つの被検索対象文書に含まれるすべての単語に関する単語重要度Iw 、共出語種数Cw および出現文書数Nw に関するデータが記憶されているものとする。
【0085】
このような状態において、図6に示したステップSC1では、検索者は、図1に示した入力部60を用いて、検索キーとなる文書のデータを入力した後、検索開始を指示する。これにより、検索処理部50の単語抽出部52は、入力された文書のデータを入力文Qのデータとした後、ステップSC2へ進む。ステップSC2では、単語抽出部52は、前述した単語抽出手法により、上記入力文Qに含まれる単語をすべて抽出し、抽出結果を単語群Wq とする。
【0086】
つぎに、ステップSC3では、検索部51は、周知のベクトル空間法により単語群Wq から入力文Qに関する文書ベクトルVq を求めた後、ステップSC4へ進む。ステップSC4では、検索部51は、図8(a)に示した文書番号「7E1−8124」〜「7E2−2932」がそれぞれ付与された五つの被検索対象文書のうち、一つの被検索対象文書のデータを記憶部10から読み込み、これを文書Aq とした後、ステップSC5へ進む。この場合、文書Aq は、文書番号「7E1−8124」の被検索対象文書であるものとする。
【0087】
ステップSC5では、検索部51は、文書Aq に含まれるすべての単語のデータを記憶部20から読み出した後、これを単語群Wa とした後、ステップSC6へ進む。この場合、上記単語群Wa は、図8(b)に示した文書番号「7E1−8124」に関する単語群である。ステップSC6では、検索部51は、入力文Qと文書Aq との間の類似度を計算する類似度計算処理(図7参照)を実行する。
【0088】
すなわち、図7に示したステップSD1では、検索部51は、ステップSC2(図6参照)で抽出された単語群Wq およびステップSC5で読み込まれた単語群Wa から、入力文Qと文書Aq とに共通に含まれる単語を抽出し、抽出結果を単語群Waqとした後、ステップSD2へ進む。ステップSD2では、検索入力部51は、入力文Qと文書Aq との間、すなわち二つの文書間の類似度Pa に初期値「0」を代入した後、ステップSD3へ進む。
【0089】
ステップSD3では、検索部51は、ステップSD1で抽出された単語群Waqから一つの単語を抽出し、これを単語Wt とした後、ステップSD4へ進む。ステップSD4では、検索部51は、上記単語Wt の単語重要度のデータを記憶部20から読み込み、これを単語重要度It とした後、ステップSD5へ進む。ステップSD5では、検索部51は、上記単語重要度It を二乗した値を類似度Pa に加算した後、ステップSD6へ進む。ステップSD6では、検索部51は、ステップSD1で抽出された単語群Waqのすべての単語に関する処理が終了したか否かを判断する。ここでいう処理とは、ステップSD3〜ステップSD5までの一連の処理をいう。この場合、検索部51は、ステップSD6の判断結果を「No」として、ステップSD3に戻る。
【0090】
以後、検索部51は、上述した動作と同様にして、単語群Waq における他の単語Wt における単語重要度It を二乗した値を類似度Pa に加算する。そして、単語群Waqにおける最後の単語Wt に関する処理が終了すると、検索部51は、ステップSD6の判断結果を「Yes」として、ステップSD7へ進む。ステップSD7では、検索部51は、複数の単語Wt に関するそれぞれの単語重要度It の二乗和として計算された類似度Pa を文書Aq (ステップSC4:図6参照)と入力文Q(ステップSC1:図6参照)との文書間類似度とした後、図6に示したメインルーチンに戻る。
【0091】
つぎに、図6に示したステップSC7では、検索部51は、上述した文書Aq およびこれに対応する類似度Pa を検索結果として出力部70へ出力した後、ステップSC8へ進む。ステップSC8では、検索部51は、記憶部10に記憶されているすべての被検索対象文書に関する処理が終了したか否かを判断する。ここでいう処理とは、ステップSC4〜ステップSC7までの一連の処理をいう。この場合、検索部51は、ステップSC8の判断結果を「No」として、ステップSC4に戻る。
【0092】
以後、検索部51は、上述した動作と同様にして、図8(a)に示した文書番号「7E1−8124」以外の文書番号に対応する他の被検索対象文書についての処理を行う。そして、図8(a)に示した最後の被検索対象文書(たとえば、文書番号「7E2−2932」の被検索対象文書)に関する処理が終了すると、検索部51は、ステップSC8の判断結果を「Yes」として、ステップSC9へ進む。ステップSC9では、検索部51は、出力部70に対してすべての検索結果(文書Aq および類似度Pa )を類似度が高いものから順に出力するように指示を出した後、検索処理を終了する。これにより、出力部70には、検索結果として、入力文Qに類似する文書Aq および類似度Pa が、類似度が高い順に表示される。したがって、検索者は、たとえば、最も類似度が高い文書Aq を検索結果として利用する。
【0093】
以上説明したように、一実施の形態によれば、前述した(1式)に示した共出語種数Cw と出現文書数Nw という考え方を導入し、両者の共出語種比率(Cw /Nw )に基づいて、単語重要度Iw を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となる。
【0094】
また、一実施の形態によれば、入力文Qに含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文Qと被検索対象文書との間の類似度Pa を計算し、この類似度Pa に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上する。
【0095】
また、一実施の形態によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができる。
【0096】
さらに、一実施の形態によれば、自然言語の入力文Qから単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができる。
【0097】
ここで、発明者は、一実施の形態の効果を定量的に知るために、12000件の被検索対象文書に含まれる1666個の単語の単語重要度を上述した装置によりそれぞれ計算する評価試験を行った。図9(a)は、評価試験において重要度が高い単語の例であり、図9(b)は、上記評価試験において重要度が低い単語の例である。また、図9(a)および(b)において、「単語」は、単語重要度の計算対象であり、「出現事例数」は、前述した出現文書数Nw (ステップSB5参照)に対応しており、「重要度」は、前述した単語重要度Iw (ステップSB6参照)に対応している。また、図9(a)および(b)においては、被検索対象文書における出現頻度がほぼ同じ単語群についての評価試験の結果が図示されている。
【0098】
図9(a)および(b)からわかるように、「再度」、「確認」、「状態」等のように一般的な単語は、単語重要度が低く評価されているのに対して、「2051」、「製品名」、「SQL」等のように被検索対象文書の特徴を表す特徴的な単語は、単語重要度が高く評価されている。また、発明者は、上記評価試験の妥当性を確認するために、一般的な単語と特徴的な単語が正しく識別されているか否かを英和・和英辞典を用いて検証した。ここで、発明者は、英和・和英辞典として、研究社刊の新英和・和英中辞典(竹林・吉川・小川・コリック・日南田、田辺 編)を使用した。
【0099】
この検証の手法としては、上記英和・和英辞典の見出し語を一般的な単語と見なし、出現事例数が「50」以上の単語(352語)および出現事例数が「50」未満の単語(1314語)に関して、それぞれ単語重要度が上位50語の単語および下位50語の単語が上記見出し語になっているか否かを調査する手法をとった。この検証結果を図9(c)に示す。この図9(c)からわかるように、発明者が行った評価試験においては、一般的な単語と特徴的な単語とが識別されている。
【0100】
以上本発明にかかる一実施の形態について図面を参照して詳述してきたが、具体的な構成例はこの一実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。たとえば、前述した一実施の形態においては、単語重要度計算装置の機能または文書検索装置の機能を実現するための単語重要度計算プログラムまたは文書検索プログラムを図10に示したコンピュータ読み取り可能な記録媒体200に記録して、この記録媒体200に記録された単語重要度計算プログラムまたは文書検索プログラムを同図に示したコンピュータ100に読み込ませ、実行することにより単語重要度計算または文書検索を行うようにしてもよい。
【0101】
図10に示したコンピュータ100は、上記単語重要度計算プログラム、文書検索プログラムを実行するCPU101と、キーボード、マウス等の入力装置102と、各種データを記憶するROM(Read Only Memory)103と、演算パラメータ等を記憶するRAM(Random Access Memory)104と、記録媒体200から単語重要度計算プログラム、文書検索プログラムを読み取る読取装置105と、ディスプレイ、プリンタ等の出力装置106と、装置各部を接続するバスBUとから構成されている。
【0102】
CPU101は、読取装置105を経由して記録媒体200に記録されている単語重要度計算プログラムまたは文書検索プログラムを読み込んだ後、単語重要度計算プログラムまたは文書検索プログラムを実行することにより、前述した単語重要度計算または文書検索を行う。なお、記録媒体200には、光ディスク、フロッピーディスク、ハードディスク等の可搬型の記録媒体が含まれることはもとより、ネットワークのようにデータを一時的に記録保持するような伝送媒体も含まれる。
【0103】
また、一実施の形態においては、図1に示したように、単語情報設定処理、単語重要度計算処理および検索処理という三つの処理を一つの装置で実行する例について説明したが、これに限られることなく、図11〜図13にそれぞれ示した変形例2のように、上記三つの処理をそれぞれ独立した装置で実行するようにしてもよい。
【0104】
つまり、図11に示した例では、記憶部10、記憶部20および単語抽出部30から単語情報設定処理を実行する単語情報設定装置が構成されおり、図12に示した例では、記憶部20および単語重要度計算処理部40から単語重要度計算装置が構成されている。また、図13に示した例では、記憶部10、記憶部20、検索処理部50、検索部51、単語抽出部52、入力部60および出力部70から文書検索装置が構成されている。なお、図11〜図13においては、図1に対応する部分には同一の符号を付けその説明を省略する。
【0105】
また、一実施の形態においては、図1に示した記憶部10および記憶部20としてハードディスク装置を用いた例について説明したが、これに代えて、可搬型の記録媒体に対する書き込み、読み出しを行う記憶装置を用いてもよい。この場合、可搬型の記録媒体としては、CD−ROM(Compact Disk-Read Only Memory)、光磁気ディスク、フロッピーディスク等が挙げられる。
【0106】
さらに、一実施の形態においては、一つの被検索対象文書のすべての範囲(単語)を対象として共出語を計数しこの計数結果を共出語種数Cw (ステップSB4:図5参照)とする例について説明したが、一つの被検索対象文書において共出語を計数する範囲は、適宜変更される。たとえば、一つの被検索対象文書において共出語を計数する範囲は、つぎの(A)項〜(C)項の範囲としてもよい。なお、(A)項〜(C)項以外の範囲であっても本発明に含まれる。
(A)被検索対象文書において単語w(ステップSB4:図5参照)を含む一つの段落を共出語の計数範囲とする。
(B)被検索対象文書において単語wを含む一つの文を共出語の計数範囲とする。
(C)被検索対象文書において単語wよりn単語前に存在する単語から、単語wよりn単語後に存在する単語までの範囲。ただしnは自然数である。
【0107】
ここで、被検索対象文書としてつぎの二つの文からなるものを例示する。
「MqXS/JMを経由し、バッチプログラムにてORACLEの更新を実行後、10分ぐらいで、異常終了した。原因と対処方法を教えてほしい。」
【0108】
上記被検索対象文書に対して(A)項の範囲を適用した場合には、単語wを「ORACLE」とすると、一つの段落(MqXS/JM・・・教えてほしい。)が共出語の計数範囲となる。したがって、この場合、「ORACLE」に関する共出語は、「MqXS/JM」、「経由」、「バッチプログラム」、「更新」、「実行後」、「10」、「異常終了」、「原因」および「対処方法」である。
【0109】
同様にして、被検索対象文書に対して(B)項の範囲を適用した場合には、単語wを「ORACLE」とすると、一つの文(MqXS/JM・・・異常終了した。)が共出語の計数範囲となる。したがって、この場合、「ORACLE」に関する共出語は、「MqXS/JM」、「経由」、「バッチプログラム」、「更新」、「実行後」、「10」および「異常終了」である。
【0110】
さらに、被検索対象文書に対して(C)項の範囲を適用した場合には、単語wを「ORACLE」とし、かつn=2とすると、「ORACLE」より2単語前に存在する「経由」から、2単語後に存在する「実行後」までが共出語の計数範囲となる。したがって、この場合、「ORACLE」に関する共出語は、「経由」、「バッチプログラム」、「更新」および「実行後」である。このように、一つの被検索対象文書において共出語を計数する範囲を適宜変更できるようにした場合には、文書の検索条件(単語重要度の計算条件)を変えて文書検索(単語重要度の計算)が可能となることから、汎用性が向上する。
【0111】
【発明の効果】
以上説明したように、請求項1にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択手段により選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となるという効果を奏する。
【0112】
また、請求項2にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、単語重要度の計算条件を変えることが可能となり、汎用性が向上するという効果を奏する。
【0113】
また、請求項3、6にかかる発明によれば、入力文に含まれる単語を抽出した抽出結果と被検索対象文書に含まれる単語を抽出した抽出結果とを比較し、両者に共通の単語に関する単語重要度に基づいて、入力文と被検索対象文書との間の類似度を計算し、この類似度に基づいて検索結果を求めるようにしたので、単語重要度が考慮された検索結果が得られることから、検索結果の信頼性が向上するという効果を奏する。
【0114】
さらに、請求項3、6にかかる発明によれば、単語重要度が考慮された検索結果が得られることから、検索者にとって重要度が低い被検索対象文書が検索結果とされることがないため検索時間を短縮することができるという効果を奏する。
【0115】
加えて、請求項3、6にかかる発明によれば、入力文から単語を抽出し、この抽出結果と、単語重要度とに基づく文書検索が行われるため、従来のキーワード検索に比して、検索者のスキルに左右されることなく、的確に文書検索を行うことができるという効果を奏する。
【0116】
また、請求項4にかかる発明によれば、計算対象単語以外の単語を計数すべき被検索対象文書における範囲を計算対象単語を含む任意の範囲として変更できるため、検索条件を変えることが可能となり、汎用性が向上するという効果を奏する。
【0117】
また、請求項5にかかる発明によれば、被検索対象文書における計算対象単語以外の単語の計数結果、および選択工程において選択されたすべての被検索対象文書の文書数の計数結果に基づいて、単語重要度を求めるようにしたので、被検索対象文書に含まれる重要度が高い単語を的確に判断することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明にかかる一実施の形態の構成を示すブロック図である。
【図2】同一実施の形態における単語重要度計算処理の概要を説明する図である。
【図3】同一実施の形態における検索処理の概要を説明する図である。
【図4】同一実施の形態における単語情報設定処理を説明するフローチャートである。
【図5】同一実施の形態における単語重要度計算処理を説明するフローチャートである。
【図6】同一実施の形態における検索処理を説明するフローチャートである。
【図7】図6に示した類似度計算処理を説明するフローチャートである。
【図8】同一実施の形態において用いられる文書例を示す図である。
【図9】同一実施の形態の効果を説明する図である。
【図10】同一実施の形態の変形例1を示すブロック図である。
【図11】同一実施の形態の変形例2を示すブロック図である。
【図12】同一実施の形態の変形例2を示すブロック図である。
【図13】同一実施の形態の変形例2を示すブロック図である。
【符号の説明】
10 記憶部
20 記憶部
30 単語抽出部
40 単語重要度計算処理部
50 検索処理部
51 検索部
52 単語抽出部
100 コンピュータ
200 記録媒体
Claims (6)
- 複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出手段と、
前記単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段と、
前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段と、
前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段と、
を備えることを特徴とする単語重要度計算装置。 - 前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする請求項1に記載の単語重要度計算装置。
- 複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第1の単語抽出手段と、
前記第1の単語抽出手段の抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択手段と、
前記選択手段により選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択手段により選択されたすべての被検索対象文書の文書数を計数する計数手段と、
前記計数手段の計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算手段と、
検索キーである入力文に含まれる単語を抽出する第2の単語抽出手段と、
前記第1の単語抽出手段における一つの被検索対象文書に対応する抽出結果と前記第2の単語抽出手段の抽出結果とを、被検索対象文書毎に順次比較する比較手段と、
前記比較手段の比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算手段と、
前記類似度計算手段の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力手段と、
を備えることを特徴とする文書検索装置。 - 前記計数手段は、前記被検索対象文書における前記計算対象単語を含む任意の範囲を、該計算対象単語以外の単語を計数すべき範囲とすることを特徴とする請求項3に記載の文書検索装置。
- 複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する単語抽出工程と、
前記単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程と、
前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程と、
前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程と、
をコンピュータに実行させるための単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 複数の被検索対象文書を対象として、被検索対象文書毎に、当該被検索対象文書に含まれる単語をそれぞれ抽出する第1の単語抽出工程と、
前記第1の単語抽出工程における抽出結果から単語重要度の計算対象である計算対象単語を一つづつ選択し、前記複数の被検索対象文書から該計算対象単語を含む被検索対象文書を選択する選択工程と、
前記選択工程において選択されたすべての被検索対象文書における前記計算対象単語以外の単語を計数し、前記選択工程において選択されたすべての被検索対象文書の文書数を計数する計数工程と、
前記計数工程における計数結果に基づいて、前記複数の被検索対象文書に含まれる計算対象単語の重要度を計算する単語重要度計算工程と、
検索キーである入力文に含まれる単語を抽出する第2の単語抽出工程と、
前記第1の単語抽出工程における一つの被検索対象文書に対応する抽出結果と前記第2の単語抽出工程の抽出結果とを、被検索対象文書毎に順次比較する比較工程と、
前記比較工程における比較結果より両抽出結果間で共通の単語を認識し、該共通の単語に関する単語重要度に基づいて、前記入力文と当該被検索対象文書との間の類似度を計算する類似度計算工程と、
前記類似度計算工程の計算結果に基づいて、類似度が高い被検索対象文書を検索結果として出力する出力工程と、
をコンピュータに実行させるための文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22148399A JP3725373B2 (ja) | 1999-08-04 | 1999-08-04 | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22148399A JP3725373B2 (ja) | 1999-08-04 | 1999-08-04 | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001052001A JP2001052001A (ja) | 2001-02-23 |
JP3725373B2 true JP3725373B2 (ja) | 2005-12-07 |
Family
ID=16767428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22148399A Expired - Fee Related JP3725373B2 (ja) | 1999-08-04 | 1999-08-04 | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3725373B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010086074A (ja) * | 2008-09-29 | 2010-04-15 | Hitachi Omron Terminal Solutions Corp | 音声処理装置、音声処理方法、および、音声処理プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01217623A (ja) * | 1988-02-26 | 1989-08-31 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
JP2786380B2 (ja) * | 1992-08-10 | 1998-08-13 | 富士通エフ・アイ・ピー株式会社 | キーワード照合検索処理方法 |
JPH07319882A (ja) * | 1994-05-20 | 1995-12-08 | Nec Corp | キーワードの判定方法 |
JP3195752B2 (ja) * | 1997-02-28 | 2001-08-06 | シャープ株式会社 | 検索装置 |
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
-
1999
- 1999-08-04 JP JP22148399A patent/JP3725373B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001052001A (ja) | 2001-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | Text similarity measures in news articles by vector space model using NLP | |
CN100535898C (zh) | 问答式文献检索系统和方法 | |
JP3759242B2 (ja) | 特徴確率自動生成方法及びシステム | |
JP2742115B2 (ja) | 類似文書検索装置 | |
US20040098385A1 (en) | Method for indentifying term importance to sample text using reference text | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP3198932B2 (ja) | 文書検索装置 | |
JP4969209B2 (ja) | 検索システム | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP3725373B2 (ja) | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5364529B2 (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
US9165063B2 (en) | Organising and storing documents | |
JP3249743B2 (ja) | 文書検索システム | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
JP2000207404A (ja) | 文書検索方法及び装置並びに記録媒体 | |
JP4953459B2 (ja) | 文字ベクトルを用いた略語生成装置、方法及びプログラム | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP5541014B2 (ja) | 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050921 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080930 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090930 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090930 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100930 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100930 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110930 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |