JP2001052001A - 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2001052001A
JP2001052001A JP11221483A JP22148399A JP2001052001A JP 2001052001 A JP2001052001 A JP 2001052001A JP 11221483 A JP11221483 A JP 11221483A JP 22148399 A JP22148399 A JP 22148399A JP 2001052001 A JP2001052001 A JP 2001052001A
Authority
JP
Japan
Prior art keywords
word
document
search
calculation
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11221483A
Other languages
English (en)
Other versions
JP3725373B2 (ja
Inventor
Akihiko Teramoto
陽彦 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP22148399A priority Critical patent/JP3725373B2/ja
Publication of JP2001052001A publication Critical patent/JP2001052001A/ja
Application granted granted Critical
Publication of JP3725373B2 publication Critical patent/JP3725373B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語重要度が高い単語を的確に判断でき、短
時間でしかも検索者のスキルに依存することなく信頼性
が高い検索結果を得ること。 【解決手段】 複数の被検索対象文書を対象として、被
検索対象文書毎に、当該被検索対象文書に含まれる単語
をそれぞれ抽出する単語抽出部30と、単語抽出部30
の抽出結果から単語重要度の計算対象である単語を一つ
づつ選択し、複数の被検索対象文書から計算対象である
単語を含む被検索対象文書を選択する単語重要度計算処
理部40とを備え、単語重要度計算処理部40は、選択
されたすべての被検索対象文書における計算対象の単語
以外の単語を計数するとともに、選択されたすべての被
検索対象文書の文書数を計数し、二つの計数結果に基づ
いて、複数の被検索対象文書に含まれる計算対象の単語
に関する単語重要度を計算する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力文を検索キー
として、電子化された複数の被検索対象文書の中から所
望の被検索対象文書を検索するときに用いられる単語重
要度計算装置、文書検索装置、単語重要度計算プログラ
ムを記録したコンピュータ読み取り可能な記録媒体およ
び文書検索プログラムを記録したコンピュータ読み取り
可能な記録媒体に関するものであり、特に、被検索対象
文書に含まれる単語の単語重要度の計算を的確に行うこ
とができ、しかも検索結果の信頼性を高めることができ
る単語重要度計算装置、文書検索装置、単語重要度計算
プログラムを記録したコンピュータ読み取り可能な記録
媒体および文書検索プログラムを記録したコンピュータ
読み取り可能な記録媒体に関するものである。
【0002】近年、コンピュータの処理能力の向上、コ
ンピュータの普及により、膨大な量の電子化された文書
が企業内のデータベースとして活用されている。また、
従来より、膨大な量の文書の中から所望の文書を検索す
るためには、検索キーワードと被検索対象である文書と
を照合する手法等を用いた検索装置が用いられている。
しかしながら、近時、電子化された文書が加速的に増加
しているという背景から、企業においては、業務効率の
改善を目指して、さらに効率良く検索を行うことができ
る手段、方法が切望されている。
【0003】
【従来の技術】従来より、データベース化された文書
(電子化文書)から、キーワード一致方式により、キー
ワードを含む当該文書を検索する検索装置が用いられて
いる。また、文書の検索においては、文書に含まれる単
語に重要度を設定する方法がある。この重要度を求める
手法としては、tf・idf法がある。このtf・id
f法においては、複数の文書のうち、ある文書における
単語の重要度を、その文書における出現頻度とすべての
文書における上記単語の出現頻度の逆数の積としてい
る。また、tf・idf法をベクトル空間法に適用した
場合には、上記重要度を重みとして、検索キーに相当す
る入力文に含まれる単語群から得られる文書ベクトルと
被検索対象の文書に含まれる単語群から得られる文書ベ
クトルとの内積が、入力文と被検索対象文書との間の類
似度である。したがって、この場合には、類似度が高い
被検索対象文書を検索結果としている。ここで、ベクト
ル空間法は、文書に含まれる複数の単語をベクトルとし
て表現する方法である。
【0004】
【発明が解決しようとする課題】ところで、前述した検
索キーワード一致方式においては、キーワードの指定が
不適切である場合には、所望の被検索対象文書と全く関
連性がない大量の被検索対象文書とともに所望の被検索
対象文書が検索結果とされる。したがって、この場合に
は、関連性がない大量の被検索対象文書に、所望の被検
索対象文書が埋もれてしまうため、検索に長時間を要す
るという問題があった。言い換えれば、検索キーワード
一致方式においては、スキルのある検索者が適切なキー
ワードを指定した場合、比較的短時間で検索することが
できるが、初心者等のようにスキル不足の検索者の場
合、適切なキーワード指定が難しいため、いたずらに検
索に時間がかかってしまう。
【0005】また、前述したtf・idf法において
は、単語の出現頻度に基づいて単語重要度を計算してい
る。したがって、出現頻度が同じ単語(たとえば、「状
態」、「SQL」)については、単語重要度も同じ値と
して計算される。しかしながら、実際の文書において
は、単語の出現頻度と単語重要度とは必ずしも一致しな
い。これは、経験的にもわかることであり、「状態」等
といった一般的な単語の単語重要度は、「SQL」とい
った専門用語の単語重要度より高い。
【0006】このような場合、tf・idf法において
は、出現頻度に基づいて単語重要度が計算されるため、
本来ならば一般的な単語「状態」の単語重要度に比べ
て、単語重要度が高い「SQL」という専門用語の単語
重要度が、一般的な単語「状態」と同じ値の単語重要度
として計算される。したがって、tf・idf法により
計算される単語重要度は、実際の値と大きく異なる場合
があり、信頼性が低い。また、tf・idf法により計
算された単語重要度をファクタとして検索を行った場合
にも、当然のことながら検索結果の信頼性が低い。
【0007】本発明は、上記に鑑みてなされたもので、
単語重要度が高い単語を的確に判断することができると
ともに、短時間でしかも検索者のスキルに依存すること
なく信頼性が高い検索結果を得ることができる単語重要
度計算装置、文書検索装置、単語重要度計算プログラム
を記録したコンピュータ読み取り可能な記録媒体および
文書検索プログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、請求項1にかかる発明は、複数の被検索対象文書を
対象として、被検索対象文書毎に、当該被検索対象文書
に含まれる単語をそれぞれ抽出する単語抽出手段(後述
する一実施の形態の単語抽出部30に相当)と、前記単
語抽出手段の抽出結果から単語重要度の計算対象である
計算対象単語を一つづつ選択し、前記複数の被検索対象
文書から該計算対象単語を含む被検索対象文書を選択す
る選択手段(後述する一実施の形態の単語重要度計算処
理部40に相当)と、前記選択手段により選択されたす
べての被検索対象文書における前記計算対象単語以外の
単語を計数し、前記選択手段により選択されたすべての
被検索対象文書の文書数を計数する計数手段(後述する
一実施の形態の単語重要度計算処理部40に相当)と、
前記計数手段の計数結果に基づいて、前記複数の被検索
対象文書に含まれる計算対象単語の重要度を計算する単
語重要度計算手段(後述する一実施の形態の単語重要度
計算処理部40に相当)とを備えることを特徴とする。
【0009】この請求項1にかかる発明によれば、単語
抽出手段により、複数の被検索対象文書を対象として、
被検索対象文書毎に単語が抽出されると、選択手段によ
り、単語抽出手段の抽出結果から計算対象単語が一つづ
つ選択され、さらに該計算対象単語を含む被検索対象文
書が選択される。つぎに、計数手段では、被検索対象文
書における計算対象単語以外の単語が計数され、さら
に、選択手段により選択されたすべての被検索対象文書
の文書数が計数される。最後に、単語重要度計算手段で
は、計数手段における二つの計数結果に基づいて、計算
対象単語の単語重要度が計算される。
【0010】このように、請求項1にかかる発明によれ
ば、被検索対象文書における計算対象単語以外の単語の
計数結果、および選択手段により選択されたすべての被
検索対象文書の文書数の計数結果に基づいて、単語重要
度を求めるようにしたので、被検索対象文書に含まれる
重要度が高い単語を的確に判断することが可能となる。
【0011】また、請求項2にかかる発明は、請求項1
に記載の単語重要度計算装置において、前記計数手段
は、前記被検索対象文書における任意の範囲を、前記計
算対象単語以外の単語を計数すべき範囲とすることを特
徴とする。
【0012】この請求項2にかかる発明によれば、計算
対象単語以外の単語を計数すべき被検索対象文書におけ
る範囲を任意の範囲として変更できるため、単語重要度
の計算条件を変えることが可能となり、汎用性が向上す
る。
【0013】また、請求項3にかかる発明は、複数の被
検索対象文書を対象として、被検索対象文書毎に、当該
被検索対象文書に含まれる単語をそれぞれ抽出する第1
の単語抽出手段(後述する一実施の形態の単語抽出部3
0に相当)と、前記第1の単語抽出手段の抽出結果から
単語重要度の計算対象である計算対象単語を一つづつ選
択し、前記複数の被検索対象文書から該計算対象単語を
含む被検索対象文書を選択する選択手段(後述する一実
施の形態の単語重要度計算処理部40に相当)と、前記
選択手段により選択されたすべての被検索対象文書にお
ける前記計算対象単語以外の単語を計数し、前記選択手
段により選択されたすべての被検索対象文書の文書数を
計数する計数手段(後述する一実施の形態の単語重要度
計算処理部40に相当)と、前記計数手段の計数結果に
基づいて、前記複数の被検索対象文書に含まれる計算対
象単語の重要度を計算する単語重要度計算手段(後述す
る一実施の形態の単語重要度計算処理部40に相当)
と、検索キーである入力文に含まれる単語を抽出する第
2の単語抽出手段(後述する一実施の形態の単語抽出部
52に相当)と、前記第1の単語抽出手段における一つ
の被検索対象文書に対応する抽出結果と前記第2の単語
抽出手段の抽出結果とを、被検索対象文書毎に順次比較
する比較手段(後述する一実施の形態の検索部51に相
当)と、前記比較手段の比較結果より両抽出結果間で共
通の単語を認識し、該共通の単語に関する単語重要度に
基づいて、前記入力文と当該被検索対象文書との間の類
似度を計算する類似度計算手段(後述する一実施の形態
の検索部51に相当)と、前記類似度計算手段の計算結
果に基づいて、類似度が高い被検索対象文書を検索結果
として出力する出力手段(後述する一実施の形態の出力
部70に相当)とを備えることを特徴とする。
【0014】この請求項3にかかる発明によれば、第1
の単語抽出手段により、複数の被検索対象文書を対象と
して、被検索対象文書毎に単語が抽出されると、選択手
段により、第1の単語抽出手段の抽出結果から計算対象
単語が一つづつ選択され、さらに該計算対象単語を含む
被検索対象文書が選択される。つぎに、計数手段では、
被検索対象文書における計算対象単語以外の単語が計数
され、さらに、選択手段により選択されたすべての被検
索対象文書の文書数が計数される。最後に、単語重要度
計算手段では、計数手段における二つの計数結果に基づ
いて、計算対象単語の単語重要度が計算される。
【0015】そして、すべての計算対象単語の単語重要
度が計算された状態において、検索キーである入力文が
入力されると、第2の単語抽出手段により上記入力文に
含まれる単語が抽出される。つぎに、比較手段により、
第1の単語抽出手段における抽出結果と第2の単語抽出
手段における抽出結果が比較され、類似度計算手段によ
り、共通の単語に関する単語重要度に基づいて、入力文
と被検索対象文書との間の類似度が計算される。最後
に、出力手段では、類似度が高い被検索対象文書が検索
結果として出力される。
【0016】このように、請求項3にかかる発明によれ
ば、入力文に含まれる単語を抽出した抽出結果と被検索
対象文書に含まれる単語を抽出した抽出結果とを比較
し、両者に共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度を計算し、この
類似度に基づいて検索結果を求めるようにしたので、単
語重要度が考慮された検索結果が得られることから、検
索結果の信頼性が向上する。
【0017】また、請求項3にかかる発明によれば、単
語重要度が考慮された検索結果が得られることから、検
索者にとって重要度が低い被検索対象文書が検索結果と
されることがないため検索時間を短縮することができ
る。
【0018】さらに、請求項3にかかる発明によれば、
入力文から単語を抽出し、この抽出結果と、単語重要度
とに基づく文書検索が行われるため、従来のキーワード
検索に比して、検索者のスキルに左右されることなく、
的確に文書検索を行うことができる。
【0019】また、請求項4にかかる発明は、請求項3
に記載の文書検索装置において、前記計数手段は、前記
被検索対象文書における任意の範囲を、前記計算対象単
語以外の単語を計数すべき範囲とすることを特徴とす
る。
【0020】この請求項4にかかる発明によれば、計算
対象単語以外の単語を計数すべき被検索対象文書におけ
る範囲を任意の範囲として変更できるため、検索条件を
変えることが可能となり、汎用性が向上する。
【0021】また、請求項5にかかる発明は、複数の被
検索対象文書を対象として、被検索対象文書毎に、当該
被検索対象文書に含まれる単語をそれぞれ抽出する単語
抽出工程(後述する一実施の形態のステップSA2に相
当)と、前記単語抽出工程における抽出結果から単語重
要度の計算対象である計算対象単語を一つづつ選択さ
せ、前記複数の被検索対象文書から該計算対象単語を含
む被検索対象文書を選択させる選択工程(後述する一実
施の形態のステップステップSB1およびステップSB
2に相当)と、前記選択工程において選択されたすべて
の被検索対象文書における前記計算対象単語以外の単語
を計数させ、前記選択工程において選択されたすべての
被検索対象文書の文書数を計数させる計数工程(後述す
る一実施の形態のステップSB4およびステップSB5
に相当)と、前記計数工程における計数結果に基づい
て、前記複数の被検索対象文書に含まれる計算対象単語
の重要度を計算させる単語重要度計算工程(後述する一
実施の形態のステップSB6に相当)とをコンピュータ
に実行させるための単語重要度計算プログラムを記録し
たコンピュータ読み取り可能な記録媒体である。
【0022】この請求項5にかかる発明によれば、単語
抽出工程において複数の被検索対象文書を対象として、
被検索対象文書毎に単語が抽出されると、選択工程にお
いて単語抽出工程の抽出結果から計算対象単語が一つづ
つ選択され、さらに該計算対象単語を含む被検索対象文
書が選択される。つぎに、計数工程では、被検索対象文
書における計算対象単語以外の単語が計数され、さら
に、選択工程において選択されたすべての被検索対象文
書の文書数が計数される。最後に、単語重要度計算工程
では、計数工程における二つの計数結果に基づいて、計
算対象単語の単語重要度が計算される。
【0023】このように、請求項5にかかる発明によれ
ば、被検索対象文書における計算対象単語以外の単語の
計数結果、および選択工程において選択されたすべての
被検索対象文書の文書数の計数結果に基づいて、単語重
要度を求めるようにしたので、被検索対象文書に含まれ
る重要度が高い単語を的確に判断することが可能とな
る。
【0024】また、請求項6にかかる発明は、複数の被
検索対象文書を対象として、被検索対象文書毎に、当該
被検索対象文書に含まれる単語をそれぞれ抽出する第1
の単語抽出工程(後述する一実施の形態のステップSA
2に相当)と、前記第1の単語抽出工程における抽出結
果から単語重要度の計算対象である計算対象単語を一つ
づつ選択させ、前記複数の被検索対象文書から該計算対
象単語を含む被検索対象文書を選択させる選択工程(後
述する一実施の形態のステップステップSB1およびス
テップSB2に相当)と、前記選択工程において選択さ
れたすべての被検索対象文書における前記計算対象単語
以外の単語を計数させ、前記選択工程において選択され
たすべての被検索対象文書の文書数を計数させる計数工
程(後述する一実施の形態のステップSB4およびステ
ップSB5に相当)と、前記計数工程における計数結果
に基づいて、前記複数の被検索対象文書に含まれる計算
対象単語の重要度を計算する単語重要度計算工程(後述
する一実施の形態のステップSB6に相当)と、検索キ
ーである入力文に含まれる単語を抽出させる第2の単語
抽出工程(後述する一実施の形態のステップSC2に相
当)と、前記第1の単語抽出工程における一つの被検索
対象文書に対応する抽出結果と前記第2の単語抽出工程
の抽出結果とを、被検索対象文書毎に順次比較させる比
較工程(後述する一実施の形態のステップSD1〜ステ
ップSD3に相当)と、前記比較工程における比較結果
より両抽出結果間で共通の単語を認識させ、該共通の単
語に関する単語重要度に基づいて、前記入力文と当該被
検索対象文書との間の類似度を計算させる類似度計算工
程(後述する一実施の形態のステップSD5に相当)
と、前記類似度計算工程の計算結果に基づいて、類似度
が高い被検索対象文書を検索結果として出力させる出力
工程(後述する一実施の形態のステップSC9に相当)
とをコンピュータに実行させるための文書検索プログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
る。
【0025】この請求項6にかかる発明によれば、第1
の単語抽出工程において複数の被検索対象文書を対象と
して、被検索対象文書毎に単語が抽出されると、選択工
程において第1の単語抽出工程の抽出結果から計算対象
単語が一つづつ選択され、さらに該計算対象単語を含む
被検索対象文書が選択される。つぎに、計数工程では、
被検索対象文書における計算対象単語以外の単語が計数
され、さらに、選択工程において選択されたすべての被
検索対象文書の文書数が計数される。最後に、単語重要
度計算工程では、計数工程における二つの計数結果に基
づいて、計算対象単語の単語重要度が計算される。
【0026】そして、すべての計算対象単語の単語重要
度が計算された状態において、検索キーである入力文が
入力されると、第2の単語抽出工程において上記入力文
に含まれる単語が抽出される。つぎに、比較工程におい
て、第1の単語抽出工程における抽出結果と第2の単語
抽出工程における抽出結果が比較され、類似度計算工程
において、共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度が計算される。
最後に、出力工程では、類似度が高い被検索対象文書が
検索結果として出力される。
【0027】このように、請求項6にかかる発明によれ
ば、入力文に含まれる単語を抽出した抽出結果と被検索
対象文書に含まれる単語を抽出した抽出結果とを比較
し、両者に共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度を計算し、この
類似度に基づいて検索結果を求めるようにしたので、単
語重要度が考慮された検索結果が得られることから、検
索結果の信頼性が向上する。
【0028】また、請求項6にかかる発明によれば、単
語重要度が考慮された検索結果が得られることから、検
索者にとって重要度が低い被検索対象文書が検索結果と
されることがないため検索時間を短縮することができ
る。
【0029】さらに、請求項6にかかる発明によれば、
入力文から単語を抽出し、この抽出結果と、単語重要度
とに基づく文書検索が行われるため、従来のキーワード
検索に比して、検索者のスキルに左右されることなく、
的確に文書検索を行うことができる。
【0030】
【発明の実施の形態】以下、図面を参照して本発明にか
かる単語重要度計算装置、文書検索装置、単語重要度計
算プログラムを記録したコンピュータ読み取り可能な記
録媒体および文書検索プログラムを記録したコンピュー
タ読み取り可能な記録媒体の一実施の形態について詳細
に説明する。
【0031】図1は、本発明にかかる一実施の形態の構
成を示すブロック図である。この図において、記憶部1
0は、たとえば、ハードディスク装置であり、後述する
単語抽出部30および検索処理部50にアクセスされ
る。この記憶部10には、図8(a)に示した複数の被
検索対象の文書(以下、被検索対象文書という)のデー
タがそれぞれ記憶されている。これらの被検索対象文書
には、文書番号がそれぞれ付与されている。これらの被
検索対象文書は、後述する単語重要度計算処理および検
索処理の対象とされる文書であり、企業におけるユーザ
サポートデスクの担当者に、ユーザから問い合わせがあ
った質問文である。
【0032】図8(a)において、被検索対象文書「S
QL*Loader・・・十分。原因と対処方法を教え
てほしい。」には、文書番号「7E1−8124」が付
与されており、被検索対象文書「毎日・・・終了する。
・・・教えてほしい。」には、文書番号「7E1−83
53」が付与されている。また、被検索対象文書「DA
T装置・・・教えてほしい。」には、文書番号「7E2
−3436」が付与されており、被検索対象文書「Mq
XS/JM・・・教えてほしい。」には、文書番号「7
E1−8557」が付与されており、被検索対象文書
「SQL*Plus・・・・出来ている。」には、文書
番号「7E2−2932」が付与されている。
【0033】以下の説明においては、図8(a)に示し
た都合五つの被検索対象文書を上述した文書番号により
区別する。また、実際には、膨大な数の被検索対象文書
のデータが記憶部10に記憶されているが、以下におい
ては、説明を簡略化するために、図8(a)に示した五
つの被検索対象文書のデータが記憶部10に記憶されて
いるものとして説明する。
【0034】記憶部20は、記憶部10と同様にして、
たとえば、ハードディスク装置であり、後述する単語重
要度計算処理部40および検索処理部50にアクセスさ
れる。この記憶部20には、図8(b)に示した文書番
号「7E1−8124」〜「7E1−8557」にそれ
ぞれ対応する単語群のデータ、およびこれら単語群にそ
れぞれ対応する被検索対象文書(図8(a)参照)が記
憶されている。なお、記憶部20には、図8(a)に示
した文書番号「7E2−2932」の被検索対象文書に
対応する単語群も記憶されているが、図8(b)におい
ては、該単語群の図示が省略されている。これらの単語
群は、後述する単語抽出部30により、被検索対象文書
(図8(a)参照)から抽出された単語の集合である。
【0035】具体的には、図8(b)に示した文書番号
「7E1−8124」の単語群(「SQL」、「Loa
der」、・・・、「対処方法」)は、図8(a)に示
した文書番号「7E1−8124」の被検索対象文書か
ら抽出されたものである。同様にして、文書番号「7E
1−8353」〜「7E1−8557」のそれぞれの単
語群(図8(b)参照)は、文書番号「7E1−835
3」〜「7E1−8557」(図8(a)参照)のそれ
ぞれの被検索対象文書から抽出されたものである。
【0036】単語抽出部30は、記憶部10に記憶され
ている一つの被検索対象文書(図8(a)参照)を読み
出し、この被検索対象文書から、被検索対象文書を構成
する単語を抽出する。ここで単語抽出部30において
は、さまざまな単語抽出手法が適用可能である。たとえ
ば、第1の単語抽出方法としては、日本語文の場合、被
検索対象文書においてひらがなを除く文字種の文字(た
とえば、英数字、漢字等)が二文字以上連続していると
き、当該文字列を一単語として抽出する手法がある。ま
た、この手法において、欧文の場合には、被検索対象文
書において二つのスペース(空白)に挟まれた文字列が
一単語として抽出される。
【0037】また、第2の単語抽出手法としては、形態
素解析を用いた手法がある。ここで形態素解析とは、被
検索対象文書を構成する文がどのような形態素(単語)
で構成され、かつその形態素の品詞が何であるのかを、
辞書および言語モデルを参照しつつ解析することをい
う。たとえば、「今日は会社に行かなかった」という日
本語文を形態素解析した場合には、つぎのような解析結
果となる。
【0038】 (形態素) (品詞) 「今日」 副詞的名詞 「は」 係助詞 「会社」 名詞 「に」 格助詞 「行」 カ行5段動詞 「か」 未然形活用語尾 「な」 助動詞 「かっ」 形容詞連用形活用語尾 「た」 助動詞
【0039】また、単語抽出部30は、記憶部10に記
憶されているすべての被検索対象文書について単語抽出
を行い、抽出した単語群(図8(b)参照)のデータを
当該被検索対象文書のデータとともに記憶部20に記憶
させる。この単語抽出部30の動作の詳細については後
述する。
【0040】単語重要度計算処理部40は、記憶部20
に記憶されたすべての単語について、後述する計算式に
基づいて、定量的に単語重要度をそれぞれ計算する。こ
こで単語重要度は、後述する文書検索における当該単語
の重要性を表す指標である。つまり、単語重要度計算処
理部40においては、被検索対象文書の特徴を表す単語
は単語重要度が高い値として計算され、逆に、被検索対
象文書の特徴を表さない一般的な単語は重要度が低い値
として計算される。
【0041】たとえば、被検索対象文書が通信制御技術
に関するものであり、かつ当該被検索対象文書に「通信
制御」、「以降」、「再度」という単語が含まれている
場合、単語「通信制御」は、当該被検索対象文書の特徴
を表す単語であるため、単語重要度が高い値として計算
され、逆に一般的な単語「以降」および「再度」は、当
該被検索対象文書の特徴を表す単語でないため、単語重
要度が低い値として計算される。
【0042】また、単語重要度計算処理部40は、記憶
部20に記憶されたすべての単語について単語重要度を
計算した後、この単語重要度のデータを記憶部20に記
憶させる。さらに、単語重要度計算処理部40は、上記
単語重要度の他に、後述する文書検索に用いられる検索
用パラメータを計算式に基づいて計算し、計算結果を記
憶部20に記憶させる。なお、単語重要度計算処理部4
0の動作の詳細については後述する。
【0043】検索処理部50は、入力部60より入力さ
れる自然言語の入力文を検索キーとして、記憶部10に
記憶されている複数の被検索対象文書の中から上記入力
文との類似度に基づいて被検索対象文書を検索し、検索
結果を出力部70に表示する。ここで、入力部60は、
キーボード、マウス等であり、出力部70は、CRT
(Cathode-Ray Tube)、LCD(Liquid Crystal Displ
ay)である。なお、出力部70は、プリンタであっても
よい。
【0044】上記検索処理部50は、検索部51および
単語抽出部52から構成されている。単語抽出部52
は、入力部60より入力された入力文から、前述した単
語抽出部30における単語抽出の手法と同様の手法によ
り、すべての単語を単語群として抽出する。検索部51
は、単語抽出部52により抽出された単語群、記憶部2
0に記憶された被検索対象文書に関する単語群および単
語重要度に基づいて、入力文と被検索対象文書との間の
類似度を後述する計算式により計算する。また、検索部
51は、類似度が高い被検索対象文書を検索結果として
出力部70に表示させる。これら検索部51および単語
抽出部52の動作の詳細については後述する。
【0045】つぎに、一実施の形態における動作を詳細
に説明する前に、図2および図3を参照して一実施の形
態における動作の概要について簡単に説明する。図2
は、一実施の形態における単語重要度計算処理の概要を
説明する図であり、図3は、一実施の形態における検索
処理の概要を説明する図である。図2および図3におい
ては、図1の各部にそれぞれ対応する部分には同一の符
号を付ける。
【0046】図2に示した記憶部10には、被検索対象
の文書例としてつぎの文書1〜3、・・・のそれぞれのデ
ータが記憶されているものとする。 文書1:「AAAにおいてBBBはCCCである」 文書2:「EEEのDDDはAAAに関するFFFであ
る」 文書3:「BBBはAAAのDDDである」 ・・・
【0047】この状態において、まず、単語抽出部30
は、記憶部10から文書1のデータを読み込んだ後、前
述した単語抽出手法により、文書1に含まれるすべての
単語を抽出する。この場合、文書1からは、単語「AA
A」、「BBB」および「CCC」が抽出される。つぎ
に、単語抽出部30は、抽出結果を単語群として文書1
に関連付けて記憶部20に記憶させる。
【0048】以後、単語抽出部30は、文書1の場合と
同様にして、文書2、文書3、・・・の順で、それぞれの
文書に含まれるすべての単語を抽出した後、抽出結果に
対応する文書2、3、・・・とともに記憶部20に記憶さ
せる。この場合、文書2からは、単語「EEE」、「D
DD」、「AAA」および「FFF」が抽出され、文書
3からは、単語「BBB」、「AAA」および「DD
D」が抽出される。そして、最後の文書(図示略)の単
語抽出が終了した時点において、記憶部20には、単語
群(「AAA」、「BBB」、「CCC」)、(「EE
E」、「DDD」、「AAA」、「FFF」)、(「B
BB」、「AAA」、「DDD」)、・・・のデータとと
もに、それぞれの単語群に対応する文書1、文書2、文
書3、・・・のデータが記憶されている。
【0049】つぎに、単語重要度計算処理部40は、記
憶部20に記憶されている単語群の中から一つの単語
(以下、単語wという)として、たとえば、単語「AA
A」のデータを読み込んだ後、文書1〜3、・・・の中か
ら、上記単語「AAA」を含むすべての文書のデータを
読み込む。この場合、単語重要度計算処理部40は、単
語「AAA」を含む文書1〜3(以下、文書群Aとい
う)を記憶部20から読み込む。
【0050】つぎに、単語重要度計算処理部40は、上
記文書群A(文書1〜3)に含まれるすべての単語(以
下、単語群Cという)のデータを記憶部20から読み込
む。この場合、単語群Cは、つぎの複数の単語の集合で
ある。 文書1:「AAA」、「BBB」、「CCC」 文書2:「EEE」、「DDD」、「AAA」、「FF
F」 文書3:「BBB」、「AAA」、「DDD」
【0051】つぎに、単語重要度計算処理部40は、上
記単語群Cに含まれる単語w(この場合、「AAA」)
以外の単語を計数し、計数結果を共出語種数Cw とす
る。ただし、単語群Cにおける同一の単語は、一つの単
語として計数される。上記共出語種数Cw は、単語wを
含む被検索対象文書に含まれる共出語の種類であり、共
出語とは、被検索対象文書において単語wと共に出現す
る単語をいう。この場合、共出語種数Cw は、「5」
(「BBB」、「CCC」、「DDD」、「EEE」お
よび「FFF」の総数)である。
【0052】つぎに、単語重要度計算処理部40は、文
書群Aに含まれる被検索対象文書を計数し、この計数結
果を出現文書数Nw とする。この場合、出現文書数Nw
は、「3」(文書1、文書2および文書3の総数)であ
る。つぎに、単語重要度計算処理部40は、上述した共
出語種数Cw および出現文書数Nw およびつぎの(式
1)に基づいて、単語wの単語重要度Iw を求める。な
お、(式1)の詳細な説明については後述する。
【0053】Iw =a1−(Gw /a2) Gw =(Cw /Nw)*A1w*A2w1w=1/(1+b1*exp(−Nw/b2)) A2w=1/(c1+c2/Nw) ・・・(式1)
【0054】この場合には、上記(式1)より、単語w
(=単語「AAA」)の単語重要度Iw が「0.4」と
して算出されたものとする。つぎに、単語重要度計算処
理部40は、単語w(=「AAA」)の単語重要度Iw
(=0.4)とともに出現文書に関するデータを記憶部
20に記憶させる。ここで、出現文書とは、単語wが出
現している被検索対象文書をいい、この場合、上記出現
文書は、文書1〜3である。
【0055】以後、単語重要度計算処理部40は、単語
w(=「AAA」)の場合と同様にして、記憶部20に
記憶されている他の単語w(「BBB」、「CCC」、
・・・)のすべてについて単語重要度Iw を計算した後、
単語重要度Iw とともに出現文書のデータを記憶部20
に記憶させる(図2参照)。
【0056】そして、単語重要度計算処理部40による
単語重要度計算処理が終了すると、図3に示した検索処
理部50による検索処理が実行可能となる。すなわち、
検索処理において、入力部60より自然言語の入力文例
「CCCまたはEEEにおいてAAAに関するものは
?」のデータが入力されると、検索処理部50の単語抽
出部52は、単語抽出部30と同様の単語抽出手法によ
り、上記入力文(以下、入力文Qという)に含まれるす
べての単語を抽出する。この場合、単語抽出部52は、
入力文Qから単語「CCC」、「EEE」および「AA
A」を抽出し、これらを単語群Wq とする。
【0057】つぎに、検索処理部50の検索部51は、
記憶部10に記憶されている文書1〜3、・・・の中か
ら、一つの文書(以下、文書Aq という)のデータを読
み込む。この場合、検索部51は、文書Aq として文書
1を読み込んだものとする。つぎに、検索部51は、文
書Aq (=文書1)に含まれるすべての単語のデータを
記憶部20から読み込み、これらを単語群Wa とする。
この場合、単語群Wa は、文書1に含まれる単語「AA
A」、「BBB」および「CCC」からなる。
【0058】つぎに、検索部51は、以下に示した入力
文Qに対応する単語群Wq と文書A q に対応する単語群
a とに共通に含まれる単語を抽出し、抽出結果を単語
群W aqとする。この場合の単語群Waqは、単語「AA
A」および「CCC」からなる。 単語群Wq :「AAA」 「CCC」 「EEE」 単語群Wa :「AAA」 「BBB」 「CCC」
【0059】つぎに、検索部51は、上記単語群Waq
構成する単語「AAA」および「CCC」のそれぞれの
単語重要度Iw のデータを記憶部20から読み出した
後、単語「AAA」の単語重要度Iw を二乗した値と単
語「CCC」の単語重要度Iwを二乗した値との和を、
文書Aq (=文書1)と入力文Qとの間の類似度Pa
する。
【0060】以後、検索部51は、文書Aq (=文書
1)の場合と同様にして、記憶部10に記憶されている
他の文書2、3、・・・のすべてについて類似度Pa を計
算する。そして、すべての類似度Pa に関する計算が終
了すると、検索部51は、図3に示したように、類似度
a が高い文書から順次出力部70に表示させる。同図
に示した出力例では、出力部70には、類似度Pa が最
も高い類似度順位1の文書1(「AAAにおいてBBB
・・・」)、この文書1のつぎに類似度Pa が高い文書2
(「EEEのDDDは・・・」)が検索結果として表示さ
れる。
【0061】つぎに、図4〜図7にそれぞれ示したフロ
ーチャートを参照しつつ一実施の形態の動作について詳
細に説明する。図4は、一実施の形態における単語情報
設定処理を説明するフローチャートである。この単語情
報設定処理は、被検索対象文書から単語を抽出し、抽出
された単語を単語群として記憶部20に記憶させる処理
である。
【0062】また、図5は、一実施の形態における単語
重要度計算処理を説明するフローチャートである。この
単語重要度計算処理は、記憶部20に記憶された上記単
語群におけるそれぞれの単語の単語重要度を計算する処
理である。図6は、一実施の形態における検索処理を説
明するフローチャートである。この検索処理は、記憶部
10に記憶された複数の被検索対象文書の中から、検索
キーとしての入力文に類似している被検索対象文書を検
索する処理である。
【0063】(単語情報設定処理)はじめに、図4を参
照して単語情報設定処理について説明する。この単語情
報設定処理において、図1に示した記憶部10には、あ
らかじめ図8(a)に示した文書番号「7E1−812
4」〜「7E2−2932」の都合五つの被検索対象文
書のデータが記憶されているものとする。この状態にお
いて、図4に示したステップSA1では、単語抽出部3
0(図1参照)は、上記五つの被検索対象文書のデータ
うち、たとえば、文書番号「7E1−8124」の被検
索対象文書のデータを文書dのデータとして記憶部10
から読み込んだ後、ステップSA2へ進む。
【0064】ステップSA2では、単語抽出部30は、
前述した単語抽出手法により、上記文書dに含まれる単
語をすべて抽出し、抽出結果を単語群Wとした後、ステ
ップSA3へ進む。この場合、単語群Wは、図8(b)
に示した文書番号「7E1−8124」の単語群(「S
QL」、・・・、「対処方法」)である。ステップSA3
では、単語抽出部30は、上記単語群Wから単語を一つ
取り出し、これを単語wとした後、ステップSA4へ進
む。この場合、上記単語wは、図8(b)に示した文書
番号「7E1−8124」に対応する単語「SQL」で
ある。
【0065】ステップSA4では、単語抽出部30は、
上記単語w(=単語「SQL」)が文書d(=文書番号
「7E1−8124」の被検索対象文書)に含まれてい
るという情報を記憶部20に書き込んだ後、ステップS
A5へ進む。この場合、単語抽出部30は、上記情報と
して単語wに対応付けて文書番号「7E1−8124」
の被検索対象文書を記憶部20に書き込む。ステップS
A5では、単語抽出部30は、ステップSA2で抽出し
た単語群Wにおけるすべての単語に関する処理が終了し
たか否かを判断する。ここでいう処理とは、ステップS
A3およびステップSA4の処理をいう。この場合、単
語抽出部30は、ステップSA5の判断結果を「No」
として、ステップSA3に戻る。
【0066】以後、ステップSA3では、上述した動作
と同様にして、単語群Wからつぎの単語wが取り出され
た後、ステップSA4では、上記単語wが文書dに含ま
れているという情報が記憶部20に書き込まれる。そし
て、図8(b)に示した文書番号「7E1−8124」
に対応する単語群における最後の単語w(=単語「対処
方法」)に関する処理が終了すると、単語抽出部30
は、ステップSA5の判断結果を「Yes」として、ス
テップSA6へ進む。
【0067】ステップSA6では、単語抽出部30は、
記憶部10に記憶されているすべての被検索対象文書に
関する一連の処理(ステップSA2〜ステップSA4)
が終了したか否かを判断する。つまり、ステップSA6
では、単語抽出部30は、図8(a)に示した五つの被
検索対象文書における単語抽出が終了したか否かを判断
する。この場合、単語抽出部30は、ステップSA6の
判断結果を「No」として、ステップSA1に戻る。
【0068】以後、単語抽出部30は、上述した文書d
(=文書番号「7E1−8124」の被検索対象文書)
の場合と同様にして、文書番号「7E1−8353」以
降の被検索対象文書に関する単語を抽出する処理を行
う。そして、最後の文書番号「7E2−2932」の被
検索対象文書に関する単語の抽出処理が終了すると、単
語抽出部30は、ステップSA6の判断結果を「Ye
s」として、単語情報設定処理を終了する。この時点で
は、記憶部20には、図8(b)に示した文書番号「7
E1−8124」〜「7E1−8557」および図示し
ない文書番号「7E2−2932」にそれぞれ関する単
語群Wが記憶部20に記憶されている。加えて、記憶部
20には、単語wが文書dに含まれているという情報が
単語毎にそれぞれ記憶されている。
【0069】(単語重要度計算処理)つぎに、図5を参
照して単語重要度計算処理について説明する。この単語
重要度計算処理において、記憶部20には、図8(a)
に示した文書番号「7E1−8124」〜「7E2−2
932」にそれぞれ対応する単語群のデータが記憶され
ているものとする。この状態において、図5に示したス
テップSB1では、単語重要度計算処理部40(図1参
照)は、記憶部20から一つの単語wのデータを読み込
んだ後、ステップSB2へ進む。この場合、単語重要度
計算処理部40は、単語wとして図8(b)に示した単
語「原因」を記憶部20から読み込んだものとする。
【0070】ステップSB2では、単語重要度計算処理
部40は、単語w(=単語「原因」)を含む被検索対象
文書のデータを記憶部20から読み込んだ後、ステップ
SB3へ進む。この場合、単語重要度計算処理部40
は、単語w(=単語「原因」)を含む被検索対象文書と
して、図8(a)に示した文書番号「7E1−812
4」〜「7E1−8557」の被検索対象文書のデータ
を記憶部20から読み込み、これらの被検索対象文書を
文書群Aとする。
【0071】ステップSB3では、単語重要度計算処理
部40は、上記文書群Aに含まれるすべての単語のデー
タを単語群Cとして記憶部20から読み込んだ後、ステ
ップSB4へ進む。この場合、単語重要度計算処理部4
0は、単語群Cのデータとして、図8(b)に示した文
書番号「7E1−8124」〜「7E1−8557」に
対応する単語群のデータを記憶部20から読み込む。
【0072】ステップSB4では、単語重要度計算処理
部40は、読み込んだ単語群Cに含まれる単語w(=単
語「原因」)以外の単語を計数した後、ステップSB5
へ進む。ただし、この計数において、同一の単語(重複
単語)は、一つの単語として計数される。ここで、図8
(b)に示した単語群Cから重複単語を一つの単語と
し、かつ単語w(=単語「原因」)を排除すると、上記
単語群Cは、図8(c)に示した単語群となる。したが
って、この場合、単語重要度計算処理部40は、図8
(c)に示した単語群における単語の計数結果(=「3
6」)を前述した共出語種数Cw とする。
【0073】ステップSB5では、単語重要度計算処理
部40は、単語w(=単語「原因」)を含む文書群Aに
含まれる被検索対象文書を計数した後、ステップSB6
へ進む。この場合、単語重要度計算処理部40は、上記
文書群Aが、図8(a)に示した文書番号「7E1−8
124」〜「7E1−8557」にそれぞれ対応する都
合四つの被検索対象文書から構成されているため、計数
結果(=「4」)を前述した出現文書数Nw とする。
【0074】ステップSB6では、単語重要度計算処理
部40は、前述した(式1)に基づいて、単語w(=単
語「原因」)の単語重要度Iw 等を求める。
【0075】ここで、上記(式1)は、単語に関するつ
ぎの(1)項および(2)項の特性に基づいて導出され
た式である。 (1)文書の特徴を表さない一般的な単語は、様々なト
ピックの文書において出現する。したがって、文書デー
タ全体においては、一般的な単語と同一の文書に出現す
る前述した共出語の種類が多岐にわたる。 (2)文書の特徴を表す特徴的な単語は、限定されたト
ピックの文書において出現する傾向がある。したがっ
て、特徴的な単語と同一の文書に出現する共出語の種類
は限定される傾向がある。
【0076】上記(1)項および(2)項より、(式
1)においては、共出語の種類(前述した共出語種数C
w )が限定される度合いを単語重要度Iw としている。
具体的には、(式1)において、Iw は単語wの単語重
要度である。a1 およびa2 は、単語重要度Iw のダイ
ナミックレンジをそれぞれ決定するパラメータであり、
いずれも正の値をとる。たとえば、パラメータa1 およ
びa2 は、「1.0」および「2.4」である。
【0077】また、Cw 、Nw は、ステップSB4およ
びステップSB5(図5参照)において求められた単語
の共出語種数および出現文書数である。Gw は、共出語
種数Cw と出現文書数Nw との比率(Cw /Nw :以
下、共出語種比率という)に補正項A1wおよびA2wを付
加したものであり、単語wの一般性を表す指標(以下、
一般性指標Gw という)である。したがって、一般性が
高い単語wほど、その一般性指標Gw が大きくなる。
【0078】補正項A1wは、ある単語wに着目した場合
に、当該単語wに関する出現文書数Nw が増加するのに
伴って共出語種比率(Cw /Nw )が減少することによ
る単語重要度計算に対する影響を減少させるためのもの
である。また、b1 およびb 2 は、補正項A1wによる補
正の強さをそれぞれ決定するパラメータであり、たとえ
ば、「5.0」および「572.27」である。
【0079】補正項A2wは、出現回数が少ない単語w
(稀出単語)の単語重要度を高く見積もるためのもので
ある。c1 およびc2 は、補正項A2wによる見積もりの
高さをそれぞれ決定するパラメータであり、たとえば、
「0.6」および「16.0」である。
【0080】図5に戻り、ステップSB6では、単語重
要度計算処理部40は、ステップSB4で求められた単
語w(=単語「原因」)に関する共出語種数Cw (=3
6)およびステップSB5で求められた単語w(=単語
「原因」)に関する出現文書数Nw (=4)を、上述し
た(式1)に代入することにより、単語w(=単語「原
因」)の単語重要度Iw (=0.865)を求めた後、
ステップSB7へ進む。
【0081】以下に、(式1)における単語重要度Iw
の計算過程を示す。 A1w=1/(1+b1 *exp(−Nw /b2 )) =1/(1+5.0*exp(−4/572.27)) =0.166 A2w=1/(c1 +c2 /Nw ) =1/(0.6+16.0/4) =0.217 Gw =(Cw /Nw)*A1w*A2w =(36/4)*0.166*0.217 =0.324 Iw =a1−(Gw /a2) =1.0−(0.324/2.4) =0.865
【0082】ステップSB7では、単語重要度計算処理
部40は、単語w(=単語「原因」)に関する単語重要
度Iw(=0.865)、共出語種数Cw(=36)およ
び出現文書数Nw (=4)のそれぞれのデータを記憶部
20に書き込んだ後、ステップSB8へ進む。ステップ
SB8では、単語重要度計算処理部40は、記憶部20
に記憶されている単語群(図8(b)参照)におけるす
べての単語に関する処理(単語重要度計算)が終了した
か否かを判断する。この場合、単語重要度計算処理部4
0は、ステップSB8の判断結果を「No」として、ス
テップSB1へ戻り、上述した工程を繰り返す。
【0083】以後、単語重要度計算処理部40は、上述
した単語w(=単語「原因」)場合と同様にして、他の
単語について共出語種数Cw 、出現文書数Nw 、単語重
要度Iw を求め、これらを記憶部20に書き込む。そし
て、最後の単語wに関する計算が終了すると、単語重要
度計算処理部40は、ステップSB8の判断結果を「Y
es」として、単語重要度計算処理を終了する。この時
点では、記憶部20には、図8(a)に示した文書番号
「7E1−8124」〜「7E2−2932」に対応す
る五つの被検索対象文書に含まれるすべての単語に関す
る単語重要度I w 、共出語種数Cw および出現文書数N
w に関するデータが記憶されている。
【0084】(検索処理)つぎに、図6および図7を参
照して検索処理について説明する。この検索処理におい
て、記憶部20には、図8(a)に示した文書番号「7
E1−8124」〜「7E2−2932」に対応する五
つの被検索対象文書に含まれるすべての単語に関する単
語重要度Iw 、共出語種数Cw および出現文書数Nw
関するデータが記憶されているものとする。
【0085】このような状態において、図6に示したス
テップSC1では、検索者は、図1に示した入力部60
を用いて、検索キーとなる文書のデータを入力した後、
検索開始を指示する。これにより、検索処理部50の単
語抽出部52は、入力された文書のデータを入力文Qの
データとした後、ステップSC2へ進む。ステップSC
2では、単語抽出部52は、前述した単語抽出手法によ
り、上記入力文Qに含まれる単語をすべて抽出し、抽出
結果を単語群Wq とする。
【0086】つぎに、ステップSC3では、検索部51
は、周知のベクトル空間法により単語群Wq から入力文
Qに関する文書ベクトルVq を求めた後、ステップSC
4へ進む。ステップSC4では、検索部51は、図8
(a)に示した文書番号「7E1−8124」〜「7E
2−2932」がそれぞれ付与された五つの被検索対象
文書のうち、一つの被検索対象文書のデータを記憶部1
0から読み込み、これを文書Aq とした後、ステップS
C5へ進む。この場合、文書Aq は、文書番号「7E1
−8124」の被検索対象文書であるものとする。
【0087】ステップSC5では、検索部51は、文書
q に含まれるすべての単語のデータを記憶部20から
読み出した後、これを単語群Wa とした後、ステップS
C6へ進む。この場合、上記単語群Wa は、図8(b)
に示した文書番号「7E1−8124」に関する単語群
である。ステップSC6では、検索部51は、入力文Q
と文書Aq との間の類似度を計算する類似度計算処理
(図7参照)を実行する。
【0088】すなわち、図7に示したステップSD1で
は、検索部51は、ステップSC2(図6参照)で抽出
された単語群Wq およびステップSC5で読み込まれた
単語群Wa から、入力文Qと文書Aq とに共通に含まれ
る単語を抽出し、抽出結果を単語群Waqとした後、ステ
ップSD2へ進む。ステップSD2では、検索入力部5
1は、入力文Qと文書Aq との間、すなわち二つの文書
間の類似度Pa に初期値「0」を代入した後、ステップ
SD3へ進む。
【0089】ステップSD3では、検索部51は、ステ
ップSD1で抽出された単語群Waqから一つの単語を抽
出し、これを単語Wt とした後、ステップSD4へ進
む。ステップSD4では、検索部51は、上記単語Wt
の単語重要度のデータを記憶部20から読み込み、これ
を単語重要度It とした後、ステップSD5へ進む。ス
テップSD5では、検索部51は、上記単語重要度It
を二乗した値を類似度P a に加算した後、ステップSD
6へ進む。ステップSD6では、検索部51は、ステッ
プSD1で抽出された単語群Waqのすべての単語に関す
る処理が終了したか否かを判断する。ここでいう処理と
は、ステップSD3〜ステップSD5までの一連の処理
をいう。この場合、検索部51は、ステップSD6の判
断結果を「No」として、ステップSD3に戻る。
【0090】以後、検索部51は、上述した動作と同様
にして、単語群Waq における他の単語Wt における単
語重要度It を二乗した値を類似度Pa に加算する。そ
して、単語群Waqにおける最後の単語Wt に関する処理
が終了すると、検索部51は、ステップSD6の判断結
果を「Yes」として、ステップSD7へ進む。ステッ
プSD7では、検索部51は、複数の単語Wt に関する
それぞれの単語重要度It の二乗和として計算された類
似度Pa を文書Aq (ステップSC4:図6参照)と入
力文Q(ステップSC1:図6参照)との文書間類似度
とした後、図6に示したメインルーチンに戻る。
【0091】つぎに、図6に示したステップSC7で
は、検索部51は、上述した文書Aqおよびこれに対応
する類似度Pa を検索結果として出力部70へ出力した
後、ステップSC8へ進む。ステップSC8では、検索
部51は、記憶部10に記憶されているすべての被検索
対象文書に関する処理が終了したか否かを判断する。こ
こでいう処理とは、ステップSC4〜ステップSC7ま
での一連の処理をいう。この場合、検索部51は、ステ
ップSC8の判断結果を「No」として、ステップSC
4に戻る。
【0092】以後、検索部51は、上述した動作と同様
にして、図8(a)に示した文書番号「7E1−812
4」以外の文書番号に対応する他の被検索対象文書につ
いての処理を行う。そして、図8(a)に示した最後の
被検索対象文書(たとえば、文書番号「7E2−293
2」の被検索対象文書)に関する処理が終了すると、検
索部51は、ステップSC8の判断結果を「Yes」と
して、ステップSC9へ進む。ステップSC9では、検
索部51は、出力部70に対してすべての検索結果(文
書Aq および類似度Pa )を類似度が高いものから順に
出力するように指示を出した後、検索処理を終了する。
これにより、出力部70には、検索結果として、入力文
Qに類似する文書Aq および類似度Pa が、類似度が高
い順に表示される。したがって、検索者は、たとえば、
最も類似度が高い文書Aq を検索結果として利用する。
【0093】以上説明したように、一実施の形態によれ
ば、前述した(1式)に示した共出語種数Cw と出現文
書数Nw という考え方を導入し、両者の共出語種比率
(Cw/Nw )に基づいて、単語重要度Iw を求めるよ
うにしたので、被検索対象文書に含まれる重要度が高い
単語を的確に判断することが可能となる。
【0094】また、一実施の形態によれば、入力文Qに
含まれる単語を抽出した抽出結果と被検索対象文書に含
まれる単語を抽出した抽出結果とを比較し、両者に共通
の単語に関する単語重要度に基づいて、入力文Qと被検
索対象文書との間の類似度P a を計算し、この類似度P
a に基づいて検索結果を求めるようにしたので、単語重
要度が考慮された検索結果が得られることから、検索結
果の信頼性が向上する。
【0095】また、一実施の形態によれば、単語重要度
が考慮された検索結果が得られることから、検索者にと
って重要度が低い被検索対象文書が検索結果とされるこ
とがないため検索時間を短縮することができる。
【0096】さらに、一実施の形態によれば、自然言語
の入力文Qから単語を抽出し、この抽出結果と、単語重
要度とに基づく文書検索が行われるため、従来のキーワ
ード検索に比して、検索者のスキルに左右されることな
く、的確に文書検索を行うことができる。
【0097】ここで、発明者は、一実施の形態の効果を
定量的に知るために、12000件の被検索対象文書に
含まれる1666個の単語の単語重要度を上述した装置
によりそれぞれ計算する評価試験を行った。図9(a)
は、評価試験において重要度が高い単語の例であり、図
9(b)は、上記評価試験において重要度が低い単語の
例である。また、図9(a)および(b)において、
「単語」は、単語重要度の計算対象であり、「出現事例
数」は、前述した出現文書数Nw (ステップSB5参
照)に対応しており、「重要度」は、前述した単語重要
度Iw (ステップSB6参照)に対応している。また、
図9(a)および(b)においては、被検索対象文書に
おける出現頻度がほぼ同じ単語群についての評価試験の
結果が図示されている。
【0098】図9(a)および(b)からわかるよう
に、「再度」、「確認」、「状態」等のように一般的な
単語は、単語重要度が低く評価されているのに対して、
「2051」、「製品名」、「SQL」等のように被検
索対象文書の特徴を表す特徴的な単語は、単語重要度が
高く評価されている。また、発明者は、上記評価試験の
妥当性を確認するために、一般的な単語と特徴的な単語
が正しく識別されているか否かを英和・和英辞典を用い
て検証した。ここで、発明者は、英和・和英辞典とし
て、研究社刊の新英和・和英中辞典(竹林・吉川・小川
・コリック・日南田、田辺 編)を使用した。
【0099】この検証の手法としては、上記英和・和英
辞典の見出し語を一般的な単語と見なし、出現事例数が
「50」以上の単語(352語)および出現事例数が
「50」未満の単語(1314語)に関して、それぞれ
単語重要度が上位50語の単語および下位50語の単語
が上記見出し語になっているか否かを調査する手法をと
った。この検証結果を図9(c)に示す。この図9
(c)からわかるように、発明者が行った評価試験にお
いては、一般的な単語と特徴的な単語とが識別されてい
る。
【0100】以上本発明にかかる一実施の形態について
図面を参照して詳述してきたが、具体的な構成例はこの
一実施の形態に限られるものではなく、本発明の要旨を
逸脱しない範囲の設計変更等があっても本発明に含まれ
る。たとえば、前述した一実施の形態においては、単語
重要度計算装置の機能または文書検索装置の機能を実現
するための単語重要度計算プログラムまたは文書検索プ
ログラムを図10に示したコンピュータ読み取り可能な
記録媒体200に記録して、この記録媒体200に記録
された単語重要度計算プログラムまたは文書検索プログ
ラムを同図に示したコンピュータ100に読み込ませ、
実行することにより単語重要度計算または文書検索を行
うようにしてもよい。
【0101】図10に示したコンピュータ100は、上
記単語重要度計算プログラム、文書検索プログラムを実
行するCPU101と、キーボード、マウス等の入力装
置102と、各種データを記憶するROM(Read Only
Memory)103と、演算パラメータ等を記憶するRAM
(Random Access Memory)104と、記録媒体200か
ら単語重要度計算プログラム、文書検索プログラムを読
み取る読取装置105と、ディスプレイ、プリンタ等の
出力装置106と、装置各部を接続するバスBUとから
構成されている。
【0102】CPU101は、読取装置105を経由し
て記録媒体200に記録されている単語重要度計算プロ
グラムまたは文書検索プログラムを読み込んだ後、単語
重要度計算プログラムまたは文書検索プログラムを実行
することにより、前述した単語重要度計算または文書検
索を行う。なお、記録媒体200には、光ディスク、フ
ロッピーディスク、ハードディスク等の可搬型の記録媒
体が含まれることはもとより、ネットワークのようにデ
ータを一時的に記録保持するような伝送媒体も含まれ
る。
【0103】また、一実施の形態においては、図1に示
したように、単語情報設定処理、単語重要度計算処理お
よび検索処理という三つの処理を一つの装置で実行する
例について説明したが、これに限られることなく、図1
1〜図13にそれぞれ示した変形例2のように、上記三
つの処理をそれぞれ独立した装置で実行するようにして
もよい。
【0104】つまり、図11に示した例では、記憶部1
0、記憶部20および単語抽出部30から単語情報設定
処理を実行する単語情報設定装置が構成されおり、図1
2に示した例では、記憶部20および単語重要度計算処
理部40から単語重要度計算装置が構成されている。ま
た、図13に示した例では、記憶部10、記憶部20、
検索処理部50、検索部51、単語抽出部52、入力部
60および出力部70から文書検索装置が構成されてい
る。なお、図11〜図13においては、図1に対応する
部分には同一の符号を付けその説明を省略する。
【0105】また、一実施の形態においては、図1に示
した記憶部10および記憶部20としてハードディスク
装置を用いた例について説明したが、これに代えて、可
搬型の記録媒体に対する書き込み、読み出しを行う記憶
装置を用いてもよい。この場合、可搬型の記録媒体とし
ては、CD−ROM(Compact Disk-Read Only Memor
y)、光磁気ディスク、フロッピーディスク等が挙げら
れる。
【0106】さらに、一実施の形態においては、一つの
被検索対象文書のすべての範囲(単語)を対象として共
出語を計数しこの計数結果を共出語種数Cw (ステップ
SB4:図5参照)とする例について説明したが、一つ
の被検索対象文書において共出語を計数する範囲は、適
宜変更される。たとえば、一つの被検索対象文書におい
て共出語を計数する範囲は、つぎの(A)項〜(C)項
の範囲としてもよい。なお、(A)項〜(C)項以外の
範囲であっても本発明に含まれる。 (A)被検索対象文書において単語w(ステップSB
4:図5参照)を含む一つの段落を共出語の計数範囲と
する。 (B)被検索対象文書において単語wを含む一つの文を
共出語の計数範囲とする。 (C)被検索対象文書において単語wよりn単語前に存
在する単語から、単語wよりn単語後に存在する単語ま
での範囲。ただしnは自然数である。
【0107】ここで、被検索対象文書としてつぎの二つ
の文からなるものを例示する。「MqXS/JMを経由
し、バッチプログラムにてORACLEの更新を実行
後、10分ぐらいで、異常終了した。原因と対処方法を
教えてほしい。」
【0108】上記被検索対象文書に対して(A)項の範
囲を適用した場合には、単語wを「ORACLE」とす
ると、一つの段落(MqXS/JM・・・教えてほし
い。)が共出語の計数範囲となる。したがって、この場
合、「ORACLE」に関する共出語は、「MqXS/
JM」、「経由」、「バッチプログラム」、「更新」、
「実行後」、「10」、「異常終了」、「原因」および
「対処方法」である。
【0109】同様にして、被検索対象文書に対して
(B)項の範囲を適用した場合には、単語wを「ORA
CLE」とすると、一つの文(MqXS/JM・・・異
常終了した。)が共出語の計数範囲となる。したがっ
て、この場合、「ORACLE」に関する共出語は、
「MqXS/JM」、「経由」、「バッチプログラ
ム」、「更新」、「実行後」、「10」および「異常終
了」である。
【0110】さらに、被検索対象文書に対して(C)項
の範囲を適用した場合には、単語wを「ORACLE」
とし、かつn=2とすると、「ORACLE」より2単
語前に存在する「経由」から、2単語後に存在する「実
行後」までが共出語の計数範囲となる。したがって、こ
の場合、「ORACLE」に関する共出語は、「経
由」、「バッチプログラム」、「更新」および「実行
後」である。このように、一つの被検索対象文書におい
て共出語を計数する範囲を適宜変更できるようにした場
合には、文書の検索条件(単語重要度の計算条件)を変
えて文書検索(単語重要度の計算)が可能となることか
ら、汎用性が向上する。
【0111】
【発明の効果】以上説明したように、請求項1にかかる
発明によれば、被検索対象文書における計算対象単語以
外の単語の計数結果、および選択手段により選択された
すべての被検索対象文書の文書数の計数結果に基づい
て、単語重要度を求めるようにしたので、被検索対象文
書に含まれる重要度が高い単語を的確に判断することが
可能となるという効果を奏する。
【0112】また、請求項2にかかる発明によれば、計
算対象単語以外の単語を計数すべき被検索対象文書にお
ける範囲を任意の範囲として変更できるため、単語重要
度の計算条件を変えることが可能となり、汎用性が向上
するという効果を奏する。
【0113】また、請求項3、6にかかる発明によれ
ば、入力文に含まれる単語を抽出した抽出結果と被検索
対象文書に含まれる単語を抽出した抽出結果とを比較
し、両者に共通の単語に関する単語重要度に基づいて、
入力文と被検索対象文書との間の類似度を計算し、この
類似度に基づいて検索結果を求めるようにしたので、単
語重要度が考慮された検索結果が得られることから、検
索結果の信頼性が向上するという効果を奏する。
【0114】さらに、請求項3、6にかかる発明によれ
ば、単語重要度が考慮された検索結果が得られることか
ら、検索者にとって重要度が低い被検索対象文書が検索
結果とされることがないため検索時間を短縮することが
できるという効果を奏する。
【0115】加えて、請求項3、6にかかる発明によれ
ば、入力文から単語を抽出し、この抽出結果と、単語重
要度とに基づく文書検索が行われるため、従来のキーワ
ード検索に比して、検索者のスキルに左右されることな
く、的確に文書検索を行うことができるという効果を奏
する。
【0116】また、請求項4にかかる発明によれば、計
算対象単語以外の単語を計数すべき被検索対象文書にお
ける範囲を任意の範囲として変更できるため、検索条件
を変えることが可能となり、汎用性が向上するという効
果を奏する。
【0117】また、請求項5にかかる発明によれば、被
検索対象文書における計算対象単語以外の単語の計数結
果、および選択工程において選択されたすべての被検索
対象文書の文書数の計数結果に基づいて、単語重要度を
求めるようにしたので、被検索対象文書に含まれる重要
度が高い単語を的確に判断することが可能となるという
効果を奏する。
【図面の簡単な説明】
【図1】本発明にかかる一実施の形態の構成を示すブロ
ック図である。
【図2】同一実施の形態における単語重要度計算処理の
概要を説明する図である。
【図3】同一実施の形態における検索処理の概要を説明
する図である。
【図4】同一実施の形態における単語情報設定処理を説
明するフローチャートである。
【図5】同一実施の形態における単語重要度計算処理を
説明するフローチャートである。
【図6】同一実施の形態における検索処理を説明するフ
ローチャートである。
【図7】図6に示した類似度計算処理を説明するフロー
チャートである。
【図8】同一実施の形態において用いられる文書例を示
す図である。
【図9】同一実施の形態の効果を説明する図である。
【図10】同一実施の形態の変形例1を示すブロック図
である。
【図11】同一実施の形態の変形例2を示すブロック図
である。
【図12】同一実施の形態の変形例2を示すブロック図
である。
【図13】同一実施の形態の変形例2を示すブロック図
である。
【符号の説明】
10 記憶部 20 記憶部 30 単語抽出部 40 単語重要度計算処理部 50 検索処理部 51 検索部 52 単語抽出部 100 コンピュータ 200 記録媒体

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 複数の被検索対象文書を対象として、被
    検索対象文書毎に、当該被検索対象文書に含まれる単語
    をそれぞれ抽出する単語抽出手段と、 前記単語抽出手段の抽出結果から単語重要度の計算対象
    である計算対象単語を一つづつ選択し、前記複数の被検
    索対象文書から該計算対象単語を含む被検索対象文書を
    選択する選択手段と、 前記選択手段により選択されたすべての被検索対象文書
    における前記計算対象単語以外の単語を計数し、前記選
    択手段により選択されたすべての被検索対象文書の文書
    数を計数する計数手段と、 前記計数手段の計数結果に基づいて、前記複数の被検索
    対象文書に含まれる計算対象単語の重要度を計算する単
    語重要度計算手段と、 を備えることを特徴とする単語重要度計算装置。
  2. 【請求項2】 前記計数手段は、前記被検索対象文書に
    おける任意の範囲を、前記計算対象単語以外の単語を計
    数すべき範囲とすることを特徴とする請求項1に記載の
    単語重要度計算装置。
  3. 【請求項3】 複数の被検索対象文書を対象として、被
    検索対象文書毎に、当該被検索対象文書に含まれる単語
    をそれぞれ抽出する第1の単語抽出手段と、 前記第1の単語抽出手段の抽出結果から単語重要度の計
    算対象である計算対象単語を一つづつ選択し、前記複数
    の被検索対象文書から該計算対象単語を含む被検索対象
    文書を選択する選択手段と、 前記選択手段により選択されたすべての被検索対象文書
    における前記計算対象単語以外の単語を計数し、前記選
    択手段により選択されたすべての被検索対象文書の文書
    数を計数する計数手段と、 前記計数手段の計数結果に基づいて、前記複数の被検索
    対象文書に含まれる計算対象単語の重要度を計算する単
    語重要度計算手段と、 検索キーである入力文に含まれる単語を抽出する第2の
    単語抽出手段と、 前記第1の単語抽出手段における一つの被検索対象文書
    に対応する抽出結果と前記第2の単語抽出手段の抽出結
    果とを、被検索対象文書毎に順次比較する比較手段と、 前記比較手段の比較結果より両抽出結果間で共通の単語
    を認識し、該共通の単語に関する単語重要度に基づい
    て、前記入力文と当該被検索対象文書との間の類似度を
    計算する類似度計算手段と、 前記類似度計算手段の計算結果に基づいて、類似度が高
    い被検索対象文書を検索結果として出力する出力手段
    と、 を備えることを特徴とする文書検索装置。
  4. 【請求項4】 前記計数手段は、前記被検索対象文書に
    おける任意の範囲を、前記計算対象単語以外の単語を計
    数すべき範囲とすることを特徴とする請求項3に記載の
    文書検索装置。
  5. 【請求項5】 複数の被検索対象文書を対象として、被
    検索対象文書毎に、当該被検索対象文書に含まれる単語
    をそれぞれ抽出させる単語抽出工程と、 前記単語抽出工程における抽出結果から単語重要度の計
    算対象である計算対象単語を一つづつ選択させ、前記複
    数の被検索対象文書から該計算対象単語を含む被検索対
    象文書を選択させる選択工程と、 前記選択工程において選択されたすべての被検索対象文
    書における前記計算対象単語以外の単語を計数させ、前
    記選択工程において選択されたすべての被検索対象文書
    の文書数を計数させる計数工程と、 前記計数工程における計数結果に基づいて、前記複数の
    被検索対象文書に含まれる計算対象単語の重要度を計算
    させる単語重要度計算工程と、 をコンピュータに実行させるための単語重要度計算プロ
    グラムを記録したコンピュータ読み取り可能な記録媒
    体。
  6. 【請求項6】 複数の被検索対象文書を対象として、被
    検索対象文書毎に、当該被検索対象文書に含まれる単語
    をそれぞれ抽出させる第1の単語抽出工程と、 前記第1の単語抽出工程における抽出結果から単語重要
    度の計算対象である計算対象単語を一つづつ選択させ、
    前記複数の被検索対象文書から該計算対象単語を含む被
    検索対象文書を選択させる選択工程と、 前記選択工程において選択されたすべての被検索対象文
    書における前記計算対象単語以外の単語を計数させ、前
    記選択工程において選択されたすべての被検索対象文書
    の文書数を計数させる計数工程と、 前記計数工程における計数結果に基づいて、前記複数の
    被検索対象文書に含まれる計算対象単語の重要度を計算
    させる単語重要度計算工程と、 検索キーである入力文に含まれる単語を抽出させる第2
    の単語抽出工程と、 前記第1の単語抽出工程における一つの被検索対象文書
    に対応する抽出結果と前記第2の単語抽出工程の抽出結
    果とを、被検索対象文書毎に順次比較させる比較工程
    と、 前記比較工程における比較結果より両抽出結果間で共通
    の単語を認識させ、該共通の単語に関する単語重要度に
    基づいて、前記入力文と当該被検索対象文書との間の類
    似度を計算させる類似度計算工程と、 前記類似度計算工程の計算結果に基づいて、類似度が高
    い被検索対象文書を検索結果として出力させる出力工程
    と、 をコンピュータに実行させるための文書検索プログラム
    を記録したコンピュータ読み取り可能な記録媒体。
JP22148399A 1999-08-04 1999-08-04 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3725373B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22148399A JP3725373B2 (ja) 1999-08-04 1999-08-04 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22148399A JP3725373B2 (ja) 1999-08-04 1999-08-04 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2001052001A true JP2001052001A (ja) 2001-02-23
JP3725373B2 JP3725373B2 (ja) 2005-12-07

Family

ID=16767428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22148399A Expired - Fee Related JP3725373B2 (ja) 1999-08-04 1999-08-04 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3725373B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086074A (ja) * 2008-09-29 2010-04-15 Hitachi Omron Terminal Solutions Corp 音声処理装置、音声処理方法、および、音声処理プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH06314307A (ja) * 1992-08-10 1994-11-08 Fujitsu F I P Kk キーワード照合検索処理方法
JPH07319882A (ja) * 1994-05-20 1995-12-08 Nec Corp キーワードの判定方法
JPH10240759A (ja) * 1997-02-28 1998-09-11 Sharp Corp 検索装置
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH06314307A (ja) * 1992-08-10 1994-11-08 Fujitsu F I P Kk キーワード照合検索処理方法
JPH07319882A (ja) * 1994-05-20 1995-12-08 Nec Corp キーワードの判定方法
JPH10240759A (ja) * 1997-02-28 1998-09-11 Sharp Corp 検索装置
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086074A (ja) * 2008-09-29 2010-04-15 Hitachi Omron Terminal Solutions Corp 音声処理装置、音声処理方法、および、音声処理プログラム

Also Published As

Publication number Publication date
JP3725373B2 (ja) 2005-12-07

Similar Documents

Publication Publication Date Title
US7269544B2 (en) System and method for identifying special word usage in a document
JP2742115B2 (ja) 類似文書検索装置
US20030046263A1 (en) Method and system for mining a document containing dirty text
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010519655A (ja) 名前照合システムの名前インデックス付け
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
WO2016143449A1 (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
CN112395867A (zh) 同义词挖掘方法、装置、存储介质及计算机设备
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3198932B2 (ja) 文書検索装置
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
JP4969209B2 (ja) 検索システム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004192546A (ja) 情報検索方法、装置、プログラム、および記録媒体
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP3249743B2 (ja) 文書検索システム
JP2001052001A (ja) 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000207404A (ja) 文書検索方法及び装置並びに記録媒体
CN114444491A (zh) 新词识别方法和装置
JP3848014B2 (ja) 文書検索方法および文書検索装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050531

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050921

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees