JP4008551B2

JP4008551B2 - キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4008551B2
Application number: JP30516797A
Authority: JP
Inventors: 青史岡本; 伸弘湯上; 俊二松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-11-07
Filing date: 1997-11-07
Publication date: 2007-11-14
Anticipated expiration: 2017-11-07
Also published as: JPH11143892A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書中に出現するキーワードの重みを生成するキーワード重み生成装置及び方法と、それを実現するプログラムを記録したコンピュータ読み取り可能な記録媒体とに関し、特に、的確なキーワードの重みを生成できるようにするキーワード重み生成装置及び方法と、それを実現するプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。
【０００２】
インターネットやイントラネットの整備に伴い、文書データベースの大規模化が進んでいる。これから、大規模な文書データベースの中から、ユーザの欲する文書を出来るだけ早く正確に提供する文書検索はますます重要になってきている。
【０００３】
文書検索では、複数のキーワードを設定しておき、２つの文書に出現するキーワードをリストアップして、それらのキーワードの重みの合計値などを算出することで、２つの文書の距離を評価するという構成を採っている。
【０００４】
これから、キーワードの重要度を示す重みを生成することは非常に重要である。なぜならば、この生成されたキーワードの重みを用いて、ユーザの質問に適した順序でソートして検索結果を提供するというランキング検索の検索精度を向上させることが出来るばかりでなく、検索に不要なキーワードをインデックスから削除することによりインデックスのサイズを縮小化出来たり、重みを用いてランキング検索の上位にくる確率の高い順にインデックス中の文書の並べ替えを行うことにより、検索速度の向上を図ることが出来るからである。
【０００５】
このようなことを背景にして、的確なキーワードの重みを生成できるようにする技術の構築が叫ばれている。
【０００６】
【従来の技術】
従来では、文書中に出現するキーワードの重みを、ＴＦ（Ｔext Ｆrequency) やＩＤＦ（Ｉnverse Ｄocument Ｆrequency) という手法を用いて算出していた。
【０００７】
ＴＦは、文書中のキーワードの出現頻度に対する重みを表すもので、出現頻度が高ければ高いほど大きな値を持つように設定されている。
また、ＩＤＦは、文書データベース中におけるキーワードの出現の分散を表現したもので、例えば、
ＩＤＦ_i＝log₂[(Ｎ−ｎ_i）／ｎ_i]
但し、Ｎ：文書データベース中の文書数
ｎ_i：文書データベース中のキーワードｉの出現頻度
という算出式でキーワードの重みを算出する。
【０００８】
このＩＤＦは、文書データベース中のキーワードの出現頻度が低ければ低いほど大きな値を持つように設定されている。
このように、従来では、キーワードの出現頻度に基づいたＴＦやＩＤＦを用いて、文書中に出現するキーワードの重みを生成するという構成を採っていた。
【０００９】
【発明が解決しようとする課題】
しかしながら、従来技術に従っていると、文書中に出現するキーワードの重みが出現頻度の統計量だけによって決定されており、これから、適切なキーワードの重みを生成することが難しいという問題点があった。
【００１０】
すなわち、形態素解析ツールなどにより文書から抽出されるキーワードにはノイズを含んだものも多く、このノイズを含んだキーワードの出現頻度の統計量のみからキーワードの重みを生成するという従来技術に従っていると、重み設定の妥当性の低下をもたらすことになる。
【００１１】
これから、従来技術に従っていると、キーワードの重みの妥当性が低いことから、検索速度の向上やインデックスサイズの縮小化の実現が困難になるという問題点を抱えていた。
【００１２】
本発明はかかる事情に鑑みてなされたものであって、文書中に出現するキーワードに対して的確な重みを生成できるようにする新たなキーワード重み生成装置及び方法の提供と、それを実現するプログラムを記録した新たなコンピュータ読み取り可能な記録媒体の提供とを目的とする。
【００１３】
【課題を解決するための手段】
この目的を達成するために、本発明のキーワード重み生成装置は、文書中に出現するキーワードの重みを生成するために、（１）文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第１の重みを算出する第１の算出手段と、（２）文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報から各キーワードの第２の重みを算出する第２の算出手段と、（３）第１の算出手段の算出した第１の重みと第２の算出手段の算出した第２の重みとの重要度比値の候補となる複数の重要度比値候補を設定する設定手段と、（４）設定手段の設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って第１の重みと第２の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に１つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、設定手段の設定した各重要度比値候補の得点を評価する評価手段と、（５）評価手段の評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを第１の算出手段の算出した第１の重みと第２の算出手段の算出した第２の重みとの最終的な重要度比値として決定する決定手段とを備えるように構成する。
次に、図１に従って、本発明の概要について説明する。
図中、１は本発明を具備するキーワード重み生成装置であって、文書中に出現するキーワードの重みを生成するもの、２はキーワード重み生成装置１の参照する文書データベースであって、キーワードの重み生成処理に用いられる文書を、それが属するカテゴリと対応付けて管理するもの、３はキーワード重み生成装置１の備える端末であって、ユーザとの対話手段となるものである。
【００１４】
本発明のキーワード重み生成装置１は、第１の算出手段１０と、第２の算出手段１１と、生成手段１２とを備える。
この第１の算出手段１０は、文書データベース２を参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、その統計情報から各キーワードの第１の重みを算出する。
【００１５】
第２の算出手段１１は、文書データベース２を参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、その出現頻度情報から各キーワードの第２の重みを算出する。
【００１６】
生成手段１２は、第１の算出手段１０の算出した第１の重みと第２の算出手段１１の算出した第２の重みとの重要度比値を決定して、その重要度比値に従ってそれらの重みを合成することで、各キーワードの重みを生成する。
【００１７】
ここで、本発明のキーワード重み生成装置１の持つ機能は具体的にはプログラムで実現されるものであり、このプログラムは、フロッピィディスクなどに記憶されたり、サーバなどのディスクなどに記憶され、それらからキーワード重み生成装置１にインストールされてメモリ上で動作することで、本発明を実現することになる。
【００１８】
このように構成される本発明のキーワード重み生成装置１では、第１の算出手段１０は、各キーワードの出現する文書数や、全文書中の各キーワードの出現頻度などから、各キーワードの出現する文書のカテゴリ情報を用いないで、各キーワードの第１の重みを算出する。
【００１９】
一方、第２の算出手段１１は、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、その出現頻度情報から、カテゴリに依存しない形で、各キーワードの第２の重みを算出する。
【００２０】
この重みの算出処理を受けて、生成手段１２は、重要度比値を複数想定し、cross-validation法を使って、その想定した重要度比値の有効性を評価して最適なものを選択することで重要度比値を決定して、その決定した重要度比値に従ってそれらの重みを合成することで、各キーワードの重みを生成する。
【００２１】
このように、本発明のキーワード重み生成装置１は、従来技術のように、文書に出現するキーワードの統計情報からキーワードの重みを生成するのではなくて、その重みとカテゴリ情報を考慮した重みとを合成することで、キーワードの重みを生成することから、文書のカテゴリ情報を内包したキーワードの重みを生成することになって、的確なキーワードの重みを生成できるようになる。
【００２２】
【発明の実施の形態】
以下、実施の形態に従って本発明を詳細に説明する。
図２に、本発明の一実施例を図示する。図中、図１で説明したものと同じものについては同一の記号で示してある。
【００２３】
本発明のキーワード重み生成装置１の参照対象となる文書データベース２は、参照対象となる各文書を管理するとともに、それらの各文書がどのカテゴリに属するのを管理する文書ファイル２０と、インバーティッドファイル形式やシグネチャファイル形式に従って、文書ファイル２０に管理される各文書の持つキーワードの情報を管理するインデックスファイル２１とを備える。
【００２４】
一方、本発明のキーワード重み生成装置１は、本発明を実現するために、統計重み算出プログラム３０と、第１の作業域３１と、カテゴリ重み算出プログラム３２と、第２の作業域３３と、重み生成プログラム３４と、第３の作業域３５とを備える。
【００２５】
ここで、統計重み算出プログラム３０やカテゴリ重み算出プログラム３２やカテゴリ重み算出プログラム３２は、フロッピィディスクや回線等を介してインストールされることになる。
【００２６】
この統計重み算出プログラム３０は、文書データベース２を参照することで、文書に出現する各キーワードの統計情報を求めて、その統計情報から各キーワードの重みを算出して、それを第１の作業域３１に格納する。
【００２７】
すなわち、各キーワードの出現する文書数や、全文書中の各キーワードの出現頻度などから、例えば図３に示すような関数に従って各キーワードの重みを算出して、それを第１の作業域３１に格納する処理を行う。
【００２８】
なお、各文書が短くキーワード数が少ない場合には、出現文書数を使う方が有効なので出現文書数を使って各キーワードの重みを算出し、各文書が長くキーワード数が多い場合には、出現頻度を使う方が有効なので出現頻度を使って各キーワードの重みを算出するというように、文書の種類に応じてキーワードの重みの算出に用いる統計情報を変える構成を採ることも可能である。
【００２９】
一方、カテゴリ重み算出プログラム３２は、文書データベース２を参照することで、各キーワードの出現する文書のカテゴリ情報と、その文書に出現する各キーワードの出現頻度とを求めて、それらの情報から各キーワードの重みを算出して、それを第２の作業域３３に格納する。
【００３０】
すなわち、キーワードｋ_iは、カテゴリＡの文書にｎ_A個出現し、カテゴリＢの文書にｎ_B個出現し、カテゴリＣの文書にｎ_C個出現するというような情報を求めて、それらの情報から、例えば、特定のカテゴリの文書に集中的に出現するキーワードについては大きな重みを算出し、多くのカテゴリの文書に出現するキーワードについては小さな重みを算出するというようにして各キーワードの重みを算出して、それを第２の作業域３３に格納する処理を行う。
【００３１】
このとき、カテゴリに依存しない形で重みを算出することもあるし、カテゴリに依存する形で重みを算出することもある。前者の重みは、カテゴリ間の分散が小さい場合に特に有効であり、後者の重みは、カテゴリ間の分散が大きい場合に特に有効である。また、各カテゴリに出現するキーワードの個数については考慮しないで重みを算出することもある。
【００３２】
カテゴリ重み算出プログラム３２は、実際にカテゴリ分類を行うことで高い分類精度を実現する重みを特定することで行うものである。これまでの文書検索の技術では用いられていないが、分類問題では用いられている技術であり、例えば、「O.H.Creecy and B.M.Masand and S.J.Smith and D.Waltz, "Trading Mips and Memory for Knowledge Engineering" CACM, VOL35, pp.48-63 (1992) 」などで紹介されているアルゴリズムを用いることが可能である。
【００３３】
重み生成プログラム３４は、統計重み算出プログラム３０とカテゴリ重み算出プログラム３２を起動しつつ、本発明に特徴的なキーワードの重みを生成する処理を実行する。
【００３４】
図４に、本発明に関連する技術を実現するために重み生成プログラム３４が実行する処理フローの一例を図示する。次に、この処理フローに従って、本発明に関連する技術について詳細に説明する。
重み生成プログラム３４は、キーワードの重みの生成要求が発行されると、図４の処理フローに示すように、先ず最初に、ステップ１で、ユーザと対話することなどにより、重みの生成対象となるキーワード（ｋ１〜ｋｍ）を設定する。
【００３５】
続いて、ステップ２で、この設定したキーワード（ｋ１〜ｋｍ）を指定して、統計重み算出プログラム３０を起動し、続いて、ステップ３で、この設定したキーワード（ｋ１〜ｋｍ）を指定して、カテゴリ重み算出プログラム３２を起動する。
【００３６】
このようにして起動されると、統計重み算出プログラム３０は、文書データベース２を参照することで、各キーワードの出現する文書数や、全文書中の各キーワードの出現頻度を求めて、それを図３に示したような関数に代入することで、各キーワードの重み（ＷＮ１〜ＷＮｍ）を算出して、図５に示すように第１の作業域３１に格納する。
【００３７】
一方、このようにして起動されると、カテゴリ重み算出プログラム３２は、文書データベース２を参照することで、各キーワードの出現する文書のカテゴリ情報と、その文書に出現する各キーワードの出現頻度とを求めて、それらの情報からカテゴリに依存しない形で各キーワードの重み（ＷＣ１〜ＷＣｍ）を算出して、図６に示すように第２の作業域３３に格納する。
【００３８】
これから、重み生成プログラム３４は、統計重み算出プログラム３０／カテゴリ重み算出プログラム３２を起動すると、続いて、ステップ４で、これらのプログラムからの処理終了通知を待って、処理終了通知を受け取ると、ステップ５に進んで、ユーザと対話することで、統計重み算出プログラム３０の算出した重み（ＷＮ１〜ＷＮｍ）と、カテゴリ重み算出プログラム３２の算出した重み（ＷＣ１〜ＷＣｍ）との重要度の比を示す値α（重要度比値α）を決定する。
【００３９】
続いて、ステップ６で、第１の作業域３１から、統計重み算出プログラム３０の算出した重み（ＷＮ１〜ＷＮｍ）を読み出すとともに、第２の作業域３３から、カテゴリ重み算出プログラム３２の算出した重み（ＷＣ１〜ＷＣｍ）を読み出す。
【００４０】
続いて、ステップ７で、ステップ５で設定した重要度比値αを使い、
Ｗｉ＝ｐ（ＷＮｉ＋α×ＷＣｉ）
但し、ｐ：正規化の係数
の算出式に従って、各キーワード（ｋ１〜ｋｍ）の重みＷｉを算出して、図７に示すように第３の作業域３５に格納して処理を終了する。
【００４１】
このようにして、重み生成プログラム３４は、従来技術のように、文書に出現するキーワードの統計情報からキーワードの重みを生成するのではなくて、その重みとカテゴリ情報を考慮した重みとを合成することで、キーワードの重みを生成するのである。
【００４２】
このようにして生成されるキーワードの重みは、文書のカテゴリ情報を内包したものとなっているので、文書検索に用いると、高精度の検索を実現できるという特徴がある。
【００４３】
図４の処理フローでは、カテゴリ重み算出プログラム３２が、カテゴリに依存しない形で各キーワードの重み（ＷＣ１〜ＷＣｍ）を算出することで説明したが、カテゴリに依存する形で各キーワードの重み（ＷＣｉｊ：ｉ＝キーワードＩＤ，ｊ＝カテゴリＩＤ）を算出することであってもよく、この場合には、重み生成プログラム３４は、カテゴリに依存する形で各キーワードの重み（Ｗｉｊ：ｉ＝キーワードＩＤ，ｊ＝カテゴリＩＤ）を生成することになる。
【００４４】
すなわち、カテゴリ重み算出プログラム３２が、図８に示すように、カテゴリに依存する形で各キーワードの重み（ＷＣｉｊ）を算出するときには、重み生成プログラム３４は、
Ｗｉｊ＝ｐ（ＷＮｉ＋α×ＷＣｉｊ）
但し、ｐ：正規化の係数
の算出式に従って、図９に示すように、カテゴリに依存する形でキーワード（ｋ１〜ｋｍ）の重みＷｉｊを算出することになる。
【００４５】
なお、文書検索において、このようなカテゴリに依存する形のキーワードの重みが与えられるときには、検索対象として指定される文書と、文書データベース２に管理される文書との距離を求めるときに、文書データベース２に管理される文書のカテゴリの指定するキーワードの重みを選択して、それらの重みの合計値などを算出することで、２つの文書の距離を評価することになる。
【００４６】
図１０及び図１１に、重み生成プログラム３４の実行する処理フローの一実施例を図示する。
この処理フローでは、重み生成プログラム３４は、図４の処理フローと異なり、ユーザとの対話処理に依らずに、cross-validation法を使って重要度比値αを自動設定していくことになる。
【００４７】
重み生成プログラム３４は、この図１０及び図１１の処理フローに従う場合には、キーワードの重みの生成要求が発行されると、先ず最初に、ステップ１〜４で、図４の処理フローのステップ１〜４と同一の処理に従って、統計重み算出プログラム３０／カテゴリ重み算出プログラム３２を起動し、その処理終了通知を受け取ると、続いて、ステップ５で、第１の作業域３１から、統計重み算出プログラム３０の算出した重み（ＷＮ１〜ＷＮｍ）を読み出すとともに、第２の作業域３３から、カテゴリ重み算出プログラム３２の算出した重み（ＷＣ１〜ＷＣｍ）を読み出す。
【００４８】
続いて、ステップ６で、重要度比値αに、重要度比値αのとり得る最小値である“０”を設定する。続いて、ステップ７で、重要度比値αがとり得る最大値を超えたのか否かを判断して、超えていないことを判断するときには、ステップ８に進んで、設定されている重要度比値αを使い、
Ｗｉ＝ｐ（ＷＮｉ＋α×ＷＣｉ）
但し、ｐ：正規化の係数
の算出式に従って、キーワード（ｋ１〜ｋｍ）の重みＷｉを算出する。
【００４９】
続いて、ステップ９に進んで、文書データベース２に管理される未選択の文書の中から、文書を１つ選択し、続くステップ１０で、文書データベース２に管理される全ての文書を選択したのか否かを判断して、選択したことを判断するときには、ステップ１１に進んで、重要度比値αを規定量Δだけインクリメントしてからステップ７に戻る。ここで、このルートでステップ７に戻るときには、文書データベース２に管理される文書は全て未選択となるように初期化されることになる。
【００５０】
一方、ステップ１０で、文書データベース２に管理される全ての文書を選択していないことを判断するとき、すなわち、ステップ９で文書を１つ選択できたことを判断するときには、ステップ１２（図１１の処理フロー）に進んで、ステップ８で算出したキーワード（ｋ１〜ｋｍ）の重みＷｉを使って、ステップ９で選択した文書と、文書データベース２に残されている文書との距離を算出して、最も距離の近い文書を検索する。
【００５１】
続いて、ステップ１３で、ステップ９で選択した文書のカテゴリと、ステップ１２で検索した文書のカテゴリとが一致するのか否かを判断して、一致することを判断するときには、ステップ１４に進んで、得点を１つインクリメントしてから、次の文書を選択すべくステップ９に戻り、一致しないことを判断するときには、得点をインクリメントすることなく、次の文書を選択すべくステップ９に戻る。
【００５２】
一方、ステップ７で、重要度比値αがとり得る最大値を超えたことを判断するときには、ステップ１５（（図１１の処理フロー）に進んで、最高得点をとった重要度比値αを特定して、その重要度比値αをキーワードの重み算出に用いる重要度比値αとして決定する。
【００５３】
続いて、ステップ１６で、その決定した重要度比値αに従って、
Ｗｉ＝ｐ（ＷＮｉ＋α×ＷＣｉ）
但し、ｐ：正規化の係数
の算出式に従って、キーワード（ｋ１〜ｋｍ）の重みＷｉを算出して、第３の作業域３５に格納して処理を終了する。
【００５４】
このようにして、重み生成プログラム３４は、図１０及び図１１の処理フローに従う場合には、重要度比値αとして色々な値を想定して、そのときに、文書データベース２から文書を順番に１つずつ選択し、想定した重要度比値αから生成されるキーワードの重みを使って、図１２に示すように、その選択した文書（図中の文書ｒ）と、文書データベース２に残されている文書（図中の文書１〜文書ｒ−１，文書ｒ＋１〜文書１００）との距離を測定する。
【００５５】
そして、その選択した文書に最も距離の近い文書（図中の文書ｓ）を検索して、その２つの文書のカテゴリが一致するときには得点をインクリメントしていって、最も高い得点を示す重要度比値αをキーワードの重み算出に用いる重要度比値αとして決定していくことで、重要度比値αを自動設定していくのである。
【００５６】
ユーザがシステムに熟練している場合や、文書データベース２の更新が頻繁に起こらない場合には、ユーザが重要度比値αを設定することでも的確な重要度比値αを設定することが可能なことで、的確なキーワードの重みを生成できることになるが、そうでない場合には、この重要度比値αの自動設定機能は極めて有効なものとなる。
【００５７】
図１０及び図１１の処理フローでは、カテゴリ重み算出プログラム３２が、カテゴリに依存しない形で各キーワードの重みを算出することで説明したが、カテゴリに依存する形で各キーワードの重みを算出することであってもよく、この場合には、重み生成プログラム３４は、カテゴリに依存する形で各キーワードの重みを生成することになる。
【００５８】
このようにして生成されたキーワードの重みから、小さな重みを持つキーワードを削除するようにすれば、インデックスファイル２１のサイズを縮小できるとともに、検索速度を向上できるようになる。
【００５９】
このキーワードの削除は、大きな重みを持つキーワードから順番に規定個数のキーワードを残し、それ以外のキーワードは削除することで行うとか、規定の閾値よりも小さな重みを持つキーワードを削除することで行う。
【００６０】
この閾値を使ってキーワードを削除する構成を採るときに、上述したcross-validation法を使って、閾値を自動設定することも可能である。
すなわち、閾値として色々な値を想定することで有効なキーワードを想定して、そのときに、文書データベース２から文書を順番に１つずつ選択し、想定した有効なキーワードから、その選択した文書と、文書データベース２に残されている文書との距離を測定する。そして、その選択した文書に最も距離の近い文書を検索して、その２つの文書のカテゴリが一致するときには得点をインクリメントしていって、得点を上げない閾値を求めていくことで、キーワードの削除判定に用いる閾値を設定するようにすれば、この閾値を自動設定できるようになる。
【００６１】
図示実施例に従って本発明を説明したが、本発明はこれに限定されるものではない。例えば、実施例では、統計重み算出プログラム３０の算出した重みと、カテゴリ重み算出プログラム３２の算出した重みとの重要度の比を示す重要度比値αをカテゴリに依存しない形で決定したが、カテゴリに依存する形で決定してもよい。
【００６２】
また、実施例では、文書検索に用いるキーワードの重みとして説明を行ったが、文書がどのカテゴリに属するのを行うような文書分類に対してのキーワードの重みとしても用いることができる。
【００６３】
【発明の効果】
以上説明したように、本発明では、従来技術のように、文書に出現するキーワードの統計情報からキーワードの重みを生成するのではなくて、その重みとカテゴリ情報を考慮した重みとを合成することで、キーワードの重みを生成することから、文書のカテゴリ情報を内包したキーワードの重みを生成することになって、的確なキーワードの重みを生成できるようになる。
【００６４】
そして、本発明では、この２つ重みの合成の割合を自動設定する機能を持つことから、ユーザがシステムに熟練していない場合や、文書データベースの更新が頻繁に起こる場合にも、的確なキーワードの重みを生成できるようになる。
【図面の簡単な説明】
【図１】本発明の概要を説明する図である。
【図２】本発明の一実施例である。
【図３】統計重み算出プログラムの実行処理の説明図である。
【図４】重み生成プログラムの実行する処理フローの一例である。
【図５】第１の作業域に格納される重みの説明図である。
【図６】第２の作業域に格納される重みの説明図である。
【図７】生成されるキーワードの重みの説明図である。
【図８】カテゴリ重み算出プログラムの算出する重みの説明図である。
【図９】生成されるキーワードの重みの説明図である。
【図１０】重み生成プログラムの実行する処理フローの一実施例である。
【図１１】重み生成プログラムの実行する処理フローの一実施例である。
【図１２】重み生成プログラムの実行処理の説明図である。
【符号の説明】
１キーワード重み生成装置
２文書データベース
３端末
１０第１の算出手段
１１第２の算出手段
１２生成手段

Claims

文書中に出現するキーワードの重みを生成するキーワード重み生成装置において、
文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第１の重みを算出する第１の算出手段と、
文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報からカテゴリに依存しない形で各キーワードの第２の重みを算出する第２の算出手段と、
上記第１の算出手段の算出した第１の重みと上記第２の算出手段の算出した第２の重みとの重要度比値の候補となる複数の重要度比値候補を設定する設定手段と、
上記設定手段の設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って上記第１の重みと上記第２の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に１つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、上記設定手段の設定した各重要度比値候補の得点を評価する評価手段と、
上記評価手段の評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを上記第１の算出手段の算出した第１の重みと上記第２の算出手段の算出した第２の重みとの最終的な重要度比値として決定する決定手段とを備えることを、
特徴とするキーワード重み生成装置。
第１の算出手段と第２の算出手段と設定手段と評価手段と決定手段とを備えて、文書中に出現するキーワードの重みを生成するキーワード重み生成装置で実行されるキーワード重み生成方法であって、
上記第１の算出手段が、文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第１の重みを算出し、
上記第２の算出手段が、文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報から各キーワードの第２の重みを算出し、
上記設定手段が、上記第１の算出手段の算出した第１の重みと上記第２の算出手段の算出した第２の重みとの重要度比値の候補となる複数の重要度比値候補を設定し、
上記評価手段が、上記設定手段の設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って上記第１の重みと上記第２の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に１つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、上記設定手段の設定した各重要度比値候補の得点を評価し、
上記決定手段が、上記評価手段の評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを上記第１の算出手段の算出した第１の重みと上記第２の算出手段の算出した第２の重みとの最終的な重要度比値として決定することを、
特徴とするキーワード重み生成方法。
文書中に出現するキーワードの重みを生成するキーワード重み生成装置の実現に用いられるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第１の重みを算出する第１の算出処理と、
文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報から各キーワードの第２の重みを算出する第２の算出処理と、
上記第１の算出処理で算出した第１の重みと上記第２の算出処理で算出した第２の重みとの重要度比値の候補となる複数の重要度比値候補を設定する設定処理と、
上記設定処理で設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って上記第１の重みと上記第２の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に１つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、上記設定処理で設定した各重要度比値候補の得点を評価する評価処理と、
上記評価処理で評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを上記第１の算出処理で算出した第１の重みと上記第２の算出処理で算出した第２の重みとの最終的な重要度比値として決定する決定処理とをコンピュータに実行させるためのプログラムを記録したことを、
特徴とするコンピュータ読み取り可能な記録媒体。