JPH11143892A

JPH11143892A - キーワード重み生成装置及び方法並びにプログラム記憶媒体

Info

Publication number: JPH11143892A
Application number: JP9305167A
Authority: JP
Inventors: Aoshi Okamoto; 青史岡本; Nobuhiro Yugami; 伸弘湯上; Shunji Matsumoto; 俊二松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-11-07
Filing date: 1997-11-07
Publication date: 1999-05-28
Anticipated expiration: 2017-11-07
Also published as: JP4008551B2

Abstract

(57)【要約】【課題】本発明は、文書中に出現するキーワードの重み
を生成するキーワード重み生成装置に関し、的確なキー
ワードの重みを生成できるようにすることを目的とす
る。【解決手段】文書データベースを参照することで、文書
に出現する各キーワードの統計情報を求めて、その統計
情報から各キーワードの重みを算出する第１の算出手段
１０と、文書データベースを参照することで、各キーワ
ードの出現する文書のカテゴリ情報を求めて、必要に応
じて、各キーワードの出現頻度を考慮しつつ、そのカテ
ゴリ情報から各キーワードの重みを算出する第２の算出
手段１１と、第１の算出手段１０の算出する重みと第２
の算出手段１１の算出する重みとの重要度比値を決定し
て、その重要度比値に従ってそれらの重みを合成するこ
とで、各キーワードの重みを生成する生成手段１２とを
備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書中に出現する
キーワードの重みを生成するキーワード重み生成装置及
び方法と、それを実現するプログラムが記憶されるプロ
グラム記憶媒体とに関し、特に、的確なキーワードの重
みを生成できるようにするキーワード重み生成装置及び
方法と、それを実現するプログラムが記憶されるプログ
ラム記憶媒体とに関する。

【０００２】インターネットやイントラネットの整備に
伴い、文書データベースの大規模化が進んでいる。これ
から、大規模な文書データベースの中から、ユーザの欲
する文書を出来るだけ早く正確に提供する文書検索はま
すます重要になってきている。

【０００３】文書検索では、複数のキーワードを設定し
ておき、２つの文書に出現するキーワードをリストアッ
プして、それらのキーワードの重みの合計値などを算出
することで、２つの文書の距離を評価するという構成を
採っている。

【０００４】これから、キーワードの重要度を示す重み
を生成することは非常に重要である。なぜならば、この
生成されたキーワードの重みを用いて、ユーザの質問に
適した順序でソートして検索結果を提供するというラン
キング検索の検索精度を向上させることが出来るばかり
でなく、検索に不要なキーワードをインデックスから削
除することによりインデックスのサイズを縮小化出来た
り、重みを用いてランキング検索の上位にくる確率の高
い順にインデックス中の文書の並べ替えを行うことによ
り、検索速度の向上を図ることが出来るからである。

【０００５】このようなことを背景にして、的確なキー
ワードの重みを生成できるようにする技術の構築が叫ば
れている。

【０００６】

【従来の技術】従来では、文書中に出現するキーワード
の重みを、ＴＦ（Ｔext Ｆrequency)やＩＤＦ（Ｉnvers
e Ｄocument Ｆrequency) という手法を用いて算出し
ていた。

【０００７】ＴＦは、文書中のキーワードの出現頻度に
対する重みを表すもので、出現頻度が高ければ高いほど
大きな値を持つように設定されている。また、ＩＤＦ
は、文書データベース中におけるキーワードの出現の分
散を表現したもので、例えば、ＩＤＦ_i＝log₂[(Ｎ−ｎ_i）／ｎ_i] 但し、Ｎ：文書データベース中の文書数ｎ_i：文書データベース中のキーワードｉの出現頻度という算出式でキーワードの重みを算出する。

【０００８】このＩＤＦは、文書データベース中のキー
ワードの出現頻度が低ければ低いほど大きな値を持つよ
うに設定されている。このように、従来では、キーワー
ドの出現頻度に基づいたＴＦやＩＤＦを用いて、文書中
に出現するキーワードの重みを生成するという構成を採
っていた。

【０００９】

【発明が解決しようとする課題】しかしながら、従来技
術に従っていると、文書中に出現するキーワードの重み
が出現頻度の統計量だけによって決定されており、これ
から、適切なキーワードの重みを生成することが難しい
という問題点があった。

【００１０】すなわち、形態素解析ツールなどにより文
書から抽出されるキーワードにはノイズを含んだものも
多く、このノイズを含んだキーワードの出現頻度の統計
量のみからキーワードの重みを生成するという従来技術
に従っていると、重み設定の妥当性の低下をもたらすこ
とになる。

【００１１】これから、従来技術に従っていると、キー
ワードの重みの妥当性が低いことから、検索速度の向上
やインデックスサイズの縮小化の実現が困難になるとい
う問題点を抱えていた。

【００１２】本発明はかかる事情に鑑みてなされたもの
であって、文書中に出現するキーワードに対して的確な
重みを生成できるようにする新たなキーワード重み生成
装置及び方法の提供と、それを実現するプログラムが記
憶される新たなプログラム記憶媒体の提供とを目的とす
る。

【００１３】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図中、１は本発明を具備するキーワード重
み生成装置であって、文書中に出現するキーワードの重
みを生成するもの、２はキーワード重み生成装置１の参
照する文書データベースであって、キーワードの重み生
成処理に用いられる文書を、それが属するカテゴリと対
応付けて管理するもの、３はキーワード重み生成装置１
の備える端末であって、ユーザとの対話手段となるもの
である。

【００１４】本発明のキーワード重み生成装置１は、第
１の算出手段１０と、第２の算出手段１１と、生成手段
１２とを備える。この第１の算出手段１０は、文書デー
タベース２を参照することで、文書に出現する各キーワ
ードの統計情報を求めて、その統計情報から各キーワー
ドの重みを算出する。

【００１５】第２の算出手段１１は、文書データベース
２を参照することで、各キーワードの出現する文書のカ
テゴリ情報を求めて、必要に応じて、各キーワードの出
現頻度を考慮しつつ、各キーワードの重みを算出する。

【００１６】生成手段１２は、第１の算出手段１０の算
出する重みと第２の算出手段１１の算出する重みとの重
要度比値を決定して、その重要度比値に従ってそれらの
重みを合成することで、各キーワードの重みを生成す
る。

【００１７】ここで、本発明のキーワード重み生成装置
１の持つ機能は具体的にはプログラムで実現されるもの
であり、このプログラムは、フロッピィディスクなどに
記憶されたり、サーバなどのディスクなどに記憶され、
それらからキーワード重み生成装置１にインストールさ
れてメモリ上で動作することで、本発明を実現すること
になる。

【００１８】このように構成される本発明のキーワード
重み生成装置１では、第１の算出手段１０は、各キーワ
ードの出現する文書数や、全文書中の各キーワードの出
現頻度などから、各キーワードの重みを算出する。

【００１９】一方、第２の算出手段１１は、各キーワー
ドの出現する文書のカテゴリ情報から、カテゴリに依存
する形や依存しない形で、各キーワードの重みを算出し
たり、各キーワードの出現する文書のカテゴリ情報と、
その文書に出現する各キーワードの出現頻度とから、カ
テゴリに依存する形や依存しない形で、各キーワードの
重みを算出する。

【００２０】この重みの算出処理を受けて、生成手段１
２は、対話処理に従って、第１の算出手段１０の算出す
る重みと第２の算出手段１１の算出する重みとの重要度
比値を決定して、その決定した重要度比値に従ってそれ
らの重みを合成することで、各キーワードの重みを生成
したり、重要度比値を複数想定し、cross-validation法
を使って、その想定した重要度比値の有効性を評価して
最適なものを選択することで重要度比値を決定して、そ
の決定した重要度比値に従ってそれらの重みを合成する
ことで、各キーワードの重みを生成する。

【００２１】このように、本発明のキーワード重み生成
装置１は、従来技術のように、文書に出現するキーワー
ドの統計情報からキーワードの重みを生成するのではな
くて、その重みとカテゴリ情報を考慮した重みとを合成
することで、キーワードの重みを生成することから、文
書のカテゴリ情報を内包したキーワードの重みを生成す
ることになって、的確なキーワードの重みを生成できる
ようになる。

【００２２】

【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図２に、本発明の一実施例を図示す
る。図中、図１で説明したものと同じものについては同
一の記号で示してある。

【００２３】本発明のキーワード重み生成装置１の参照
対象となる文書データベース２は、参照対象となる各文
書を管理するとともに、それらの各文書がどのカテゴリ
に属するのを管理する文書ファイル２０と、インバーテ
ィッドファイル形式やシグネチャファイル形式に従っ
て、文書ファイル２０に管理される各文書の持つキーワ
ードの情報を管理するインデックスファイル２１とを備
える。

【００２４】一方、本発明のキーワード重み生成装置１
は、本発明を実現するために、統計重み算出プログラム
３０と、第１の作業域３１と、カテゴリ重み算出プログ
ラム３２と、第２の作業域３３と、重み生成プログラム
３４と、第３の作業域３５とを備える。

【００２５】ここで、統計重み算出プログラム３０やカ
テゴリ重み算出プログラム３２やカテゴリ重み算出プロ
グラム３２は、フロッピィディスクや回線等を介してイ
ンストールされることになる。

【００２６】この統計重み算出プログラム３０は、文書
データベース２を参照することで、文書に出現する各キ
ーワードの統計情報を求めて、その統計情報から各キー
ワードの重みを算出して、それを第１の作業域３１に格
納する。

【００２７】すなわち、各キーワードの出現する文書数
や、全文書中の各キーワードの出現頻度などから、例え
ば図３に示すような関数に従って各キーワードの重みを
算出して、それを第１の作業域３１に格納する処理を行
う。

【００２８】なお、各文書が短くキーワード数が少ない
場合には、出現文書数を使う方が有効なので出現文書数
を使って各キーワードの重みを算出し、各文書が長くキ
ーワード数が多い場合には、出現頻度を使う方が有効な
ので出現頻度を使って各キーワードの重みを算出すると
いうように、文書の種類に応じてキーワードの重みの算
出に用いる統計情報を変える構成を採ることも可能であ
る。

【００２９】一方、カテゴリ重み算出プログラム３２
は、文書データベース２を参照することで、各キーワー
ドの出現する文書のカテゴリ情報と、その文書に出現す
る各キーワードの出現頻度とを求めて、それらの情報か
ら各キーワードの重みを算出して、それを第２の作業域
３３に格納する。

【００３０】すなわち、キーワードｋ_iは、カテゴリＡ
の文書にｎ_A個出現し、カテゴリＢの文書にｎ_B個出現
し、カテゴリＣの文書にｎ_C個出現するというような情
報を求めて、それらの情報から、例えば、特定のカテゴ
リの文書に集中的に出現するキーワードについては大き
な重みを算出し、多くのカテゴリの文書に出現するキー
ワードについては小さな重みを算出するというようにし
て各キーワードの重みを算出して、それを第２の作業域
３３に格納する処理を行う。

【００３１】このとき、カテゴリに依存しない形で重み
を算出することもあるし、カテゴリに依存する形で重み
を算出することもある。前者の重みは、カテゴリ間の分
散が小さい場合に特に有効であり、後者の重みは、カテ
ゴリ間の分散が大きい場合に特に有効である。また、各
カテゴリに出現するキーワードの個数については考慮し
ないで重みを算出することもある。

【００３２】カテゴリ重み算出プログラム３２は、実際
にカテゴリ分類を行うことで高い分類精度を実現する重
みを特定することで行うものである。これまでの文書検
索の技術では用いられていないが、分類問題では用いら
れている技術であり、例えば、「O.H.Creecy and B.M.M
asand and S.J.Smith and D.Waltz, "Trading Mips and
Memory for Knowledge Engineering" CACM, VOL35, p
p.48-63 (1992) 」などで紹介されているアルゴリズム
を用いることが可能である。

【００３３】重み生成プログラム３４は、統計重み算出
プログラム３０とカテゴリ重み算出プログラム３２を起
動しつつ、本発明に特徴的なキーワードの重みを生成す
る処理を実行する。

【００３４】図４に、重み生成プログラム３４の実行す
る処理フローの一実施例を図示する。次に、この処理フ
ローに従って、本発明について詳細に説明する。重み生
成プログラム３４は、キーワードの重みの生成要求が発
行されると、図４の処理フローに示すように、先ず最初
に、ステップ１で、ユーザと対話することなどにより、
重みの生成対象となるキーワード（ｋ１〜ｋｍ）を設定
する。

【００３５】続いて、ステップ２で、この設定したキー
ワード（ｋ１〜ｋｍ）を指定して、統計重み算出プログ
ラム３０を起動し、続いて、ステップ３で、この設定し
たキーワード（ｋ１〜ｋｍ）を指定して、カテゴリ重み
算出プログラム３２を起動する。

【００３６】このようにして起動されると、統計重み算
出プログラム３０は、文書データベース２を参照するこ
とで、各キーワードの出現する文書数や、全文書中の各
キーワードの出現頻度を求めて、それを図３に示したよ
うな関数に代入することで、各キーワードの重み（ＷＮ
１〜ＷＮｍ）を算出して、図５に示すように第１の作業
域３１に格納する。

【００３７】一方、このようにして起動されると、カテ
ゴリ重み算出プログラム３２は、文書データベース２を
参照することで、各キーワードの出現する文書のカテゴ
リ情報と、その文書に出現する各キーワードの出現頻度
とを求めて、それらの情報からカテゴリに依存しない形
で各キーワードの重み（ＷＣ１〜ＷＣｍ）を算出して、
図６に示すように第２の作業域３３に格納する。

【００３８】これから、重み生成プログラム３４は、統
計重み算出プログラム３０／カテゴリ重み算出プログラ
ム３２を起動すると、続いて、ステップ４で、これらの
プログラムからの処理終了通知を待って、処理終了通知
を受け取ると、ステップ５に進んで、ユーザと対話する
ことで、統計重み算出プログラム３０の算出した重み
（ＷＮ１〜ＷＮｍ）と、カテゴリ重み算出プログラム３
２の算出した重み（ＷＣ１〜ＷＣｍ）との重要度の比を
示す値α（重要度比値α）を決定する。

【００３９】続いて、ステップ６で、第１の作業域３１
から、統計重み算出プログラム３０の算出した重み（Ｗ
Ｎ１〜ＷＮｍ）を読み出すとともに、第２の作業域３３
から、カテゴリ重み算出プログラム３２の算出した重み
（ＷＣ１〜ＷＣｍ）を読み出す。

【００４０】続いて、ステップ７で、ステップ５で設定
した重要度比値αを使い、Ｗｉ＝ｐ（ＷＮｉ＋α×ＷＣｉ）但し、ｐ：正規化の係数の算出式に従って、各キーワード（ｋ１〜ｋｍ）の重み
Ｗｉを算出して、図７に示すように第３の作業域３５に
格納して処理を終了する。

【００４１】このようにして、重み生成プログラム３４
は、従来技術のように、文書に出現するキーワードの統
計情報からキーワードの重みを生成するのではなくて、
その重みとカテゴリ情報を考慮した重みとを合成するこ
とで、キーワードの重みを生成するのである。

【００４２】このようにして生成されるキーワードの重
みは、文書のカテゴリ情報を内包したものとなっている
ので、文書検索に用いると、高精度の検索を実現できる
という特徴がある。

【００４３】図４の処理フローでは、カテゴリ重み算出
プログラム３２が、カテゴリに依存しない形で各キーワ
ードの重み（ＷＣ１〜ＷＣｍ）を算出することで説明し
たが、カテゴリに依存する形で各キーワードの重み（Ｗ
Ｃｉｊ：ｉ＝キーワードＩＤ，ｊ＝カテゴリＩＤ）を算
出することであってもよく、この場合には、重み生成プ
ログラム３４は、カテゴリに依存する形で各キーワード
の重み（Ｗｉｊ：ｉ＝キーワードＩＤ，ｊ＝カテゴリＩ
Ｄ）を生成することになる。

【００４４】すなわち、カテゴリ重み算出プログラム３
２が、図８に示すように、カテゴリに依存する形で各キ
ーワードの重み（ＷＣｉｊ）を算出するときには、重み
生成プログラム３４は、Ｗｉｊ＝ｐ（ＷＮｉ＋α×ＷＣｉｊ）但し、ｐ：正規化の係数の算出式に従って、図９に示すように、カテゴリに依存
する形でキーワード（ｋ１〜ｋｍ）の重みＷｉｊを算出
することになる。

【００４５】なお、文書検索において、このようなカテ
ゴリに依存する形のキーワードの重みが与えられるとき
には、検索対象として指定される文書と、文書データベ
ース２に管理される文書との距離を求めるときに、文書
データベース２に管理される文書のカテゴリの指定する
キーワードの重みを選択して、それらの重みの合計値な
どを算出することで、２つの文書の距離を評価すること
になる。

【００４６】図１０及び図１１に、重み生成プログラム
３４の実行する処理フローの他の実施例を図示する。こ
の処理フローでは、重み生成プログラム３４は、図４の
処理フローと異なり、ユーザとの対話処理に依らずに、
cross-validation法を使って重要度比値αを自動設定し
ていくことになる。

【００４７】重み生成プログラム３４は、この図１０及
び図１１の処理フローに従う場合には、キーワードの重
みの生成要求が発行されると、先ず最初に、ステップ１
〜４で、図４の処理フローのステップ１〜４と同一の処
理に従って、統計重み算出プログラム３０／カテゴリ重
み算出プログラム３２を起動し、その処理終了通知を受
け取ると、続いて、ステップ５で、第１の作業域３１か
ら、統計重み算出プログラム３０の算出した重み（ＷＮ
１〜ＷＮｍ）を読み出すとともに、第２の作業域３３か
ら、カテゴリ重み算出プログラム３２の算出した重み
（ＷＣ１〜ＷＣｍ）を読み出す。

【００４８】続いて、ステップ６で、重要度比値αに、
重要度比値αのとり得る最小値である“０”を設定す
る。続いて、ステップ７で、重要度比値αがとり得る最
大値を超えたのか否かを判断して、超えていないことを
判断するときには、ステップ８に進んで、設定されてい
る重要度比値αを使い、Ｗｉ＝ｐ（ＷＮｉ＋α×ＷＣｉ）但し、ｐ：正規化の係数の算出式に従って、キーワード（ｋ１〜ｋｍ）の重みＷ
ｉを算出する。

【００４９】続いて、ステップ９に進んで、文書データ
ベース２に管理される未選択の文書の中から、文書を１
つ選択し、続くステップ１０で、文書データベース２に
管理される全ての文書を選択したのか否かを判断して、
選択したことを判断するときには、ステップ１１に進ん
で、重要度比値αを規定量Δだけインクリメントしてか
らステップ７に戻る。ここで、このルートでステップ７
に戻るときには、文書データベース２に管理される文書
は全て未選択となるように初期化されることになる。

【００５０】一方、ステップ１０で、文書データベース
２に管理される全ての文書を選択していないことを判断
するとき、すなわち、ステップ９で文書を１つ選択でき
たことを判断するときには、ステップ１２（図１１の処
理フロー）に進んで、ステップ８で算出したキーワード
（ｋ１〜ｋｍ）の重みＷｉを使って、ステップ９で選択
した文書と、文書データベース２に残されている文書と
の距離を算出して、最も距離の近い文書を検索する。

【００５１】続いて、ステップ１３で、ステップ９で選
択した文書のカテゴリと、ステップ１２で検索した文書
のカテゴリとが一致するのか否かを判断して、一致する
ことを判断するときには、ステップ１４に進んで、得点
を１つインクリメントしてから、次の文書を選択すべく
ステップ９に戻り、一致しないことを判断するときに
は、得点をインクリメントすることなく、次の文書を選
択すべくステップ９に戻る。

【００５２】一方、ステップ７で、重要度比値αがとり
得る最大値を超えたことを判断するときには、ステップ
１５（（図１１の処理フロー）に進んで、最高得点をと
った重要度比値αを特定して、その重要度比値αをキー
ワードの重み算出に用いる重要度比値αとして決定す
る。

【００５３】続いて、ステップ１６で、その決定した重
要度比値αに従って、Ｗｉ＝ｐ（ＷＮｉ＋α×ＷＣｉ）但し、ｐ：正規化の係数の算出式に従って、キーワード（ｋ１〜ｋｍ）の重みＷ
ｉを算出して、第３の作業域３５に格納して処理を終了
する。

【００５４】このようにして、重み生成プログラム３４
は、図１０及び図１１の処理フローに従う場合には、重
要度比値αとして色々な値を想定して、そのときに、文
書データベース２から文書を順番に１つずつ選択し、想
定した重要度比値αから生成されるキーワードの重みを
使って、図１２に示すように、その選択した文書（図中
の文書ｒ）と、文書データベース２に残されている文書
（図中の文書１〜文書ｒ−１，文書ｒ＋１〜文書１０
０）との距離を測定する。

【００５５】そして、その選択した文書に最も距離の近
い文書（図中の文書ｓ）を検索して、その２つの文書の
カテゴリが一致するときには得点をインクリメントして
いって、最も高い得点を示す重要度比値αをキーワード
の重み算出に用いる重要度比値αとして決定していくこ
とで、重要度比値αを自動設定していくのである。

【００５６】ユーザがシステムに熟練している場合や、
文書データベース２の更新が頻繁に起こらない場合に
は、ユーザが重要度比値αを設定することでも的確な重
要度比値αを設定することが可能なことで、的確なキー
ワードの重みを生成できることになるが、そうでない場
合には、この重要度比値αの自動設定機能は極めて有効
なものとなる。

【００５７】図１０及び図１１の処理フローでは、カテ
ゴリ重み算出プログラム３２が、カテゴリに依存しない
形で各キーワードの重みを算出することで説明したが、
カテゴリに依存する形で各キーワードの重みを算出する
ことであってもよく、この場合には、重み生成プログラ
ム３４は、カテゴリに依存する形で各キーワードの重み
を生成することになる。

【００５８】このようにして生成されたキーワードの重
みから、小さな重みを持つキーワードを削除するように
すれば、インデックスファイル２１のサイズを縮小でき
るとともに、検索速度を向上できるようになる。

【００５９】このキーワードの削除は、大きな重みを持
つキーワードから順番に規定個数のキーワードを残し、
それ以外のキーワードは削除することで行うとか、規定
の閾値よりも小さな重みを持つキーワードを削除するこ
とで行う。

【００６０】この閾値を使ってキーワードを削除する構
成を採るときに、上述したcross-validation法を使っ
て、閾値を自動設定することも可能である。すなわち、
閾値として色々な値を想定することで有効なキーワード
を想定して、そのときに、文書データベース２から文書
を順番に１つずつ選択し、想定した有効なキーワードか
ら、その選択した文書と、文書データベース２に残され
ている文書との距離を測定する。そして、その選択した
文書に最も距離の近い文書を検索して、その２つの文書
のカテゴリが一致するときには得点をインクリメントし
ていって、得点を上げない閾値を求めていくことで、キ
ーワードの削除判定に用いる閾値を設定するようにすれ
ば、この閾値を自動設定できるようになる。

【００６１】図示実施例に従って本発明を説明したが、
本発明はこれに限定されるものではない。例えば、実施
例では、統計重み算出プログラム３０の算出した重み
と、カテゴリ重み算出プログラム３２の算出した重みと
の重要度の比を示す重要度比値αをカテゴリに依存しな
い形で決定したが、カテゴリに依存する形で決定しても
よい。

【００６２】また、実施例では、文書検索に用いるキー
ワードの重みとして説明を行ったが、文書がどのカテゴ
リに属するのを行うような文書分類に対してのキーワー
ドの重みとしても用いることができる。

【００６３】

【発明の効果】以上説明したように、本発明では、従来
技術のように、文書に出現するキーワードの統計情報か
らキーワードの重みを生成するのではなくて、その重み
とカテゴリ情報を考慮した重みとを合成することで、キ
ーワードの重みを生成することから、文書のカテゴリ情
報を内包したキーワードの重みを生成することになっ
て、的確なキーワードの重みを生成できるようになる。

【００６４】そして、本発明では、この２つ重みの合成
の割合を自動設定する機能を持つことから、ユーザがシ
ステムに熟練していない場合や、文書データベースの更
新が頻繁に起こる場合にも、的確なキーワードの重みを
生成できるようになる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例である。

【図３】統計重み算出プログラムの実行処理の説明図で
ある。

【図４】重み生成プログラムの実行する処理フローの一
実施例である。

【図５】第１の作業域に格納される重みの説明図であ
る。

【図６】第２の作業域に格納される重みの説明図であ
る。

【図７】生成されるキーワードの重みの説明図である。

【図８】カテゴリ重み算出プログラムの算出する重みの
説明図である。

【図９】生成されるキーワードの重みの説明図である。

【図１０】重み生成プログラムの実行する処理フローの
他の実施例である。

【図１１】重み生成プログラムの実行する処理フローの
他の実施例である。

【図１２】重み生成プログラムの実行処理の説明図であ
る。

【符号の説明】

１キーワード重み生成装置２文書データベース３端末１０第１の算出手段１１第２の算出手段１２生成手段

Claims

【特許請求の範囲】

【請求項１】文書中に出現するキーワードの重みを生
成するキーワード重み生成装置において、文書データベースを参照することで、文書に出現する各
キーワードの統計情報を求めて、該統計情報から各キー
ワードの重みを算出する第１の算出手段と、文書データベースを参照することで、各キーワードの出
現する文書のカテゴリ情報を求めて、必要に応じて、各
キーワードの出現頻度を考慮しつつ、該カテゴリ情報か
ら各キーワードの重みを算出する第２の算出手段と、上記第１の算出手段の算出する重みと上記第２の算出手
段の算出する重みとの重要度比値を決定して、該重要度
比値に従って該重みを合成することで、各キーワードの
重みを生成する生成手段とを備えることを、特徴とするキーワード重み生成装置。
【請求項２】請求項１記載のキーワード重み生成装置
において、生成手段は、対話処理に従って重要度比値を決定するこ
とを、特徴とするキーワード重み生成装置。
【請求項３】請求項１記載のキーワード重み生成装置
において、生成手段は、重要度比値を複数想定し、cross-validati
on法を使って、その想定した重要度比値の有効性を評価
して最適なものを選択することで重要度比値を決定する
ことを、特徴とするキーワード重み生成装置。
【請求項４】文書中に出現するキーワードの重みを生
成するキーワード重み生成方法において、文書データベースを参照することで、文書に出現する各
キーワードの統計情報を求めて、該統計情報から各キー
ワードの重みを算出する第１の処理過程と、文書データベースを参照することで、各キーワードの出
現する文書のカテゴリ情報を求めて、必要に応じて、各
キーワードの出現頻度を考慮しつつ、該カテゴリ情報か
ら各キーワードの重みを算出する第２の処理過程と、第１の処理過程で算出した重みと第２の処理過程で算出
した重みとの重要度比値を決定して、該重要度比値に従
って該重みを合成することで、各キーワードの重みを生
成する第３の処理過程とを備えることを、特徴とするキーワード重み生成方法。
【請求項５】文書中に出現するキーワードの重みを生
成するキーワード重み生成装置の実現に用いられるプロ
グラムが記憶されるプログラム記憶媒体であって、文書データベースを参照することで、文書に出現する各
キーワードの統計情報を求めて、該統計情報から各キー
ワードの重みを算出する第１の算出処理と、文書データベースを参照することで、各キーワードの出
現する文書のカテゴリ情報を求めて、必要に応じて、各
キーワードの出現頻度を考慮しつつ、該カテゴリ情報か
ら各キーワードの重みを算出する第２の算出処理と、上記第１の算出処理の算出する重みと上記第２の算出処
理の算出する重みとの重要度比値を決定して、該重要度
比値に従って該重みを合成することで、各キーワードの
重みを生成する生成処理とをコンピュータに実行させる
プログラムが記憶されることを、特徴とするプログラム記憶媒体。