JPH11143892A - キーワード重み生成装置及び方法並びにプログラム記憶媒体 - Google Patents

キーワード重み生成装置及び方法並びにプログラム記憶媒体

Info

Publication number
JPH11143892A
JPH11143892A JP9305167A JP30516797A JPH11143892A JP H11143892 A JPH11143892 A JP H11143892A JP 9305167 A JP9305167 A JP 9305167A JP 30516797 A JP30516797 A JP 30516797A JP H11143892 A JPH11143892 A JP H11143892A
Authority
JP
Japan
Prior art keywords
keyword
weight
document
category
ratio value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9305167A
Other languages
English (en)
Other versions
JP4008551B2 (ja
Inventor
Aoshi Okamoto
青史 岡本
Nobuhiro Yugami
伸弘 湯上
Shunji Matsumoto
俊二 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP30516797A priority Critical patent/JP4008551B2/ja
Publication of JPH11143892A publication Critical patent/JPH11143892A/ja
Application granted granted Critical
Publication of JP4008551B2 publication Critical patent/JP4008551B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は、文書中に出現するキーワードの重み
を生成するキーワード重み生成装置に関し、的確なキー
ワードの重みを生成できるようにすることを目的とす
る。 【解決手段】文書データベースを参照することで、文書
に出現する各キーワードの統計情報を求めて、その統計
情報から各キーワードの重みを算出する第1の算出手段
10と、文書データベースを参照することで、各キーワ
ードの出現する文書のカテゴリ情報を求めて、必要に応
じて、各キーワードの出現頻度を考慮しつつ、そのカテ
ゴリ情報から各キーワードの重みを算出する第2の算出
手段11と、第1の算出手段10の算出する重みと第2
の算出手段11の算出する重みとの重要度比値を決定し
て、その重要度比値に従ってそれらの重みを合成するこ
とで、各キーワードの重みを生成する生成手段12とを
備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書中に出現する
キーワードの重みを生成するキーワード重み生成装置及
び方法と、それを実現するプログラムが記憶されるプロ
グラム記憶媒体とに関し、特に、的確なキーワードの重
みを生成できるようにするキーワード重み生成装置及び
方法と、それを実現するプログラムが記憶されるプログ
ラム記憶媒体とに関する。
【0002】インターネットやイントラネットの整備に
伴い、文書データベースの大規模化が進んでいる。これ
から、大規模な文書データベースの中から、ユーザの欲
する文書を出来るだけ早く正確に提供する文書検索はま
すます重要になってきている。
【0003】文書検索では、複数のキーワードを設定し
ておき、2つの文書に出現するキーワードをリストアッ
プして、それらのキーワードの重みの合計値などを算出
することで、2つの文書の距離を評価するという構成を
採っている。
【0004】これから、キーワードの重要度を示す重み
を生成することは非常に重要である。なぜならば、この
生成されたキーワードの重みを用いて、ユーザの質問に
適した順序でソートして検索結果を提供するというラン
キング検索の検索精度を向上させることが出来るばかり
でなく、検索に不要なキーワードをインデックスから削
除することによりインデックスのサイズを縮小化出来た
り、重みを用いてランキング検索の上位にくる確率の高
い順にインデックス中の文書の並べ替えを行うことによ
り、検索速度の向上を図ることが出来るからである。
【0005】このようなことを背景にして、的確なキー
ワードの重みを生成できるようにする技術の構築が叫ば
れている。
【0006】
【従来の技術】従来では、文書中に出現するキーワード
の重みを、TF(Text Frequency)やIDF(Invers
e Document Frequency) という手法を用いて算出し
ていた。
【0007】TFは、文書中のキーワードの出現頻度に
対する重みを表すもので、出現頻度が高ければ高いほど
大きな値を持つように設定されている。また、IDF
は、文書データベース中におけるキーワードの出現の分
散を表現したもので、例えば、 IDFi =log2[(N−ni )/ni ] 但し、N :文書データベース中の文書数 ni :文書データベース中のキーワードiの出現頻度 という算出式でキーワードの重みを算出する。
【0008】このIDFは、文書データベース中のキー
ワードの出現頻度が低ければ低いほど大きな値を持つよ
うに設定されている。このように、従来では、キーワー
ドの出現頻度に基づいたTFやIDFを用いて、文書中
に出現するキーワードの重みを生成するという構成を採
っていた。
【0009】
【発明が解決しようとする課題】しかしながら、従来技
術に従っていると、文書中に出現するキーワードの重み
が出現頻度の統計量だけによって決定されており、これ
から、適切なキーワードの重みを生成することが難しい
という問題点があった。
【0010】すなわち、形態素解析ツールなどにより文
書から抽出されるキーワードにはノイズを含んだものも
多く、このノイズを含んだキーワードの出現頻度の統計
量のみからキーワードの重みを生成するという従来技術
に従っていると、重み設定の妥当性の低下をもたらすこ
とになる。
【0011】これから、従来技術に従っていると、キー
ワードの重みの妥当性が低いことから、検索速度の向上
やインデックスサイズの縮小化の実現が困難になるとい
う問題点を抱えていた。
【0012】本発明はかかる事情に鑑みてなされたもの
であって、文書中に出現するキーワードに対して的確な
重みを生成できるようにする新たなキーワード重み生成
装置及び方法の提供と、それを実現するプログラムが記
憶される新たなプログラム記憶媒体の提供とを目的とす
る。
【0013】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、1は本発明を具備するキーワード重
み生成装置であって、文書中に出現するキーワードの重
みを生成するもの、2はキーワード重み生成装置1の参
照する文書データベースであって、キーワードの重み生
成処理に用いられる文書を、それが属するカテゴリと対
応付けて管理するもの、3はキーワード重み生成装置1
の備える端末であって、ユーザとの対話手段となるもの
である。
【0014】本発明のキーワード重み生成装置1は、第
1の算出手段10と、第2の算出手段11と、生成手段
12とを備える。この第1の算出手段10は、文書デー
タベース2を参照することで、文書に出現する各キーワ
ードの統計情報を求めて、その統計情報から各キーワー
ドの重みを算出する。
【0015】第2の算出手段11は、文書データベース
2を参照することで、各キーワードの出現する文書のカ
テゴリ情報を求めて、必要に応じて、各キーワードの出
現頻度を考慮しつつ、各キーワードの重みを算出する。
【0016】生成手段12は、第1の算出手段10の算
出する重みと第2の算出手段11の算出する重みとの重
要度比値を決定して、その重要度比値に従ってそれらの
重みを合成することで、各キーワードの重みを生成す
る。
【0017】ここで、本発明のキーワード重み生成装置
1の持つ機能は具体的にはプログラムで実現されるもの
であり、このプログラムは、フロッピィディスクなどに
記憶されたり、サーバなどのディスクなどに記憶され、
それらからキーワード重み生成装置1にインストールさ
れてメモリ上で動作することで、本発明を実現すること
になる。
【0018】このように構成される本発明のキーワード
重み生成装置1では、第1の算出手段10は、各キーワ
ードの出現する文書数や、全文書中の各キーワードの出
現頻度などから、各キーワードの重みを算出する。
【0019】一方、第2の算出手段11は、各キーワー
ドの出現する文書のカテゴリ情報から、カテゴリに依存
する形や依存しない形で、各キーワードの重みを算出し
たり、各キーワードの出現する文書のカテゴリ情報と、
その文書に出現する各キーワードの出現頻度とから、カ
テゴリに依存する形や依存しない形で、各キーワードの
重みを算出する。
【0020】この重みの算出処理を受けて、生成手段1
2は、対話処理に従って、第1の算出手段10の算出す
る重みと第2の算出手段11の算出する重みとの重要度
比値を決定して、その決定した重要度比値に従ってそれ
らの重みを合成することで、各キーワードの重みを生成
したり、重要度比値を複数想定し、cross-validation法
を使って、その想定した重要度比値の有効性を評価して
最適なものを選択することで重要度比値を決定して、そ
の決定した重要度比値に従ってそれらの重みを合成する
ことで、各キーワードの重みを生成する。
【0021】このように、本発明のキーワード重み生成
装置1は、従来技術のように、文書に出現するキーワー
ドの統計情報からキーワードの重みを生成するのではな
くて、その重みとカテゴリ情報を考慮した重みとを合成
することで、キーワードの重みを生成することから、文
書のカテゴリ情報を内包したキーワードの重みを生成す
ることになって、的確なキーワードの重みを生成できる
ようになる。
【0022】
【発明の実施の形態】以下、実施の形態に従って本発明
を詳細に説明する。図2に、本発明の一実施例を図示す
る。図中、図1で説明したものと同じものについては同
一の記号で示してある。
【0023】本発明のキーワード重み生成装置1の参照
対象となる文書データベース2は、参照対象となる各文
書を管理するとともに、それらの各文書がどのカテゴリ
に属するのを管理する文書ファイル20と、インバーテ
ィッドファイル形式やシグネチャファイル形式に従っ
て、文書ファイル20に管理される各文書の持つキーワ
ードの情報を管理するインデックスファイル21とを備
える。
【0024】一方、本発明のキーワード重み生成装置1
は、本発明を実現するために、統計重み算出プログラム
30と、第1の作業域31と、カテゴリ重み算出プログ
ラム32と、第2の作業域33と、重み生成プログラム
34と、第3の作業域35とを備える。
【0025】ここで、統計重み算出プログラム30やカ
テゴリ重み算出プログラム32やカテゴリ重み算出プロ
グラム32は、フロッピィディスクや回線等を介してイ
ンストールされることになる。
【0026】この統計重み算出プログラム30は、文書
データベース2を参照することで、文書に出現する各キ
ーワードの統計情報を求めて、その統計情報から各キー
ワードの重みを算出して、それを第1の作業域31に格
納する。
【0027】すなわち、各キーワードの出現する文書数
や、全文書中の各キーワードの出現頻度などから、例え
ば図3に示すような関数に従って各キーワードの重みを
算出して、それを第1の作業域31に格納する処理を行
う。
【0028】なお、各文書が短くキーワード数が少ない
場合には、出現文書数を使う方が有効なので出現文書数
を使って各キーワードの重みを算出し、各文書が長くキ
ーワード数が多い場合には、出現頻度を使う方が有効な
ので出現頻度を使って各キーワードの重みを算出すると
いうように、文書の種類に応じてキーワードの重みの算
出に用いる統計情報を変える構成を採ることも可能であ
る。
【0029】一方、カテゴリ重み算出プログラム32
は、文書データベース2を参照することで、各キーワー
ドの出現する文書のカテゴリ情報と、その文書に出現す
る各キーワードの出現頻度とを求めて、それらの情報か
ら各キーワードの重みを算出して、それを第2の作業域
33に格納する。
【0030】すなわち、キーワードki は、カテゴリA
の文書にnA 個出現し、カテゴリBの文書にnB 個出現
し、カテゴリCの文書にnC 個出現するというような情
報を求めて、それらの情報から、例えば、特定のカテゴ
リの文書に集中的に出現するキーワードについては大き
な重みを算出し、多くのカテゴリの文書に出現するキー
ワードについては小さな重みを算出するというようにし
て各キーワードの重みを算出して、それを第2の作業域
33に格納する処理を行う。
【0031】このとき、カテゴリに依存しない形で重み
を算出することもあるし、カテゴリに依存する形で重み
を算出することもある。前者の重みは、カテゴリ間の分
散が小さい場合に特に有効であり、後者の重みは、カテ
ゴリ間の分散が大きい場合に特に有効である。また、各
カテゴリに出現するキーワードの個数については考慮し
ないで重みを算出することもある。
【0032】カテゴリ重み算出プログラム32は、実際
にカテゴリ分類を行うことで高い分類精度を実現する重
みを特定することで行うものである。これまでの文書検
索の技術では用いられていないが、分類問題では用いら
れている技術であり、例えば、「O.H.Creecy and B.M.M
asand and S.J.Smith and D.Waltz, "Trading Mips and
Memory for Knowledge Engineering" CACM, VOL35, p
p.48-63 (1992) 」などで紹介されているアルゴリズム
を用いることが可能である。
【0033】重み生成プログラム34は、統計重み算出
プログラム30とカテゴリ重み算出プログラム32を起
動しつつ、本発明に特徴的なキーワードの重みを生成す
る処理を実行する。
【0034】図4に、重み生成プログラム34の実行す
る処理フローの一実施例を図示する。次に、この処理フ
ローに従って、本発明について詳細に説明する。重み生
成プログラム34は、キーワードの重みの生成要求が発
行されると、図4の処理フローに示すように、先ず最初
に、ステップ1で、ユーザと対話することなどにより、
重みの生成対象となるキーワード(k1〜km)を設定
する。
【0035】続いて、ステップ2で、この設定したキー
ワード(k1〜km)を指定して、統計重み算出プログ
ラム30を起動し、続いて、ステップ3で、この設定し
たキーワード(k1〜km)を指定して、カテゴリ重み
算出プログラム32を起動する。
【0036】このようにして起動されると、統計重み算
出プログラム30は、文書データベース2を参照するこ
とで、各キーワードの出現する文書数や、全文書中の各
キーワードの出現頻度を求めて、それを図3に示したよ
うな関数に代入することで、各キーワードの重み(WN
1〜WNm)を算出して、図5に示すように第1の作業
域31に格納する。
【0037】一方、このようにして起動されると、カテ
ゴリ重み算出プログラム32は、文書データベース2を
参照することで、各キーワードの出現する文書のカテゴ
リ情報と、その文書に出現する各キーワードの出現頻度
とを求めて、それらの情報からカテゴリに依存しない形
で各キーワードの重み(WC1〜WCm)を算出して、
図6に示すように第2の作業域33に格納する。
【0038】これから、重み生成プログラム34は、統
計重み算出プログラム30/カテゴリ重み算出プログラ
ム32を起動すると、続いて、ステップ4で、これらの
プログラムからの処理終了通知を待って、処理終了通知
を受け取ると、ステップ5に進んで、ユーザと対話する
ことで、統計重み算出プログラム30の算出した重み
(WN1〜WNm)と、カテゴリ重み算出プログラム3
2の算出した重み(WC1〜WCm)との重要度の比を
示す値α(重要度比値α)を決定する。
【0039】続いて、ステップ6で、第1の作業域31
から、統計重み算出プログラム30の算出した重み(W
N1〜WNm)を読み出すとともに、第2の作業域33
から、カテゴリ重み算出プログラム32の算出した重み
(WC1〜WCm)を読み出す。
【0040】続いて、ステップ7で、ステップ5で設定
した重要度比値αを使い、 Wi=p(WNi+α×WCi) 但し、p:正規化の係数 の算出式に従って、各キーワード(k1〜km)の重み
Wiを算出して、図7に示すように第3の作業域35に
格納して処理を終了する。
【0041】このようにして、重み生成プログラム34
は、従来技術のように、文書に出現するキーワードの統
計情報からキーワードの重みを生成するのではなくて、
その重みとカテゴリ情報を考慮した重みとを合成するこ
とで、キーワードの重みを生成するのである。
【0042】このようにして生成されるキーワードの重
みは、文書のカテゴリ情報を内包したものとなっている
ので、文書検索に用いると、高精度の検索を実現できる
という特徴がある。
【0043】図4の処理フローでは、カテゴリ重み算出
プログラム32が、カテゴリに依存しない形で各キーワ
ードの重み(WC1〜WCm)を算出することで説明し
たが、カテゴリに依存する形で各キーワードの重み(W
Cij:i=キーワードID,j=カテゴリID)を算
出することであってもよく、この場合には、重み生成プ
ログラム34は、カテゴリに依存する形で各キーワード
の重み(Wij:i=キーワードID,j=カテゴリI
D)を生成することになる。
【0044】すなわち、カテゴリ重み算出プログラム3
2が、図8に示すように、カテゴリに依存する形で各キ
ーワードの重み(WCij)を算出するときには、重み
生成プログラム34は、 Wij=p(WNi+α×WCij) 但し、p:正規化の係数 の算出式に従って、図9に示すように、カテゴリに依存
する形でキーワード(k1〜km)の重みWijを算出
することになる。
【0045】なお、文書検索において、このようなカテ
ゴリに依存する形のキーワードの重みが与えられるとき
には、検索対象として指定される文書と、文書データベ
ース2に管理される文書との距離を求めるときに、文書
データベース2に管理される文書のカテゴリの指定する
キーワードの重みを選択して、それらの重みの合計値な
どを算出することで、2つの文書の距離を評価すること
になる。
【0046】図10及び図11に、重み生成プログラム
34の実行する処理フローの他の実施例を図示する。こ
の処理フローでは、重み生成プログラム34は、図4の
処理フローと異なり、ユーザとの対話処理に依らずに、
cross-validation法を使って重要度比値αを自動設定し
ていくことになる。
【0047】重み生成プログラム34は、この図10及
び図11の処理フローに従う場合には、キーワードの重
みの生成要求が発行されると、先ず最初に、ステップ1
〜4で、図4の処理フローのステップ1〜4と同一の処
理に従って、統計重み算出プログラム30/カテゴリ重
み算出プログラム32を起動し、その処理終了通知を受
け取ると、続いて、ステップ5で、第1の作業域31か
ら、統計重み算出プログラム30の算出した重み(WN
1〜WNm)を読み出すとともに、第2の作業域33か
ら、カテゴリ重み算出プログラム32の算出した重み
(WC1〜WCm)を読み出す。
【0048】続いて、ステップ6で、重要度比値αに、
重要度比値αのとり得る最小値である“0”を設定す
る。続いて、ステップ7で、重要度比値αがとり得る最
大値を超えたのか否かを判断して、超えていないことを
判断するときには、ステップ8に進んで、設定されてい
る重要度比値αを使い、 Wi=p(WNi+α×WCi) 但し、p:正規化の係数 の算出式に従って、キーワード(k1〜km)の重みW
iを算出する。
【0049】続いて、ステップ9に進んで、文書データ
ベース2に管理される未選択の文書の中から、文書を1
つ選択し、続くステップ10で、文書データベース2に
管理される全ての文書を選択したのか否かを判断して、
選択したことを判断するときには、ステップ11に進ん
で、重要度比値αを規定量Δだけインクリメントしてか
らステップ7に戻る。ここで、このルートでステップ7
に戻るときには、文書データベース2に管理される文書
は全て未選択となるように初期化されることになる。
【0050】一方、ステップ10で、文書データベース
2に管理される全ての文書を選択していないことを判断
するとき、すなわち、ステップ9で文書を1つ選択でき
たことを判断するときには、ステップ12(図11の処
理フロー)に進んで、ステップ8で算出したキーワード
(k1〜km)の重みWiを使って、ステップ9で選択
した文書と、文書データベース2に残されている文書と
の距離を算出して、最も距離の近い文書を検索する。
【0051】続いて、ステップ13で、ステップ9で選
択した文書のカテゴリと、ステップ12で検索した文書
のカテゴリとが一致するのか否かを判断して、一致する
ことを判断するときには、ステップ14に進んで、得点
を1つインクリメントしてから、次の文書を選択すべく
ステップ9に戻り、一致しないことを判断するときに
は、得点をインクリメントすることなく、次の文書を選
択すべくステップ9に戻る。
【0052】一方、ステップ7で、重要度比値αがとり
得る最大値を超えたことを判断するときには、ステップ
15((図11の処理フロー)に進んで、最高得点をと
った重要度比値αを特定して、その重要度比値αをキー
ワードの重み算出に用いる重要度比値αとして決定す
る。
【0053】続いて、ステップ16で、その決定した重
要度比値αに従って、 Wi=p(WNi+α×WCi) 但し、p:正規化の係数 の算出式に従って、キーワード(k1〜km)の重みW
iを算出して、第3の作業域35に格納して処理を終了
する。
【0054】このようにして、重み生成プログラム34
は、図10及び図11の処理フローに従う場合には、重
要度比値αとして色々な値を想定して、そのときに、文
書データベース2から文書を順番に1つずつ選択し、想
定した重要度比値αから生成されるキーワードの重みを
使って、図12に示すように、その選択した文書(図中
の文書r)と、文書データベース2に残されている文書
(図中の文書1〜文書r−1,文書r+1〜文書10
0)との距離を測定する。
【0055】そして、その選択した文書に最も距離の近
い文書(図中の文書s)を検索して、その2つの文書の
カテゴリが一致するときには得点をインクリメントして
いって、最も高い得点を示す重要度比値αをキーワード
の重み算出に用いる重要度比値αとして決定していくこ
とで、重要度比値αを自動設定していくのである。
【0056】ユーザがシステムに熟練している場合や、
文書データベース2の更新が頻繁に起こらない場合に
は、ユーザが重要度比値αを設定することでも的確な重
要度比値αを設定することが可能なことで、的確なキー
ワードの重みを生成できることになるが、そうでない場
合には、この重要度比値αの自動設定機能は極めて有効
なものとなる。
【0057】図10及び図11の処理フローでは、カテ
ゴリ重み算出プログラム32が、カテゴリに依存しない
形で各キーワードの重みを算出することで説明したが、
カテゴリに依存する形で各キーワードの重みを算出する
ことであってもよく、この場合には、重み生成プログラ
ム34は、カテゴリに依存する形で各キーワードの重み
を生成することになる。
【0058】このようにして生成されたキーワードの重
みから、小さな重みを持つキーワードを削除するように
すれば、インデックスファイル21のサイズを縮小でき
るとともに、検索速度を向上できるようになる。
【0059】このキーワードの削除は、大きな重みを持
つキーワードから順番に規定個数のキーワードを残し、
それ以外のキーワードは削除することで行うとか、規定
の閾値よりも小さな重みを持つキーワードを削除するこ
とで行う。
【0060】この閾値を使ってキーワードを削除する構
成を採るときに、上述したcross-validation法を使っ
て、閾値を自動設定することも可能である。すなわち、
閾値として色々な値を想定することで有効なキーワード
を想定して、そのときに、文書データベース2から文書
を順番に1つずつ選択し、想定した有効なキーワードか
ら、その選択した文書と、文書データベース2に残され
ている文書との距離を測定する。そして、その選択した
文書に最も距離の近い文書を検索して、その2つの文書
のカテゴリが一致するときには得点をインクリメントし
ていって、得点を上げない閾値を求めていくことで、キ
ーワードの削除判定に用いる閾値を設定するようにすれ
ば、この閾値を自動設定できるようになる。
【0061】図示実施例に従って本発明を説明したが、
本発明はこれに限定されるものではない。例えば、実施
例では、統計重み算出プログラム30の算出した重み
と、カテゴリ重み算出プログラム32の算出した重みと
の重要度の比を示す重要度比値αをカテゴリに依存しな
い形で決定したが、カテゴリに依存する形で決定しても
よい。
【0062】また、実施例では、文書検索に用いるキー
ワードの重みとして説明を行ったが、文書がどのカテゴ
リに属するのを行うような文書分類に対してのキーワー
ドの重みとしても用いることができる。
【0063】
【発明の効果】以上説明したように、本発明では、従来
技術のように、文書に出現するキーワードの統計情報か
らキーワードの重みを生成するのではなくて、その重み
とカテゴリ情報を考慮した重みとを合成することで、キ
ーワードの重みを生成することから、文書のカテゴリ情
報を内包したキーワードの重みを生成することになっ
て、的確なキーワードの重みを生成できるようになる。
【0064】そして、本発明では、この2つ重みの合成
の割合を自動設定する機能を持つことから、ユーザがシ
ステムに熟練していない場合や、文書データベースの更
新が頻繁に起こる場合にも、的確なキーワードの重みを
生成できるようになる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】統計重み算出プログラムの実行処理の説明図で
ある。
【図4】重み生成プログラムの実行する処理フローの一
実施例である。
【図5】第1の作業域に格納される重みの説明図であ
る。
【図6】第2の作業域に格納される重みの説明図であ
る。
【図7】生成されるキーワードの重みの説明図である。
【図8】カテゴリ重み算出プログラムの算出する重みの
説明図である。
【図9】生成されるキーワードの重みの説明図である。
【図10】重み生成プログラムの実行する処理フローの
他の実施例である。
【図11】重み生成プログラムの実行する処理フローの
他の実施例である。
【図12】重み生成プログラムの実行処理の説明図であ
る。
【符号の説明】
1 キーワード重み生成装置 2 文書データベース 3 端末 10 第1の算出手段 11 第2の算出手段 12 生成手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書中に出現するキーワードの重みを生
    成するキーワード重み生成装置において、 文書データベースを参照することで、文書に出現する各
    キーワードの統計情報を求めて、該統計情報から各キー
    ワードの重みを算出する第1の算出手段と、 文書データベースを参照することで、各キーワードの出
    現する文書のカテゴリ情報を求めて、必要に応じて、各
    キーワードの出現頻度を考慮しつつ、該カテゴリ情報か
    ら各キーワードの重みを算出する第2の算出手段と、 上記第1の算出手段の算出する重みと上記第2の算出手
    段の算出する重みとの重要度比値を決定して、該重要度
    比値に従って該重みを合成することで、各キーワードの
    重みを生成する生成手段とを備えることを、 特徴とするキーワード重み生成装置。
  2. 【請求項2】 請求項1記載のキーワード重み生成装置
    において、 生成手段は、対話処理に従って重要度比値を決定するこ
    とを、 特徴とするキーワード重み生成装置。
  3. 【請求項3】 請求項1記載のキーワード重み生成装置
    において、 生成手段は、重要度比値を複数想定し、cross-validati
    on法を使って、その想定した重要度比値の有効性を評価
    して最適なものを選択することで重要度比値を決定する
    ことを、 特徴とするキーワード重み生成装置。
  4. 【請求項4】 文書中に出現するキーワードの重みを生
    成するキーワード重み生成方法において、 文書データベースを参照することで、文書に出現する各
    キーワードの統計情報を求めて、該統計情報から各キー
    ワードの重みを算出する第1の処理過程と、 文書データベースを参照することで、各キーワードの出
    現する文書のカテゴリ情報を求めて、必要に応じて、各
    キーワードの出現頻度を考慮しつつ、該カテゴリ情報か
    ら各キーワードの重みを算出する第2の処理過程と、 第1の処理過程で算出した重みと第2の処理過程で算出
    した重みとの重要度比値を決定して、該重要度比値に従
    って該重みを合成することで、各キーワードの重みを生
    成する第3の処理過程とを備えることを、 特徴とするキーワード重み生成方法。
  5. 【請求項5】 文書中に出現するキーワードの重みを生
    成するキーワード重み生成装置の実現に用いられるプロ
    グラムが記憶されるプログラム記憶媒体であって、 文書データベースを参照することで、文書に出現する各
    キーワードの統計情報を求めて、該統計情報から各キー
    ワードの重みを算出する第1の算出処理と、 文書データベースを参照することで、各キーワードの出
    現する文書のカテゴリ情報を求めて、必要に応じて、各
    キーワードの出現頻度を考慮しつつ、該カテゴリ情報か
    ら各キーワードの重みを算出する第2の算出処理と、 上記第1の算出処理の算出する重みと上記第2の算出処
    理の算出する重みとの重要度比値を決定して、該重要度
    比値に従って該重みを合成することで、各キーワードの
    重みを生成する生成処理とをコンピュータに実行させる
    プログラムが記憶されることを、 特徴とするプログラム記憶媒体。
JP30516797A 1997-11-07 1997-11-07 キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4008551B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30516797A JP4008551B2 (ja) 1997-11-07 1997-11-07 キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30516797A JP4008551B2 (ja) 1997-11-07 1997-11-07 キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH11143892A true JPH11143892A (ja) 1999-05-28
JP4008551B2 JP4008551B2 (ja) 2007-11-14

Family

ID=17941880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30516797A Expired - Fee Related JP4008551B2 (ja) 1997-11-07 1997-11-07 キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4008551B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085374A (ja) * 2004-09-15 2006-03-30 Keio Gijuku 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
WO2007043593A1 (ja) * 2005-10-11 2007-04-19 Intellectual Property Bank Corp. 企業技術文書群分析支援装置
JP2012053605A (ja) * 2010-08-31 2012-03-15 Ricoh Co Ltd 情報検索装置、情報検索方法及び情報検索プログラム
JP2012113716A (ja) * 2010-11-23 2012-06-14 Nhn Business Platform Corp カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法
JP2012128760A (ja) * 2010-12-17 2012-07-05 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
JP2016062275A (ja) * 2014-09-17 2016-04-25 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP2017146926A (ja) * 2016-02-19 2017-08-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN109408797A (zh) * 2017-08-18 2019-03-01 普天信息技术有限公司 一种文本句向量表示方法及系统
CN112925872A (zh) * 2019-12-05 2021-06-08 北京沃东天骏信息技术有限公司 一种数据搜索方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085374A (ja) * 2004-09-15 2006-03-30 Keio Gijuku 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
JP4639388B2 (ja) * 2004-09-15 2011-02-23 学校法人慶應義塾 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
WO2007043593A1 (ja) * 2005-10-11 2007-04-19 Intellectual Property Bank Corp. 企業技術文書群分析支援装置
JP2012053605A (ja) * 2010-08-31 2012-03-15 Ricoh Co Ltd 情報検索装置、情報検索方法及び情報検索プログラム
JP2012113716A (ja) * 2010-11-23 2012-06-14 Nhn Business Platform Corp カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法
JP2012128760A (ja) * 2010-12-17 2012-07-05 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
JP2016062275A (ja) * 2014-09-17 2016-04-25 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP2017146926A (ja) * 2016-02-19 2017-08-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN109408797A (zh) * 2017-08-18 2019-03-01 普天信息技术有限公司 一种文本句向量表示方法及系统
CN112925872A (zh) * 2019-12-05 2021-06-08 北京沃东天骏信息技术有限公司 一种数据搜索方法和装置

Also Published As

Publication number Publication date
JP4008551B2 (ja) 2007-11-14

Similar Documents

Publication Publication Date Title
US11816114B1 (en) Modifying search result ranking based on implicit user feedback
US7831474B2 (en) System and method for associating an unvalued search term with a valued search term
US8732169B2 (en) Lateral search
US6564210B1 (en) System and method for searching databases employing user profiles
US6915295B2 (en) Information searching method of profile information, program, recording medium, and apparatus
US6640218B1 (en) Estimating the usefulness of an item in a collection of information
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
US8015065B2 (en) Systems and methods for assigning monetary values to search terms
US8140524B1 (en) Estimating confidence for query revision models
US5870740A (en) System and method for improving the ranking of information retrieval results for short queries
JP4425641B2 (ja) 構造化ドキュメントの検索
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
US6401087B2 (en) Information retrieval system, apparatus and method for selecting databases using retrieval terms
US8694511B1 (en) Modifying search result ranking based on populations
US20060230022A1 (en) Integration of multiple query revision models
US20060230005A1 (en) Empirical validation of suggested alternative queries
JP2013506189A (ja) クエリの一般属性に基づく情報の検索
JP2005302041A (ja) キーワードとWebサイトのコンテンツとの間の関連性の検証
KR19990013736A (ko) 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
WO2011097067A2 (en) Semantic advertising selection from lateral concepts and topics
JP2008503831A (ja) 検索要請に応えて広告主の検索リスト順を抽出させるキーワード広告サービス方法及びキーワード広告サービス
JP2007519111A (ja) アンカーテキストを処理する方法、システム、およびプログラム
JP2007517308A (ja) 記事情報を用いて検索ランク付けを改良するための方法およびシステム
JP2010033559A (ja) サーバ装置、サーバ装置における分類方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061010

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070830

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110907

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120907

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120907

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130907

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees