JP2001142887A - 文書検索方法および文書検索装置およびプログラム記録媒体 - Google Patents

文書検索方法および文書検索装置およびプログラム記録媒体

Info

Publication number
JP2001142887A
JP2001142887A JP31953199A JP31953199A JP2001142887A JP 2001142887 A JP2001142887 A JP 2001142887A JP 31953199 A JP31953199 A JP 31953199A JP 31953199 A JP31953199 A JP 31953199A JP 2001142887 A JP2001142887 A JP 2001142887A
Authority
JP
Japan
Prior art keywords
importance
document
document data
composite
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31953199A
Other languages
English (en)
Inventor
Hideki Nishimura
英樹 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP31953199A priority Critical patent/JP2001142887A/ja
Publication of JP2001142887A publication Critical patent/JP2001142887A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書データベースから分割されたグループに
対する各文書データの特徴をどの程度検索結果に反映す
るかをユーザが柔軟に調整できる文書検索方法および文
書検索装置およびプログラム記録媒体を提供する。 【解決手段】 文書データ分割部2により複数の文書デ
ータを複数のグループに分割した後、キーワード入力部
11により指定された1つ以上のキーワードについて、
全文書データに対する第1単純重要度および分割された
自グループに対する第2単純重要度を単純重要度計算部
3により文書データ毎に計算する。そして、パラメータ
入力部12により第1,第2単純重要度に重み付けをす
るためのパラメータを指定し、第1,第2単純重要度と
指定されたパラメータにより各文書データの複合重要度
を複合重要度計算部4により計算し、計算された複合重
要度に従って、検索結果出力部5により全文書データの
検索を行い、検索結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書データ集合
からキーワードによって文書を検索する文書検索方法お
よび文書検索装置およびプログラム記録媒体に関する。
【0002】
【従来の技術】従来、大量の文書から目的の文書を探す
ために、様々な文書検索方法が関発されている。また、
効率の高い検索を行うため、検索の精度と再現率の向上
についていろいろな検索モデルや手法が提案されてい
る。その文書検索方法の1つとして、ベクトル空間モデ
ル等で採用されているTFIDF(Term Frequency Inve
rse Document Frequency)法による文書スコアの計算方
法は、キーワードKに対する文書Fの重要度が、F内に
おけるKの出現頻度(TF:Term Frequency)と、全文書
数をN,キーワードKを少なくとも1つ含む文書数をX
としたときのlog(N/X)(IDF:Inverse Document Fr
equency)に比例すると決める手法であり、キーワードK
に対する文書Fの重要度W(F,K)は、
【数1】 で表される。このTFIDF法による文書スコアの計算
方法は、単語に自動的に重要度を設定し、検索精度を向
上させる手法として一般によく使われている。
【0003】上記TFIDF法は、母集団の文書の多く
に含まれている単語は一般性が高く、少数の文書にしか
含まれていない単語はそれらの文書の特徴を表す度合い
が高いという性質に着目している。
【0004】例えば、特許文書を対象にすると、「発
明」、「課題」等の単語はほとんど全ての特許文書に含
まれている単語であり特許検索時にはほとんど意味をな
さないが、「検索」等は、ある特定の分野の特許文書に
しか出てこない単語であり、特許検索時には重要な単語
であると考えるものである。
【0005】ところで、文書検索において、対象の文書
はテキスト情報が抽出可能であればなんでもよい。例え
ば、電子メールとワープロ文書からは共にテキスト情報
が抽出可能であるため、単一の文書データベースに格納
可能である。しかしながら、電子メールとワープロ文書
では性質がかなり異なり、例えば、電子メールには「D
ate」等の単語が必ず含まれるが、ワープロ文書には
必ずしも含まれない。つまり、「Date」等の単語は
電子メールでは全てのメールに含まれる単語のため電子
メール内での重要度は低い。ところが、文書データベー
ス全体としては、全ての文書に「Date」が含まれる
わけではないため、ワープロ文書と併せた集合に対して
TFIDF法を適用すると、重要度が比較的高く計算さ
れる可能性がある。
【0006】逆に、ワープロ文書内に「Date」が含
まれることはあまりなく、もし含まれていた場合には、
「Date」はそのワープロ文書に対してかなり重要な
キーワードである可能性が高い。したがって、本来は前
述の重要度よりも高く計算されるべきなのに、そのよう
にならない。つまり、同じ単語「Date」が、ワープ
ロ文書に出現する場合と電予メールに出現する場合とで
は、重要さにおいて意味が異なるにも関わらず、単純な
TFIDF法ではその区別を全く行わないという問題が
ある。
【0007】そこで、電子メールとワープロ文書等を別
々のデータベースとして構築し、各データベース毎に独
立に文書の重要度を計算し、各データベースの検索結果
をあとで足し合わせることが考えられる。このようにす
ると、文書の種類毎に単語の特殊性を考慮することにな
り、特殊な単語で検索したときの検索精度が向上する。
例えば、特開平7−311777号公報では、複数の異
種データベースに対し、各データベース毎に検索を実行
し、全てのデータベースからの検索結果を足し合わせ
て、重複を除去した上でユーザに検索結果を提示する。
そうして、各データベース毎に独立に文書の重要度を計
算するので、「Date」のような特殊なキーワードの
重要度がデータベース毎に適切に計算される。
【0008】
【発明が解決しようとする課題】しかしながら、一般的
には、「Date」等の特殊な単語以外の電子メールや
ワープロ文書に同じように用いられる単語の場合には、
特開平7−311777号公報の手法によると、分割さ
れたデータベース毎に文書に含まれる単語の分布が偶然
に偏った場合に、キーワードの重要性が不適切に計算さ
れることがある。すなわち、特殊なキーワードでないに
もかかわらず、特定の分割データベースに対してたまた
ま重要であると計算され、その分割データベースで検索
された結果すべての重要度を必要以上に高くしてしま
い、その結果、他の分割データベースの検索結果を下位
の方へ埋もれさせることになる。したがって、一般的に
は、やはり文書全体を対象としてTFIDF法を適用す
るべきであり、特開平7−311777号公報のような
手法をすべての場合に適用することは好ましくない。
【0009】そこで、この発明の目的は、文書データベ
ースから分割されたグループに対する各文書の特徴をど
の程度検索結果に反映するかをユーザが柔軟に調整でき
る文書検索方法を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、この発明の文書検索方法は、複数の文書データから
キーワードによって文書を検索する文書検索方法であっ
て、1つ以上のキーワードを指定するステップと、上記
複数の文書データを複数のグループに分割するステップ
と、上記指定された1つ以上のキーワードについて、上
記全文書データに対する第1単純重要度および上記分割
された自グループに対する第2単純重要度を上記文書デ
ータ毎に計算するステップと、上記第1,第2単純重要
度に重み付けをするためのパラメータを指定するステッ
プと、上記各文書データの上記第1,第2単純重要度お
よび上記指定されたパラメータに基づいて、上記各文書
データの複合重要度を計算するステップと、上記計算さ
れた各文書データの複合重要度に従って上記全文書デー
タについて検索を行って、その検索結果を出力するステ
ップとを有することを特徴としている。
【0011】上記文書検索方法によれば、上記複数の文
書データを複数のグループに分割した後、指定された1
つ以上のキーワードについて、全文書データに対する第
1単純重要度および上記分割された自グループに対する
第2単純重要度を文書データ毎に計算する。そして、上
記第1,第2単純重要度に重み付けをするためのパラメ
ータを指定した後、上記計算された2種類の第1,第2
単純重要度と指定されたパラメータにより各文書データ
の複合重要度を計算し、計算された複合重要度に従って
全文書データの検索を行って、その検索結果を出力す
る。したがって、ユーザが指定するパラメータによっ
て、文書データ毎に計算された全文書データに対する第
1単純重要度および分割された自グループ(分割された
個々の種類の文書データ)に対する第2単純重要度の重
み付けを任意に変えることにより、どのように第1,第
2単純重要度を上記各文書データの最終的な複合重要度
に影響させるかをユーザが柔軟に調整できる。
【0012】また、一実施形態の文書検索方法は、上記
各文書データの複合重要度を計算するステップにおい
て、上記指定されたパラメータをα,βとし、上記第1
単純重要度をAとし、上記第2単純重要度をBとして、 複合重要度 = αA+βB により上記各文書データの複合重要度を計算することを
特徴としている。
【0013】上記実施形態の文書検索方法によれば、上
記パラメータをα,βの2つとすることにより、もっと
も一般的な指定が可能である。例えば、2次元平面上の
1点を指定するユーザインターフェース等によりαとβ
を別々に指定することも可能であるし、β=1に固定
し、αのみを変化させるという方法もある。また、β=
(1−α)のように定義して、α=0〜1の範囲で自由に
変化させることによって、複合重要度の計算を調整する
ことができ、スライダーによるユーザインターフェース
の実装に便利である。
【0014】また、一実施形態の文書検索方法は、上記
各文書データの複合重要度を計算するステップにおい
て、上記指定されたパラメータを角度θとし、上記第1
単純重要度をAとし、上記第2単純重要度をBとして、 複合重要度 = Acosθ+Bsinθ により上記各文書データの複合重要度を計算することを
特徴としている。
【0015】上記実施形態の文書検索方法によれば、上
記パラメータを角度θにすることで、角度データを与え
て、複合重要度計算を調整することができ、ジョグダイ
ヤルによるユーザインターフェースの実装に便利であ
る。また、単純なユーザインターフェースであるにも関
わらず、角度θによっては、各項(Acosθ,Bsinθ)の
値が負の値となることもあり、上記全文書データまたは
自グループに対する各文書データの特徴を負の影響を与
えるものとすることが可能である。
【0016】また、一実施形態の文書検索方法は、、上
記各文書データの複合重要度を計算するステップにおい
て、上記指定されたパラメータをγとし、 A×γ > B である文書データの複合重要度を0とすることを特徴と
している。
【0017】上記実施形態の文書検索方法によれば、複
合重要度の計算に算術式だけでなく、論理式を使うこと
ができる。典型的には、ある条件により計算式を切り替
えたり、複合重要度を0とし、検索結果の一部をマスク
する。また、第1単純重要度Aが第2単純重要度Bより
も大きいということは、結局のところ自グループ内での
特徴が薄いことを意味する。このように、A×γ>Bで
ある文書データの複合重要度を0にすることによって、
自グループ内での特徴が比較的薄いと判断される文書を
マスクする効果があり、特徴的な文書だけに検索結果を
絞りたいときに有効である。上記γは比例定数を表すパ
ラメータであり、γの値を変更することによって、マス
クされる文書の数を調整することができる。
【0018】また、一実施形態の文書検索方法は、上記
各文書データの複合重要度を計算するステップにおい
て、上記指定されたパラメータをγとし、 A×γ < B である文書データの複合重要度を0とすることを特徴と
している。
【0019】上記実施形態の文書検索方法によれば、同
様に、第1単純重要度Aが第2単純重要度Bよりも小さ
いということは、結局のところ自グループ内での特徴が
強いことを意味する。このように、A×γ<Bである文
書データの複合重要度を0にすることによって、自グル
ープ内での特徴が比較的強いと判断される文書をマスク
する効果があり、特徴的な文書は必要なく、そのような
文書を検索結果から排除したいときに有効である。上記
γは比例定数を表すパラメータであり、γの値を変更す
ることによって、マスクされる文書の数を調整すること
ができる。
【0020】また、一実施形態の文書検索方法は、、上
記パラメータγが1であることを特徴としている。
【0021】上記実施形態の文書検索方法によれば、A
×γ>B、かつ、パラメータγが1のときは、自グルー
プに対する第2単純重要度よりも全体に対する第1単純
重要度の方が大きい文書のみを検索結果として出力す
る。逆に、A×γ<B、かつ、パラメータγ=1のとき
は、文書全体に対する第1単純重要度のよりも自グルー
プに対する第2単純重要度の方が大きい文書のみを検索
結果として出力する。
【0022】また、一実施形態の文書検索方法は、上記
第1,第2単純重要度を上記文書データ毎に計算するス
テップにおいて、計算された上記各文書データの第1,
第2単純重要度を上記パラメータに対応づけて記憶し
て、上記各文書データの複合重要度を計算するステップ
において、上記パラメータの変更に従って、変更後のパ
ラメータに対応する上記記憶された第1,第2単純重要
度を用いて、上記各文書データの複合重要度の計算を行
うことを特徴としている。
【0023】上記実施形態の文書検索方法によれば、記
憶されたすでに計算済みの第1,第2単純重要度から複
合重要度を計算することで、複合重要度の計算を高速に
行うことができる。ユーザが小刻みに操作できるスライ
ダーまたはジョグダイヤル等をユーザインターフェース
として実装する場合には、リアルタイムに複合重要度が
計算され、検索結果を高速に出力できる。
【0024】また、この発明の文書検索装置は、複数の
文書データからキーワードによって文書を検索する文書
検索装置であって、1つ以上のキーワードを指定するキ
ーワード指定手段と、上記複数の文書データを複数のグ
ループに分割する文書データ分割手段と、上記指定され
た1つ以上のキーワードについて、上記全文書データに
対する第1単純重要度および上記分割された自グループ
に対する第2単純重要度を上記文書データ毎に計算する
単純重要度計算手段と、上記第1,第2単純重要度に重
み付けをするためのパラメータを指定するパラメータ指
定手段と、上記各文書データの上記第1,第2単純重要
度および上記指定されたパラメータに基づいて、上記各
文書データの複合重要度を計算する複合重要度計算手段
と、上記計算された各文書データの複合重要度に従って
上記全文書データについて検索を行って、その検索結果
を出力する検索結果出力手段とを備えたことを特徴とし
ている。
【0025】上記構成の文書検索装置によれば、上記文
書データ分割手段により複数の文書データを複数のグル
ープに分割した後、上記キーワード指定手段により指定
された1つ以上のキーワードについて、全文書データに
対する第1単純重要度および上記分割された自グループ
に対する第2単純重要度を単純重要度計算手段により文
書データ毎に計算する。そして、上記パラメータ指定手
段により第1,第2単純重要度に重み付けをするための
パラメータを指定した後、上記計算された2種類の第
1,第2単純重要度と指定されたパラメータにより各文
書データの複合重要度を複合重要度計算手段により計算
し、計算された複合重要度に従って上記検索結果出力手
段により全文書データの検索を行って、その検索結果を
出力する。したがって、ユーザが指定するパラメータに
よって、文書データ毎に計算された全文書データに対す
る第1単純重要度および分割された自グループ(分割さ
れた個々の種類の文書データ)に対する第2単純重要度
の重み付けを任意に変えることにより、どのように第
1,第2単純重要度を上記各文書データの最終的な複合
重要度に影響させるかをユーザが柔軟に調整できる。
【0026】また、この発明のプログラム記録媒体は、
1つ以上のキーワードを指定するステップと、複数の文
書データを複数のグループに分割するステップと、上記
指定された1つ以上のキーワードについて、上記全文書
データに対する第1単純重要度および上記分割された自
グループに対する第2単純重要度を上記文書データ毎に
計算するステップと、上記第1,第2単純重要度に重み
付けをするためのパラメータを指定するステップと、上
記各文書データの上記第1,第2単純重要度および上記
指定されたパラメータに基づいて、上記各文書データの
複合重要度を計算するステップと、上記計算された各文
書データの複合重要度に従って上記全文書データについ
て検索を行って、その検索結果を出力するステップとを
有する制御プログラムを記録したことを特徴としてい
る。
【0027】上記プログラム記録媒体によれば、記録さ
れた制御プログラムをマイクロコンピュータ等の情報処
理装置に読み込んで、その制御プログラムを実行するこ
とによって、上記複数の文書データを複数のグループに
分割した後、指定された1つ以上のキーワードについ
て、全文書データに対する第1単純重要度および上記分
割された自グループに対する第2単純重要度を文書デー
タ毎に計算し、上記第1,第2単純重要度に重み付けを
するためのパラメータを指定し、上記計算された2種類
の第1,第2単純重要度と指定されたパラメータにより
各文書データの複合重要度を計算し、計算された複合重
要度に従って全文書データの検索を行って、その検索結
果を出力する。したがって、ユーザが指定するパラメー
タによって、文書データ毎に計算された全文書データに
対する第1単純重要度および分割された自グループ(分
割された個々の種類の文書データ)に対する第2単純重
要度の重み付けを任意に変えることにより、どのように
第1,第2単純重要度を上記各文書データの最終的な複
合重要度に影響させるかをユーザが柔軟に調整できる。
また、このような文書検索方法を特定の一台の情報処理
装置に内蔵した形態のみならず、特定の情報処理装置か
ら上記文書検索方法を実行する制御プログラムを切り離
して独立した記録媒体の形態にすることによって、保
存,運搬および流通させることが可能となる。
【0028】
【発明の実施の形態】以下、この発明の文書検索方法お
よび文書検索装置およびプログラム記録媒体を図示の実
施の形態により詳細に説明する。
【0029】図1はこの発明の実施の一形態の文書検索
方法を用いた文書検索装置の概略ブロック図であり、1
は対象の文書データベースに対して複数の文書データの
単語とその他の付加情報を整理する文書データ入力部、
2は上記文書データ入力部1により整理された文書デー
タを所定の基準によって分割する文書データ分割手段と
しての文書データ分割部、3は入力された1つ以上のキ
ーワードに基づいて、文書データ毎に、全文書データに
対するTFIDFによる文書の第1単純重要度Aおよび
同種類の文書データ群に対するTFIDFによる文書の
第2単純重要度Bを計算する単純重要度計算手段として
の単純重要度計算部、4は入力されたパラメータに基づ
いて、上記単純重要度計算部3により計算された第1,
第2単純重要度A,Bをもとに最終的な複合重要度を計
算する複合重要度計算手段としての複合重要度計算部、
5は上記複合重要度計算部4により計算された複合重要
度に基づいて検索を行い、その検索結果を出力する検索
結果出力手段としての検索結果出力部である。また、1
1は1つ以上のキーワードを指定するキーワード指定手
段としてのキーワード入力部、12は上記第1,第2単
純重要度A,Bに重み付けをするためのパラメータを指
定するパラメータ指定手段としてのパラメータ入力部で
ある。
【0030】以後、サンプルの文書集合を対象にして、
上記文書検索装置の動作を詳細に説明する。ここで、文
書はコンピュータ上のファイルとなっており、ディレク
トリ等によりジャンル情報を得ることができ、文書集合
をファイル名のリストという形式で扱えるものとする。
また、ジャンル情報が異なるものを分割の基準とする
が、これに限らず、他のいかなる基準で文書を分割して
よい。
【0031】まず、上記構成の文書検索装置の文書デー
タ入力部1における動作を詳細に説明する。
【0032】図1において、文書データ入力部1は、文
書集合から上記各文書データに対して、文書名、文書が
含んでいる単語、ジャンル情報等の文書データを取り出
して整理し、データベース化を行う。まず、文書集合か
ら文書を1つずつ取り出して、取り出した文書を解析
し、文書毎に単語の出現頻度を調べる。この解析方法に
ついては、公知の技術を用いることにし、特に制限しな
い。次に、不要語辞書を用いて「そして、しかし、こ
の」等の不要語を除去した後、ジャンル名とともに文書
テーブルに、文書の要素として追加する。これらの処理
を文書集合の全ての文書に対して行う。単語の後にある
「()」の中の数字は、その単語の出現数を表している。
その結果として、文書テーブル(図2に示す)を得る。
【0033】なお、説明を簡単にするために各文書とも
単語の種類や単語数が極端に少ない例にしているが、実
際の文書では当然のことながら単語の種類や出現頻度は
多種,多数になる。
【0034】次に、文書データ分割部2における動作を
詳細に説明する。
【0035】上記文書データ分割部2は、文書データ入
力部1によってデータベース化された文書データをグル
ープに振り分ける。ここでは分割基準テーブル(図3に
示す)のように、ジャンル名によって、グループ分けす
ることにし、文書データを2つのグループに分ける。
【0036】上記文書テーブル(図2に示す)の全てのデ
ータに対して、文書データを1つずつ取り出す。例え
ば、「メニュー チョコプリン 加熱(5)、牛乳(5)
チョコ(2)、」が取り出される。次に、分割基準テーブ
ル(図3に示す)を参照し、グループを決定する。分割基
準テーブル(図3に示す)に従って、「メニュー チョコ
プリン 加熱(5)、牛乳(5)、チョコ(2)、」のグルー
プをG1と決定する。
【0037】そして、グループ文書テーブル(図4に示
す)に、決定されたグループとともに文書データを追加
する。「メニュー チョコプリン 加熱(5)、牛乳
(5)、チョコ(2)、」の場合、グループ文書テーブル
(図4に示す)に追加する。上記文書テーブル(図2に示
す)の全ての文書データに対してグループ分けを行うま
で、以上の処理を繰り返す。
【0038】その結果として、グループ文書テーブル
(図4に示す)を得る。なお、図中、順番の項は、文書デ
ータの数を数えやすくするために上から順に数字を振っ
たものである。
【0039】次に、単純重要度計算部3における動作を
詳細に説明する。
【0040】上記単純重要度計算部3は、文書データ分
割部2によって分割された文書データに対して、単純重
要度を計算する。単純重要度とは、文書に対するあるキ
ーワードに対する関連度のことで、文書検索システムに
おいて一般的にはTFIDF法により計算されるものが
多い。また、一般的に検索システムに対して複数のキー
ワードが指定されるので、この場合の単純重要度とは、
それぞれのキーワードに対するTFIDFの値を要素と
したベクトルデータとなる。なお、TFIDF法では一
般に、
【数2】 によって関連度を決定する(文書F、キーワードK)。
【0041】上記単純重要度計算部3では、グループ文
書テーブル(図4に示す)の各文書に対して、(1)グルー
プの項を考慮しない全文書データに対する第1単純重要
度Aと、(2)グループの項を考慮した同一グループの文
書データ集合における第2単純重要度Bの2つの値を計
算する。
【0042】上記(2)の場合は、TFIDFの式におけ
る「全文書数」は同一グループの文書数となり、「Kで
のヒット件数」は同一グループにおけるKでのキーワー
ドのヒット件数となる。
【0043】以後、検索キーとして、キーワード「牛
乳」が指定されたものとして説明し、単純重要度は1次
のベクトルすなわちスカラーのデータとして表現するこ
ととする。例えば、グループ文書テーブル(図4に示す)
の文書データ「G1 チョコプリン 加熱(5)、牛乳
(5)、チョコ(2)、」を選択する。
【0044】この文書データには、単語「牛乳」が5回
出現する。また、キーワード「牛乳」を含む文書の数
は、グループG1で30、グループG2で1の合計31
文書であるとする。全文書数1000、グループG1の
文書数300、グループG2の文書数700であるの
で、文書データ「G1 チョコプリン 加熱(5)、牛乳
(5)、チョコ(2)、」の全文書データに対する第1単純
重要度Aは、 第1単純重要度A=5×log(1000/31)=25.0
579 (比例定数となるので底は何でもよいが、ここでは2と
した)となり、同一グループの文書集合に対する第2単
純重要度Bは、 第2単純重要度B=5×log(300/30)=16.60
96 (底は同じく2)となる。同様に、「G2 免疫牛乳 免
疫(4)、牛乳(2)、抗体(2)、」の場合は、 第1単純重要度A=2×log(1000/31)=10.0
232 第2単純重要度B=2×log(700/1)=18.902
4 となる。結果として、単純重要度テーブル(図5に示す)
が得られる。
【0045】次に、複合重要度計算部4における動作を
図6のフローチャートを参照しながら詳細に説明する。
上記複合重要度計算部4は、外部からパラメータαを受
け取り、パラメータαにしたがって各文書の最終的な複
合重要度を計算する。ここでは一例として、最終的な重
要度を「(1−α)×(全体に対するTFIDFの値)+α
×(グループ内でのTFIDFの値)」とし、入力される
パラメータαとして、α=0,0.5,0.6,0.7,0.
9,1について考える。
【0046】入力されるパラメータαを1次元としたの
で、スライダー等によるユーザインターフェースの実装
が考えられる。
【0047】まず、ステップS101でパラメータαを
外部から入力する。例えば、α=0となる。次に、ステ
ップS102〜S104を単純重要度テーブルの全ての
データに対して行う。
【0048】次に、ステップS102に進み、単純重要
度テーブル(図5に示す)の1つのデータを選択する。例
えば、「チョコプリン 25.0579 16.609
6」を選択する。
【0049】次に、ステップS103に進み、「(1−
α)×(全体に対するTFIDFの値)+α×(グループ内
でのTFIDFの値)」に従って、最終的な複合重要度
を計算する。「チョコプリン 25.0579 16.6
096」の場合には、複合重要度=1×25.0579
+0×16.6096=25.0579となる。そして、
ステップS104で、計算された複合重要度を文書名と
共に複合重要度テーブル(図7に示す)に記録する。
【0050】次に、ステップS105に進み、全文書デ
ータに対してステップS102〜S104を行ったと判
定すると、この複合重要度計算処理を終了する一方、全
文書データに対してステップS102〜S104を行っ
ていないと判定すると、ステップS2に戻り、ステップ
S102〜S104を繰り返す。
【0051】このようにして、複合重要度テーブル(図
7に示す)が得られる。すなわち、α=0のときは、全
体に対するTFIDFの値をそのまま重要度とする。こ
の場合、結局、分割を行わずに通常のTFIDF法を使
った検索と全く同じ重要度となる。なお、見やすさのた
め、複合重要度が0の文書データに対しては表記を省略
し、また、複合重要度の高い順にソートして表記した。
【0052】また、α=0.5,0.6,0.7,0.9,1の
とき、同様の計算を行うことによって、複合重要度テー
ブル(図8〜図12)が得られる。グループG2の文書
「免疫牛乳」がグループG2内で特徴的であるために、
パラメータαの値を変化させていくことによって、徐々
に順位を上げていくのがわかる。なお、パラメータα=
1のときは、結局、グループ内で個別に検索したときの
TFIDFの値と同じとなる(特開平7−311777
号公報の方法)。
【0053】次に、検索結果出力部5における動作を説
明する。
【0054】上記検索結果出力部5は、複合重要度計算
部4により計算された複合重要度テーブルに対し、文書
名と重要度を関連付けて表示する。この場合、文書名と
重要度の関連付けの方法は、公知の技術を用いることと
し、特に制限しない。例えば、単純に複合重要度が0よ
り大きいものを降順で出力すればよい。
【0055】以上のように、入力するパラメータαが異
なると、出力結果が異なる場合があると共に、パラメー
タα=0のときは、各文書を区別せずに文書集合全体に
対して単純なTFIDF法による検索を行うことにな
る。ところが、パラメータα=1のときは、各文書をジ
ャンルによって区別し、ジャンル内での文書の特異性に
着目することによって、ジャンル「事典」において、キ
ーワード「牛乳」に関して特異性があると認識された文
書「免疫牛乳」が検索結果のうち最適なものと出力され
る。
【0056】上記パラメータαは、ユーザが自由に入力
することができるので、第1,第2単純重要度A,Bの重
み付けを調整して、ジャンルによる文書の特徴を出す検
索と、全体の中からの一様な検索を連続的に切り替えて
行うことができる。
【0057】なお、単純重要度の計算において、TFI
DF法による計算を行ったが、単純重要度の計算はTF
IDF法に限定するわけではなく、文書数とヒット数の
いずれか、または両方を重要度の計算に使用している一
般の単純重要度計算式に対して適用可能である。例え
ば、単純重要度の計算に、
【数3】 を用いてよい。また、複合重要度の計算において「(1
−α)×(全体に対するTFIDFの値)+α×(グループ
内でのTFIDFの値)」としたが、これに限定するも
のでなく、他の任意の式を指定してよい。全体に対する
TFIDFの値をAとし、グループ内でのTFIDFの
値をBとすると、例えば、パラメータを角度θとし、
「A×cosθ+B×sinθ」という式にすれば、ジョグシ
ャトルのような単純なユーザインターフェースを連続的
に操作することによって、各単純重要度を負の要素とし
て扱うことも可能である。
【0058】また、同じく複合重要度の計算において、
算術式を用いるもの以外に、論理式を用いることもでき
る。例えば、パラメータγを導入し、 A×γ<Bのとき 0 A×γ≧Bのとき αA+βB または Acosθ+Bs
inθ というようにすれば、「A×γ<B」のときは複合重要
度が0となり、この部分にマスクをかけることになる。
【0059】ある文書の第1単純重要度A,Bに関し
て、AがBに比較して大きいということは、その文書が
自グループにおいて特徴が薄いことを示し、AがBに比
較して小さいということは、特徴が強いことを示してい
る。
【0060】したがって、「A×γ<Bのときは0」
は、比較的グループに特徴的な文書の複合重要度が0に
なるので、キーワード「牛乳」に対するメニューデータ
のように検索結果の文書が大量になることが分かってい
る文書に絞り、事典データ等の特徴的な文書を排除した
い場合に用いることができる。パラメータγは比例定数
であり、マスクする文書数を調整することになる。特
に、パラメータγ=1のときは、グループ内でのTFI
DF値よりも全体に対するTFIDFの値の方が大きい
文書のみを検索結果として出力することになる。
【0061】逆に、例えば、 A×γ>Bのとき 0 A×γ≦Bのとき αA+βB または Acosθ+Bs
inθ というようにすれば、比較的グループに特徴の薄い文書
の重要度が0になるので、キーワード「牛乳」に対する
「免疫牛乳」等の特徴的な文書に絞り、メニューデータ
等が大量に存在することが分かっているものを排除した
い場合に用いることができる。特に、パラメータγ=1
のときは、グループ内でのTFIDF値の方が全体に対
するTFIDFの値のよりも大きい文書のみを検索結果
として出力することになる。
【0062】また、この実施形態では、単純重要度とし
て1次元のベクトルデータ(スカラーデータ)を扱った
が、2次元以上のベクトルデータを用いることもでき
る。このときは、複合重要度の計算のときに、ベクトル
として「αA+βBまたはAcosθ+Bsinθ」等の計算
を行った後に計算結果ベクトルの長さを計算するなど、
最終的にスカラーに変換すればよい。
【0063】また、複合重要度計算部4の代わりに、パ
ラメータの変化に追従して自動的に複合重要度を再計算
し、リアルタイムに検索結果を変化させる複合重要度計
算部を用いてもよい。この場合の複合重要度計算部の動
作のフローチャートを図13に示しており、ステップS
111〜S115は、図6のステップS101〜S10
5の動作と同じであり、説明を省略する。
【0064】そして、ステップS116で、指定された
パラメータαを入力する。
【0065】次に、ステップS117に進み、パラメー
タαが変化しているか否かを判定して、前回のパラメー
タαと比べ変化していると判定した場合、ステップS1
12に戻り、複合重要度テーブルの更新を行う。一方、
ステップS117でパラメータが変化していないと判定
した場合は、ステップS116に戻り、パラメータαを
調べ続ける。
【0066】この結果、複合重要度テーブルがリアルタ
イムで更新されることになり、検索結果がリアルタイム
に変化するので、検索を一回実行した後は、パラメータ
を自由に変化させるだけで、様々な検索結果を高速に出
力できるので便利である。
【0067】また、図14〜図16に具体的なユーザイ
ンターフェースを示しており、文書全体に対する文書の
第1単純重要度Aとし、同種類の文書データ群(自グル
ープ)に対する文書の第2単純重要度Bとする。
【0068】図14は、スライダーによる実装であり、
この場合、複合重要度αA+βB、特にβ=1−αとし
た場合に有効である。
【0069】図15は、ジョグダイヤルによる実装であ
り、この場合、複合重要度=Acosθ+Bcosθとした場
合に有効である。
【0070】図16は、2次元平面のパッド等を用いた
実装であり、この場合、複合重要度=αA+βBにおい
て、αとβを同時に指定することができる。
【0071】また、図17は、AとBの値によって複合
重要度の計算式を切り替える場合の条件を模式的に示し
ている。ただし、Aは文書全体に対する第1単純重要
度、Bは同種類の文書集合に対する第2単純重要度であ
る。直線(B=A×γ)がA軸に近づくほど(Bが0に近
づく)その文書が自グループ内で一般的で、直線(B=A
×γ)がB軸に近づくほど(Aが0に近づく)自グループ
内で特徴的であることになる。図17では、「A×γ>
Bのとき、複合重要度0」であることを示している。
【0072】このように、ユーザがパラメータを指定す
ることにより、文書データ毎に計算された全文書データ
に対する第1単純重要度Aおよび分割された自グループ
(分割された個々の種類の文書データ)に対する第2単純
重要度Bの重み付けを変えて、どのように第1,第2単
純重要度A,Bを各文書データの最終的な複合重要度に
影響させるかをユーザが柔軟に調整することができる。
【0073】また、上記各文書データの複合重要度の計
算において、指定されたパラメータをα,βとし、 複合重要度 = αA+βB により各文書データの複合重要度を計算することによっ
て、例えば、2次元平面上の1点を指定するユーザイン
ターフェース等によりαとβを別々に指定することも可
能であるし、β=1に固定し、αのみを変化させるとい
う方法もある。
【0074】また、上記各文書データの複合重要度の計
算において、指定されたパラメータをγとし、 A×γ > B (または A×γ < B) である文書データの複合重要度を0とすることによっ
て、複合重要度の計算に算術式だけでなく、論理式を使
うことができ、検索結果の一部をマスクできる。また、
第1単純重要度Aが第2単純重要度Bよりも大きいとい
うことは、結局のところ自グループ内での特徴が薄いこ
とを意味し、A×γ>B(またはA×γ<B)である文書
データの複合重要度を0にすることによって、自グルー
プ内での特徴が比較的薄いと判断される文書をマスクす
る効果があり、特徴的な文書だけに検索結果を絞りたい
ときに有効である。
【0075】上記実施の形態では、文書データ入力部
1,文書データ分割部2,単純重要度計算部3,複合重要
度計算部4,検索結果出力部5,キーワード入力部11お
よびパラメータ入力部12を備えた文書検索装置につい
て説明したが、この発明による制御プログラムの一部ま
たは全部をフロッピーディスク等のプログラム記録媒体
に保管して、必要に応じて上記制御プログラムをパーソ
ナルコンピュータ等の情報処理装置に読み込んで、実行
させてもよい。
【0076】
【発明の効果】以上より明らかなように、この発明の文
書検索方法および文書検索装置およびプログラム記録媒
体によれば、種々の分割基準で分割可能な大量の文書集
合に対して、文書全体に対しての検索結果および分割さ
れたグループごとの検索結果を用いることによって、分
割されたグループ内での文書の特徴を反映した検索を行
うことができ、また、反映させる度合いをユーザが自由
に決定することができる。特に、反映させる度合いをス
ライダー等を用いてリアルタイムに変化させることによ
り、検索結果の把握が容易になる。
【図面の簡単な説明】
【図1】 図1はこの発明の実施の一形態の文書検索方
法を用いた文書検索装置の概略ブロック図である。
【図2】 図2は上記文書検索方法の文書テーブルを示
す説明図である。
【図3】 図3は分割基準テーブルを示す説明図であ
る。
【図4】 図4はグループ文書テーブルを示す説明図で
ある。
【図5】 図5は単純重要度テーブルを示す説明図であ
る。
【図6】 図6は複合重要度計算における動作のフロー
チャートである。
【図7】 図7はパラメータαが0のときの重要度テー
ブルを示す説明図である。
【図8】 図8はパラメータαが0.5のときの重要度
テーブルを示す説明図である。
【図9】 図9はパラメータαが0.6のときの重要度
テーブルを示す説明図である。
【図10】 図10はパラメータαが0.7のときの重
要度テーブルを示す説明図である。
【図11】 図11はパラメータαが0.9のときの重
要度テーブルを示す説明図である。
【図12】 図12はパラメータαが1のときの重要度
テーブルを示す説明図である。
【図13】 図13は複合重要度計算における動作を示
すフローチャートである。
【図14】 図14はスライダーによるユーザインター
フェースの例を示す模式図である。
【図15】 図15はジョグダイヤルによるユーザイン
ターフェースを示す模式図である。
【図16】 図16は2次元平面パッドによるユーザイ
ンターフェースを示す模式図である。
【図17】 図17は複合重要度計算における論理式条
件を示す模式図である。
【符号の説明】
1…文書データ入力部、 2…文書データ分割部、 3…単純重要度計算部、 4…複合重要度計算部、 5…検索結果出力部、 11…キーワード入力部、 12…パラメータ入力部。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書データからキーワードによっ
    て文書を検索する文書検索方法であって、 1つ以上のキーワードを指定するステップと、 上記複数の文書データを複数のグループに分割するステ
    ップと、 上記指定された1つ以上のキーワードについて、上記全
    文書データに対する第1単純重要度および上記分割され
    た自グループに対する第2単純重要度を上記文書データ
    毎に計算するステップと、 上記第1,第2単純重要度に重み付けをするためのパラ
    メータを指定するステップと、 上記各文書データの上記第1,第2単純重要度および上
    記指定されたパラメータに基づいて、上記各文書データ
    の複合重要度を計算するステップと、 上記計算された各文書データの複合重要度に従って上記
    全文書データについて検索を行って、その検索結果を出
    力するステップとを有することを特徴とする文書検索方
    法。
  2. 【請求項2】 請求項1に記載の文書検索方法におい
    て、 上記各文書データの複合重要度を計算するステップにお
    いて、上記指定されたパラメータをα,βとし、上記第
    1単純重要度をAとし、上記第2単純重要度をBとし
    て、 複合重要度 = αA+βB により上記各文書データの複合重要度を計算することを
    特徴とする文書検索方法。
  3. 【請求項3】 請求項1に記載の文書検索方法におい
    て、 上記各文書データの複合重要度を計算するステップにお
    いて、上記指定されたパラメータを角度θとし、上記第
    1単純重要度をAとし、上記第2単純重要度をBとし
    て、 複合重要度 = Acosθ+Bsinθ により上記各文書データの複合重要度を計算することを
    特徴とする文書検索方法。
  4. 【請求項4】 請求項2または3に記載の文書検索方法
    において、 上記各文書データの複合重要度を計算するステップにお
    いて、上記指定されたパラメータをγとし、 A×γ > B である文書データの複合重要度を0とすることを特徴と
    する文書検索方法。
  5. 【請求項5】 請求項2または3に記載の文書検索方法
    において、 上記各文書データの複合重要度を計算するステップにお
    いて、上記指定されたパラメータをγとし、 A×γ < B である文書データの複合重要度を0とすることを特徴と
    する文書検索方法。
  6. 【請求項6】 請求項4または5に記載の文書検索方法
    において、 上記パラメータγが1であることを特徴とする文書検索
    方法。
  7. 【請求項7】 請求項1乃至6のいずれか1つに記載の
    文書検索方法において、 上記第1,第2単純重要度を上記文書データ毎に計算す
    るステップにおいて、計算された上記各文書データの第
    1,第2単純重要度を上記パラメータに対応づけて記憶
    して、 上記各文書データの複合重要度を計算するステップにお
    いて、上記パラメータの変更に従って、変更後のパラメ
    ータに対応する上記記憶された第1,第2単純重要度を
    用いて、上記各文書データの複合重要度の計算を行うこ
    とを特徴とする文書検索方法。
  8. 【請求項8】 複数の文書データからキーワードによっ
    て文書を検索する文書検索装置であって、 1つ以上のキーワードを指定するキーワード指定手段
    と、 上記複数の文書データを複数のグループに分割する文書
    データ分割手段と、 上記指定された1つ以上のキーワードについて、上記全
    文書データに対する第1単純重要度および上記分割され
    た自グループに対する第2単純重要度を上記文書データ
    毎に計算する単純重要度計算手段と、 上記第1,第2単純重要度に重み付けをするためのパラ
    メータを指定するパラメータ指定手段と、 上記各文書データの上記第1,第2単純重要度および上
    記指定されたパラメータに基づいて、上記各文書データ
    の複合重要度を計算する複合重要度計算手段と、 上記計算された各文書データの複合重要度に従って上記
    全文書データについて検索を行って、その検索結果を出
    力する検索結果出力手段とを備えたことを特徴とする文
    書検索装置。
  9. 【請求項9】 1つ以上のキーワードを指定するステッ
    プと、 複数の文書データを複数のグループに分割するステップ
    と、 上記指定された1つ以上のキーワードについて、上記全
    文書データに対する第1単純重要度および上記分割され
    た自グループに対する第2単純重要度を上記文書データ
    毎に計算するステップと、 上記第1,第2単純重要度に重み付けをするためのパラ
    メータを指定するステップと、 上記各文書データの上記第1,第2単純重要度および上
    記指定されたパラメータに基づいて、上記各文書データ
    の複合重要度を計算するステップと、 上記計算された各文書データの複合重要度に従って上記
    全文書データについて検索を行って、その検索結果を出
    力するステップとを有する制御プログラムを記録したこ
    とを特徴とするプログラム記録媒体。
JP31953199A 1999-11-10 1999-11-10 文書検索方法および文書検索装置およびプログラム記録媒体 Pending JP2001142887A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31953199A JP2001142887A (ja) 1999-11-10 1999-11-10 文書検索方法および文書検索装置およびプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31953199A JP2001142887A (ja) 1999-11-10 1999-11-10 文書検索方法および文書検索装置およびプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2001142887A true JP2001142887A (ja) 2001-05-25

Family

ID=18111292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31953199A Pending JP2001142887A (ja) 1999-11-10 1999-11-10 文書検索方法および文書検索装置およびプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2001142887A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060728A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
JP2007140639A (ja) * 2005-11-15 2007-06-07 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
JP5223671B2 (ja) * 2006-05-26 2013-06-26 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140639A (ja) * 2005-11-15 2007-06-07 National Institute Of Information & Communication Technology データ表示装置、データ表示方法およびデータ表示プログラム
JP4719921B2 (ja) * 2005-11-15 2011-07-06 独立行政法人情報通信研究機構 データ表示装置およびデータ表示プログラム
WO2007060728A1 (ja) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. 文献検索装置、方法及びプログラム
JP5223671B2 (ja) * 2006-05-26 2013-06-26 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム

Similar Documents

Publication Publication Date Title
US6480835B1 (en) Method and system for searching on integrated metadata
KR100295354B1 (ko) 문서 정보 검색 시스템
US6012053A (en) Computer system with user-controlled relevance ranking of search results
US7346608B2 (en) Method and apparatus for query and analysis
US7428538B2 (en) Retrieval of structured documents
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
KR100304335B1 (ko) 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
US6681222B2 (en) Unified database and text retrieval system
Lucarella A document retrieval system based on nearest neighbour searching
US20100281023A1 (en) Relevancy scoring using query structure and data structure for federated search
US20100274783A1 (en) Tuning of relevancy ranking for federated search
US20060020588A1 (en) Constructing and maintaining a personalized category tree, displaying documents by category and personalized categorization system
JPH08190564A (ja) 情報検索方法及びシステム
JPH0424869A (ja) 文書処理システム
Ravat et al. Top_keyword: An aggregation function for textual document OLAP
US6535873B1 (en) System and method for indexing electronic text
JP2001325272A (ja) 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
JP2003323457A (ja) 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2829745B2 (ja) 文書検索装置
JP2001142887A (ja) 文書検索方法および文書検索装置およびプログラム記録媒体
JP3418876B2 (ja) データ・ベース検索装置および方法
JPH07192010A (ja) 文書処理装置
JPH08320879A (ja) 適合フィードバック装置
JP2003141129A (ja) 文書分類装置、文書分類方法、その方法をコンピュータに実行させるプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体