JP4024906B2 - タグ付文書検索システム - Google Patents
タグ付文書検索システム Download PDFInfo
- Publication number
- JP4024906B2 JP4024906B2 JP24288997A JP24288997A JP4024906B2 JP 4024906 B2 JP4024906 B2 JP 4024906B2 JP 24288997 A JP24288997 A JP 24288997A JP 24288997 A JP24288997 A JP 24288997A JP 4024906 B2 JP4024906 B2 JP 4024906B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- tag
- search
- keyword
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、大量の文書から検索者が必要とする情報が記載された文書を検索する情報検索システムに係わり、特に、タグ付文書ファイルから必要な情報を効率的に検索するタグ付文書検索システムに関する。
【0002】
【従来の技術】
一般に、情報検索システムにおいては、各文書自体を記憶する文書ファイルの他に、各文書に含まれるキーワード対象となる各文字列を記憶する文書データベースが設けられている。
【0003】
そして、検索者が必要とする情報に関するキーワードを検索条件として入力すると、このキーワードで文書データベースを調べて、該当キーワードに対応する各文字列が含まれる文書(文書名)が検索される。
【0004】
しかし、文書データベースには、該当キーワードで指定する文字列が含まれる全ての文書が登録されている。したがって、文書における本文部分ではない例えば参考文献として該当キーワードが記載されていたとしても、この文書は検索(ヒット)される。
【0005】
このような場合、検索者としては、たとえキーワードが参考文献として記載された文書を文書ファイルから読出して閲覧したとしても、期待した情報は得られない。
【0006】
特に、各文書に含まれる全ての文字列を検索対象としてキーワードで検索可能とした全文検索システムを採用した情報検索システムにおいては、検索(ヒット)される文書の数が非常に多くなるので、検索(ヒット)した多数の文書から期待した情報が記載された文書を選択するのに多大の時間と労力が必要であった。
【0007】
このような不都合を解消するために、文書を複数のパラグラフ(段落)に分割して、各パラグラフに該当パラグラフの記述内容を特定するタグを付して、このタグとキーワードとを検索条件として文書データベースを検索することことが実用化されている。
【0008】
このタグとしては、例えば図2に示すように、日付.著者,標題,概要、本文,表,まとめ,参考文献等がある。また、場合によっては、固有名詞、会社名等もタグとして文書内に設定可能である。そして、各タグと該当タグが指定するパラグラフとの関係と、各文字列がどのパラグラフに所属するかの情報とが文書データベースに登録されている。よって、操作者は例えばキーワードが標題として記載された文書のみを検索することが可能である。
【0009】
しかし、例えば本文のタグを指定してキーワードを検索した場合、多数の文書が検索(ヒット)される。
そのために、これらの文書相互間の検索者にとっての有用性の優劣を付ける必要がある。そこで、該当パラグラフ内における該当キーワードに対応する文字列の数(キーワードのヒット数)、又は該当文字例の出現頻度(該当パラグラフ全体の文字列数に対するヒットした文字列数の割合)を算出して、このヒット数又は出現頻度が多い方の文書を最初に文書ファイルから読出すようにしたシステムが提唱されている。
【0010】
【発明が解決しようとする課題】
しかしながら、上述したように、タグとキーワードとの組合せ(AND条件)を検索条件として検索したり、検索結果をヒット数又は出現頻度で有用性に関する優劣をつけるタグ付文書検索システムにおいても、まだ解消すべき次のような課題があった。
【0011】
すなわち、一般に、操作者は検索もれを防ぐために、一つのタグのみを指定するのではなくて、複数のタグを指定する場合が多い。この場合、指定される複数のタグ相互間に優劣差がないので、複数の文書が検索(ヒット)された場合は、検索された文書相互間に有用性に関する優劣がつかないので、検索された多数の文書から自己に必要な情報が記載された文書を選択するのに多大の手間と時間が必要である。
【0012】
また、複数のダクを指定する場合で、かつ検索キーワードに対応する文字列数(キーワードのヒット数)、又は該当文字例の出現頻度から検索された複数の文書の優劣をつける手法においては、複数のダク相互間に優劣がないので、検索された複数の文書のうち、検索者にとって重要でない文書を重要な文書より優先して文書ファイルから読出す懸念がある。
【0013】
例えば、概要のタグのパラグラフに出現するキーワードの回数より、参考文献のタグのパラグラフに出現するキーワードの回数が多い場合が多発する。この場合、概要にキーワードが出現する文書の方が検索者にとってより重要であると見なせる。しかし、参考文献にキーワードが多発する文書は、必ずしも検索者の必要とする文書であるとは限らない。
【0014】
すなわち、検索された各文書の有用性が検索者にとっての有用性に対して逆転する懸念がある。
本発明はこのような事情に鑑みてなされたものであり、キーワードと共に検索条件を構成する各タグに対して重みを付すことによって、たとえ複数のタグ及びキーワードで検索したとしても、検索された複数の文書に対して検索者からみて有用性を示す正しい順序のスコアが付され、検索者にとって検索された各文書を重要な順にその記載内容を確認していくことができ、結果として、必要な情報を短時間で効率的に検索できるタグ付文書検索システムを提供することを目的とする。
【0026】
【課題を解決するための手段】
上記課題を解消するために本発明のタグ付文書検索システムにおいては、少なくとも各パラグラフ毎にタグが付された複数の文書を記憶するタグ付文書ファイルと、各文書に含まれる各タグ及び該当タグが付されたパラグラフの文書内位置と、各文書に含まれる各文字列、該当文字列が所属するパラグラフ及び該当パラグラフに含まれる文字列数とを記憶するタグ付文書データベースと、文字列を指定するキーワードと該当キーワードの重みKWとタグと該当タグの重みTWとを入力する検索入力手段と、この検索入力手段で入力されたキーワードとタグとを検索条件としてタグ付文書データベースを調べて、該当検索条件に合致するパラグラフを含む文書を検索する検索処理手段と、この検索処理手段で検索された各文書のキーワードを含む各パラグラフに含まれるキーワードの各文字列数Hをタグ付文書データベースから読取る文字列数読取手段と、検索処理手段で検索された各文書のキーワードを含む各パラグラフを指定するタグの各重みTWと、各パラグラフに含まれるキーワードの各文字列数Hと、該当キーワードの重みKWとを用いて検索された各文書の有用性を示すスコアSLを、SL=Σ[{Σ(H・KW)}・TW]として、算出するスコア算出手段と、検索された各文書を算出された各スコアのスコア順に出力する検索結果出力手段とを備えている。
【0027】
このように構成されたタグ付文書検索システムにおいては、操作者はキーワードと該当キーワードの重みとタグと該当タグの重みとを検索入力する。実際の検索は、キーワードとタグとで実施される。そして、複数の文書が検索された場合、各文書のスコアがタグの各重みとキーワードの各文字列数と該当キーワードの重みとを用いて算出される。
【0028】
よって、たとえ複数のタグ及び複数のキーワードを指定して検索する場合においても、検索者にとってより重要な情報が記載された文書から順番に閲覧できる。
【0032】
さらに、別の発明においては、前述した発明における各タグ毎に各文字列に対する類語文字列を記憶する複数のタグ単位類語辞書を設けている。さらに、検索処理手段においては、検索入力手段で入力されたキーワードとタグと該当タグに対応するタグ単位類語辞書に記憶されたキーワードに対する類語とを検索条件としている。
【0033】
すなわち、前述したように、日付.著者,標題,概要、本文,表,まとめ,参考文献等のタグ毎にタグ種別に最適の類語辞書を設けることによって、検索キーワードが不用意に増加することが未然に防止される。
【0034】
【発明の実施の形態】
以下本発明の各実施形態を図面を用いて説明する。
(第1実施形態)
図1は本発明の第1実施形態に係わるタグ付文書検索システムの概略構成を示すブロック図である。
【0035】
このタグ付文書検索システムは、コンピュータ等の一種の情報処理装置で構成されている。そして、このタグ付文書検索システム内には、検索条件等を入力するキーボードと表示装置とで構成された検索条件入力部1と検索結果を出力するキーボードと表示装置とで構成された検索結果出力部2、例えばHDD等に形成された、タグ付文書データベース3と複数のタグ付の文書4を記憶するタグ付文書ファイル5と複数のタグ単位類語辞書6が組込まれた類語辞書7、及び主記憶部内に形成されたタグ重みテーブル8と入力バッファ9等が設けられている。
【0036】
なお、一般に、検索条件入力部1と検索結果出力部2とは同一のキーボードと同一の表示装置で実現される。
さらに、このタグ付文書検索システム内には、アプリケーションプログラム上にプログラムモジュールとして構成された、検索処理部10、スコア算出部11と表示順位決定部12とからなる表示順位算出部13、及び文書読出部14とが設けられている。
【0037】
前記タグ付文書ファイル5内に記憶された各タグ付文書4は、例えば図2に示すように、文書を複数のパラグラフ(段落)15に分割した場合において、各パラグラフ15の記載内容を示すタグ(属性,名称)16が付されている。図2に示す例においては、各タグ16には、日付.著者,標題,概要、本文,表,まとめ,参考文献等がある。また、場合によっては、固有名詞、会社名等もタグ16として文書内に設定可能である。
【0038】
また、文書を構成するパラグラフ(段落)15には、文書内の位置を特定するパラグラフ番号が付されている。
タグ重みテーブル8内には、図3に示すように、各タグ16に対して、情報検索を実施する場合の重要度を示す重みTWが設定されている。この実施形態においては、[標題]のタグ16の重みTWが最も大きく設定され、参考文献のタグ16が最も小さく設定されている。
【0039】
なお、このタグ重みテーブル8の各重みTWは、検索者がその都度、検索条件入力部1を介して入力して設定すことができる他に、このタグ付文書検索システムの管理者が各重みTWを予めタグ重みテーブル8内に設定してておくことも可能である。
【0040】
タグ付文書データベース3内には、図4(a)に示すタグ検索テーブル3aと、図4(b)に示すキーワード検索テーブル3bとが形成されている。
検索テーブル3a内には、前述した各タグ(タグ名称)16毎に、該当タグ16が、タグ文書ファイル5内の各文書4(文書番号1,2,3,…)におけるどのパラグラフ15(パラグラフ番号1,2,3,4,5,…)に対応するか否かが設定されている。
【0041】
例えば日付のタグ16は、文書番号1の文書4の1番のパラグラフ15に対応し、同様に、文書番号2の文書4の1番のパラグラフ15に対応し、さらに、文書番号3番の文書4の1番のパラグラフ15に対応する。
【0042】
すなわち、[1]のビットが設定されているパラグラフ15には該当タグ16に対応し、[0]のビットが設定されているパラグラフ15には他のタグ16が対応する。
【0043】
キーワード検索テーブル3b内には、各文字列毎に、該当文字列がどの文書4のどのパラグラフ15内に幾つ含まれるかが記憶されている。
例えば[青]の文字列は、1番の文書4の2番のパラグラフ15に1個記載され、2番の文書のN番のパラグラフ15に1個記載され、3番の文書には全く記載されていないことを示す。
【0044】
また、[日本]の文字列は、文書番号1の文書4の2番のパラグラフ15に2個記載され、同じく文書番号1の文書5の3番のパラグラフ15に1個記載され、同じく文書番号1の文書4の9番のパラグラフ15に1個記載され、さらに、文書番号2のパラグラフ15に1個記載され、文書番号3の文書4の2番のパラグラフ15に1個記載され、同じく、文書番号3の文書4のM番のパラグラフ15に2個記載されていることを示す。
【0045】
なお、このキーワード検索テーブル3b内に登録する文字列は、全文検索システムにおいては、かな、漢字、数字における例えば1文字から4文字まての全ての組合わせが可能な数だけ設定される。なお、全文検索システム以外の場合は、予めキーワードとして検索されるであろうと予測できる各文字列が予め登録されている。
【0046】
次に、類語辞書7内に、形成された複数のタグ単位類語辞書6について図5を用いて説明する。
[本文]のタグ(タグ1)16のタグ単位類語辞書6aには、「特許」の類語として[パテント」及び「とっきょ」が登録され、[まとめ]のタグ(タグ2)16のタグ単位類語辞書6bには、「特許」の類語として[特許庁」が登録されていたとする。
【0047】
そして、例えば、検索条件入力部1から<タグ1(本文),特許>と(AND)<タグ2(まとめ),特許>の検索条件が入力されると、タグ1(本文)のタグ単位類語辞書6aからキーワード「特許」の類語「パテント」及び「とっきょ」が読出され、タグ2(本文)のタグ単位類語辞書6bからキーワード「特許」の類語「特許庁」が読出される。
【0048】
したがって、最終的な検索条件は下記の通りとなる。
次に、アプリケーションブログラム上に形成された各部10,11,12,13,14の具体的検索処理動作を図6の流れ図を用いて説明する。
【0049】
操作者の検索条件入力部1におけるキー入力操作で、各タグ16毎に、該当タグのタグ名と該当タグの重みTWとの組合わせからなるタグ情報17が入力されると、この入力されたタグ情報17を入力バッファ9を介して、一旦タグ重みテーブル8へ登録する。続いて、タグ名とキーワードとの1個又は複数個の組合わせからなる検索条件18が入力されると(S1)、各タグ単位類語辞書6から各タグ16毎に入力キーワードに対応する各類語を読出して(S2)、この類語を含めた新たな検索条件19を再編集する(S3)。
【0050】
そして、この再編集された検索条件19でタグ付文書データベース3のタグ検索テーブル3a及びキーワード検索テーブル3bを検索する(S4)。具体的には、タグ名(タグ名称)でタグ検索テーブル3aを検索して、[1]のビットが立っているパラグラフ15の番号とこのパラグラフ15の番号を含む文書4の番号を読出す。同時に、キーワードでキーワード検索テーブル3bを検索して、[1]以上のビットが立っているパラグラフ15の番号とこのパラグラフ15の番号を含む文書4の番号を読出す。そして、タグ検索テーブル3aとキーワード検索テーブル3bとの両方のテーブルで読出されたパラグラフ15の番号と文書4の番号とを、該当検索条件に対する検索結果とする。
【0051】
このようにして、タグとキーワードとの組合わせ(AND条件)からなる検索条件19に合致する文書4を指定したパラグラフ15が検索されると(S5)、複数の文書4が検索されたか否かを調べる(S6)。
【0052】
複数の文書4が検索されると、検索された各パラグラフ15に対応する各タグ16のタグ重みTWを、タグ重みテーブル8から読出す(S7)。そして、表示順序算出部13のスコア算出部11が起動して、今回検索された各文書4毎の該当文書の重要度を示すスコアSLを下式を用いて算出する(S8)。
【0053】
SL=Σ(TW)H
但し、(TW)H は、キーワードが存在(ヒット) したパラグラフ15を指定するタグ16の重みTWである。複数のタグ名を検索条件18に設定した場合に、同一文書4で設定した複数のタグ16が示す複数のパラグラフ15にそれぞれキーワードの文字列が検出されると、スコアSLは、複数のタグ16の重みTWを加算した値となる。
【0054】
検索された各文書4毎にスコアSLが算出されると、表示順位決定部12が起動して、算出された各スコアSLを値の高い順(スコア順)に並べ替えて(S9)、検索結出力部2へ各文書4の文書名又は文書番号をスコアSLの高い順に表示出力する。
【0055】
検索者は、検索結出力部2の表示画面にスコアSLの高い順に表示された各文書4の文書名又は文書番号を例えばマウスで指定すると、文書読出部14が起動して、指定された文書4をタグ付文書ファイル5から読出して、検索結出力部2へその文書内容を表示出力する。
【0056】
検索者は、表示された文書4に自己が目的とする情報が記載されていない場合は、例えば2番目に高いスコアSLの文書名を指定すると、該当文書4がタグ付文書ファイル5から読出して検索結出力部2へその文書内容を表示出力する。
【0057】
また、S6にて1つの文書4しか検索されないと、この検索された1つの文書4をタグ付文書ファイル5から読出して検索結出力部2へその文書内容を表示出力する(S12)。
【0058】
さらに、S5にて、検索条件19に合致する文書4が検索されなかった場合、該当文書無しメッセージを表示出力する(S11)。
このように構成された第1実施形態のタグ付文書検索システムにおいては、キーワードとタグとを検索条件18として入力すると共に、各タグの重要度を示すタグの重みTWをグ情報17として入力する。
【0059】
そして、入力された検索条件18をタグ別類語辞書6を用いて指定タグ16にに対応する類語をキーワードとして加えて再編集する。この再編集された検索条件19でタグ付文書データベース3のタグ別検索テーブル3aとキーワード検索テーブル3を調べて、該当検索条件19に合致するパラグラフ15を含む文書4を検索する。
【0060】
さらに、検索された各文書4のキーワードを含む各パラグラフ15を指定するタグ16の各重みTWを加算して検索された各文書4の有用性を示すスコアSLが自動的に計算される。そして、スコアSLの高い順に検索された各文書4の文書名又は文書番号が出力される。
【0061】
この場合、重みTWの高い例えば「概要」等のタグ16のパラグラフ15にキーワードの文字列が検出された文書4の方が、重みTWの低い例えば「参考文献」等のタグ16のパラグラフ15にキーワードの文字列が検出された文書4より高いスコアSLを有するので、検索者にとって、より重要な文書4を優先的に閲覧することができる。
【0062】
さらに、この第1実施形態システムにおいては、各タグ16毎に、全文字列に対する類語文字列を記憶するタグ単位類語辞書6を用いている。したがって、各タグ16毎に、該当タグ16に最適な類語を登録できるので、タグ16の種類によっては、登録する類語を少数に抑制しても検索精度に悪影響を与えなくすることが可能となる。よって、検索精度を低下させることなく、検索処理速度を向上できる。
【0063】
(第2実施形態)
図7は本発明の第2実施形態に係わるタグ付文書検索システムにおける検索処理動作を示す流れ図である。タグ付文書検索システム全体構成を示すブロック図は図1に示す第1実施形態システムとほぼ同じであるので説明を省略する。
【0064】
図7の検索処理動作を示す流れ図において、Q1からQ6までの動作は図6に示す第1実施形態システムのS1からS6までの処理動作と同じである。
Q6にて複数の文書が検索されると、検索された各パラグラフ15に対応する各タグ16のタグ重みTWをタグ重みテーブル8から読出す(Q7)。
【0065】
次に、Q8にて、検索された各文書4における指定されたタグ16のパラグラフ15におけるキーワードで指定された文字例が含まれる数を、キーワード検索テーブル3bの該当文書の対応する各パラグラフ15のビット値で読取ってこのビット値をヒット数Nとする。
【0066】
検索された各文書4における指定タグ16のパラグラフ15のヒット数Nが求まると、タグ16の重みTWを用いて、各指定タグ16のパラグラフ15のスコアSPを下式で算出する(Q9)。
【0067】
SP=N・TW
各パラグラフ15のスコアSPが求まると、検索(ヒット)した各文書4毎のスコアSLを下式で算出する(Q10)。
【0068】
SL=Σ(SP)
=Σ[N・TW]
すなわち、複数のタグ16を検索条件19に設定した場合に、同一文書4で設定した複数のタグ16が示す各パラグラフ15にそれぞれキーワードの文字列が検出されると、各文書4のスコアSLは、各タグ16の重みTWと該当パラグラフ15内のヒット数Nとを乗算した値をヒットした全てのタグ16に亘って積算した値となる。
【0069】
検索された各文書4毎にスコアSLが算出されると、表示順位決定部12が起動して、算出された各スコアSLを多い順に並べ替えて(S11)、検索結出力部2へ各文書4の文書名又は文書番号をスコアSLの高い順に表示出力する(Q12)。
【0070】
また、Q6にて1つの文書4しか検索されないと、この検索された1つの文書4をタグ付文書ファイル5から読出して検索結出力部2へその文書内容を表示出力する(Q14)。
【0071】
さらに、Q5にて、検索条件19に合致する文書4が検索されなかった場合、該当文書無しのメッセージを表示する(Q13)。
このように構成された第2実施形態のタグ付文書検索システムにおいては、入力された検索条件19(18)を構成するキーワードが、指定されたタグ16のパラグラフ15内に存在した場合に、検索(ヒット)した事を示す情報と、存在した文字列数としてのヒット数Nが検出される。
【0072】
そして、入力された検索条件19(18)に合致する複数の文書4が検索された場合には、この複数の文書4相互間の重要度を示すスコアSLを前述したタグの重みTWと該当タグ16のパラグラフ15内の文字列数からなるヒット数Nとで求めている。
【0073】
SL=Σ[N・(TW)]
したがって、同一の重みTWのタグ16で複数の文書4が検索された場合は、該当タグ16のパラグラフ15におけるキーワードのヒット数Nが多い方がスコアSLが高く、スコアSLの高さ順に検索結果が表示されるので、検索者にとって、より重要な文書4を優先的に閲覧することができる。
【0074】
(第3実施形態)
図8は本発明の第3実施形態に係わるタグ付文書検索システムにおける検索処理動作を示す流れ図である。タグ付文書検索システム全体構成を示すブロック図は図1に示す第1実施形態システムとほぼ同じであるので説明を省略する。
【0075】
図8の検索処理動作を示す流れ図において、検索者が検索条件入力部1を介して、タグ名とキーワードと該当キーワードの重みKWからなる1個又は複数個の組合わせからなる検索入力17aを入力すると、この1個又は複数個の組合わせからなる検索入力17aは一旦入力バッファ9へ格納される(P1)。
【0076】
なお、この検索処理においては、各タグ16の重みTWは予めタグ重みテーブル8に書込まれているとする。
次に検索処理部10が起動して、入力バッファ9に記憶した検索入力17aのうちのキーワードの重みKWを取除いたタグ名とキーワードとからなる組合せを新たな検索条件18として、この検索条件18でタグ付文書データベース3を調べて、この検索条件18に合致するパラグラフ15を含む文書4を検索する(P2)。
【0077】
そして、タグとキーワードとの組合わせ(AND条件)からなる検索条件18に合致する文書4を指定したパラグラフ15が検索されると(P3)、複数の文書4が検索されたか否かを調べる(P4)。
【0078】
複数の文書4が検索されると、検索条件18に含まれる各キーワードの重みKWを入力バッファ9から読出す(P5)。次に、検索された各文書4における指定されたタグ16のパラグラフ15におけるキーワードで指定された文字例が含まれる数をキーワード検索テーブル3bの該当文書4の対応する各パラグラフ15のビット値で読取ってヒット数Hとする(P6)。そして、各パラグラフ15におけるキーワード毎のスコアSKを次式で算出する(P7)。
【0079】
SK=H・KW
すなわち、ヒットしたパラグラフ15内に重要なキーワードが多く存在すると、該当キーワードのスコアSKは高くなる。
【0080】
次に、複数のキーワードで検索した場合で、かつ複数のキーワードが同一のパラグラフ15に存在(ヒット)した場合を想定して、各パラグラフ15毎のスコアSPを下式で算出する(P8)。
【0081】
SP=[Σ(SK)]・TW
但し、TWはタグ重みテーブル8から読出した該当パラグラフ15を指定するタグ16の重要度を示す重みである。
【0082】
各パラグラフ15のスコアSPが求まると、検索(ヒット)した各文書4毎のスコアSLを下式で算出する(P9)。
SL=Σ(SP)
=Σ[Σ(SK)・TW]
=Σ[{Σ(H・KW)}・TW]
すなわち、複数のタグ16を検索条件18に設定した場合に、同一文書4で設定した複数のタグ16が示す各パラグラフ15にそれぞれキーワードの文字列が検出されると、各キーワードのヒット数Hと該当キーワードの重みKWとを乗算したキーワード毎のスコアSKをヒットした全てのキーワードに亘って集積して、この集積されたものに対して対応するタグ16の重みTWを乗算して、各タグ16毎(パラグラフ15)のスコアSPを求める。そして、ヒットした全てのパラグラフ15に亘って集積して検索された文書4全体のスコアSLを得ている。
【0083】
検索された各文書4毎にスコアSLが算出されると、表示順位決定部12が起動して、算出された各スコアSLを多い順に並べ替えて(P10)、検索結出力部2へ各文書4の文書名又は文書番号をスコアSLの高い順に表示出力する(Q11)。
【0084】
また、P4にて1つの文書4しか検索されないと、この検索された1つの文書4をタグ付文書ファイル5から読出して検索結出力部2へその文書内容を表示出力する(P13)。
【0085】
さらに、P3にて、検索条件18に合致する文書4が検索されなかった場合、該当文書無しメッセージを表示出力する(P12)。
このように構成された第3実施形態のタグ付文書検索システムにおいては、入力された検索条件18を構成するキーワード自体に重みKWを検索者か任意に設定できる。
【0086】
そして、検索された各文書4のスコアSLは
SL=Σ[{Σ(H・KW)}・TW]
となる。すなわち、検索者が複数のキーワードで情報検索を実施するとき、キーワード相互間に重要度の優劣を示す重みKWを設定することによって、重要なタグ16のパラグラフ15に重要なキーワードが含まれる文書4のスコアSLがより高くなる。
【0087】
また、各文書4のスコアSLには、上述したキーワードの重みKWの他に、タグ16の重みTW、キーワードのヒット数Hの関数で示されるので、複数の文書4が同時に検索(ヒット)された場合における文書相互間の検索者の意図する重要度を表すスコアSLの大小がより明確になり、検索者にとって、より重要な文書4を優先的に閲覧することができる。
【0088】
なお本発明は上述した第1,第2,第3の各実施形態システムに限定されるものではない。検索された各文書4の重要度を示すスコアSLを求める式に、タグの重みTW、キーワードの重みKW、キーワードのヒット数Hを適宜組合わせて組込むことがか可能である。例えば、
(1) キーワードの重みKWとキーワードのヒット数H
(2) キーワードの重みKWとタグの重みTW
(3) キーワードの重みKWのみ
等を組込むことが可能である。
【0089】
また、各タグ16の重みTWを検索者が検索条件18と同時にその都度入力して、タグ重みテーブル8に設定することができるとともに、このタグ付文書検索システムの管理者が予め各タグ16の重みTWをタグ重みテーブル8に設定しておくことが可能である。この場合、検索者は、タグとキーワードの組合わせからなる検索条件18のみを操作入力すればよいので、検索作業能率を大幅に向上できる。
【0090】
さらに、説明を解りやすくするために、上述した各実施形態のタグ付文書検索システムを図4に示す各文字数毎に設けられた複数のタグ検索テーブル3a,3bを使用した全文検索システムで説明した。
【0091】
しかし、全文検索システムにおいては、上述した複数のタグ検索テーブル3a,3bを用いる代りに、例えば文字数がそれぞれ異なる全ての文字列を、ハッシュ関数を用いて例えば8桁又は16桁の所定桁数を有したハッシュ値に変換して、各ハッシュ値に対応する文字列が各文書の各パラグラフに含まれるか否かのビット情報を登録したハッシュテーブルを用いた全文検索システムであってもよい。
【0092】
さらに、本願発明のタグ付文書検索システムは特に全文検索システムに限定されるものではなく、各文書に含まれるキーワードを予めデータベースに登録しておく、通常の情報検索システムにも適用可能である。
【0093】
【発明の効果】
以上説明したように、本発明のタグ付文書検索システムにおいては、キーワードと共に検索条件を構成する各タグに対して重みを付して、検索条件に合致する複数の文書が検索された場合に、この検索された複数の文書における各スコアをタグの重みを用いて算出している。
【0094】
したがって、たとえ複数のタグ及びキーワードで検索したとしても、検索された複数の文書に対して検索者からみて有用性を示す正しい順序のスコアが付され、検索者にとって検索された各文書を重要な順にその記載内容を確認していくことができ、結果として、必要な情報を短時間で効率的に検索できる。
【0095】
さらに、検索された各文章のスコアの算出に際して、必要に応じて、上述したタグの重みTWに加えて、キーワードの重みKWとキーワードのヒット数Hの組合せを組込むようにしている。
【0096】
その結果、複数の文書が同時に検索(ヒット)された場合における文書相互間の検索者の意図する重要度を表すスコアの大小がより明確になり、検索者にとって、より重要な文書を優先的に閲覧することができる。
【0097】
さらに、各タグ毎に、全文字列に対する類語文字列を記憶するタグ単位類語辞書6を用いている。したがって、各タグ毎に最適な必要最小限の類語を登録できるので、検索精度を低下させることなく、検索処理速度を向上できる。
【図面の簡単な説明】
【図1】 本発明の第1実施形態のタグ付文書検索システムの概略構成を示すブロック図
【図2】 同第1実施形態のタグ付文書検索システムに組込まれたタグ付文書ファイルに記憶されたタグ付の文書の一例を示す図
【図3】 同第1実施形態のタグ付文書検索システムに組込まれたタグ重みテーブルの記憶内容を示す図
【図4】 同第1実施形態のタグ付文書検索システムに組込まれたタグ付文書データベース内に形成されたタグ検索テーブル及びキーワード検索テーブルの記憶内容を示す図
【図5】 同第1実施形態のタグ付文書検索システムに組込まれたタグ単位類語辞書及びその利用方法を示す図
【図6】 同第1実施形態のタグ付文書検索システムにおける検索処理動作を示す流れ図
【図7】 本発明の第2実施形態のタグ付文書検索システムにおける検索処理動作を示す流れ図
【図8】 本発明の第3実施形態のタグ付文書検索システムにおける検索処理動作を示す流れ図
【符号の説明】
1…検索条件入力部
2…検索結果出力部
3…タグ付文書データベース
3a…タグ検索テーブル
3b…キーワード検索テーブル
4…文書
5…タグ付文書ファイル
6…タグ単位類語辞書
7…類語辞書
8…タグ重みテーブル
10…検索処理部
11…スコア算出部
12…表示順決定部
13…表示順序算出部
14…文書読出部
15…パラグラフ
16…タグ
18,19…検索条件
Claims (2)
- 少なくとも各パラグラフ毎にタグが付された複数の文書を記憶するタグ付文書ファイルと、
前記各文書に含まれる各タグ及び該当タグが付されたパラグラフの文書内位置と、前記各文書に含まれる各文字列、該当文字列が所属するパラグラフ及び該当パラグラフに含まれる文字列数とを記憶するタグ付文書データベースと、
前記文字列を指定するキーワードと該当キーワードの重みKWとタグと該当タグの重みTWとを入力する検索入力手段と、
この検索入力手段で入力されたキーワードとタグとを検索条件として前記タグ付文書データベースを調べて、該当検索条件に合致するパラグラフを含む文書を検索する検索処理手段と、
この検索処理手段で検索された各文書のキーワードを含む各パラグラフに含まれるキーワードの各文字列数Hを前記タグ付文書データベースから読取る文字列数読取手段と、
前記検索処理手段で検索された各文書のキーワードを含む各パラグラフを指定するタグの各重みTWと、各パラグラフに含まれるキーワードの各文字列数Hと、該当キーワードの重みKWとを用いて前記検索された各文書の有用性を示すスコアSLを、SL=Σ[{Σ(H・KW)}・TW]として、算出するスコア算出手段と、
前記検索された各文書を前記算出された各スコアのスコア順に出力する検索結果出力手段と
を備えたタグ付文書検索システム。 - 前記各タグ毎に各文字列に対する類語文字列を記憶する複数のタグ単位類語辞書を設け、
前記検索処理手段は、前記検索入力手段で入力されたキーワードとタグと該当タグに対応するタグ単位類語辞書に記憶された前記キーワードに対する類語とを検索条件とする
ことを特徴とする請求項1記載のタグ付文書検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24288997A JP4024906B2 (ja) | 1997-09-08 | 1997-09-08 | タグ付文書検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24288997A JP4024906B2 (ja) | 1997-09-08 | 1997-09-08 | タグ付文書検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185765A JPH1185765A (ja) | 1999-03-30 |
JP4024906B2 true JP4024906B2 (ja) | 2007-12-19 |
Family
ID=17095744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24288997A Expired - Fee Related JP4024906B2 (ja) | 1997-09-08 | 1997-09-08 | タグ付文書検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4024906B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622358A (zh) * | 2011-01-27 | 2012-08-01 | 天脉聚源(北京)传媒科技有限公司 | 一种搜索信息的方法和系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5316158B2 (ja) * | 2008-05-28 | 2013-10-16 | 株式会社リコー | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
JP2012027841A (ja) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 |
JP2017068720A (ja) * | 2015-09-30 | 2017-04-06 | 大日本印刷株式会社 | 情報提供装置及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2937519B2 (ja) * | 1991-03-08 | 1999-08-23 | 株式会社東芝 | 文書検索装置 |
JPH0628403A (ja) * | 1992-07-09 | 1994-02-04 | Mitsubishi Electric Corp | 文書検索装置 |
JP3621449B2 (ja) * | 1993-12-14 | 2005-02-16 | 株式会社東芝 | 類似情報検索装置とその方法 |
-
1997
- 1997-09-08 JP JP24288997A patent/JP4024906B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622358A (zh) * | 2011-01-27 | 2012-08-01 | 天脉聚源(北京)传媒科技有限公司 | 一种搜索信息的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JPH1185765A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6523030B1 (en) | Sort system for merging database entries | |
JPS6330648B2 (ja) | ||
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JPH09198395A (ja) | 文書検索装置 | |
JP4024906B2 (ja) | タグ付文書検索システム | |
JPH0773197A (ja) | 異表記語辞書作成支援装置 | |
JP2000331012A (ja) | 電子化文書検索方法 | |
JP2003271631A (ja) | 特許文献検索方法及び装置 | |
JP3222193B2 (ja) | 情報検索装置 | |
JP2529418B2 (ja) | 文書検索装置 | |
JPH10124524A (ja) | 文書検索装置及び文書検索方法 | |
JP2004334803A (ja) | 文書検索装置 | |
JP2003223465A (ja) | 特許文献検索方法 | |
JPH09212523A (ja) | 全文検索方法 | |
JPH05257980A (ja) | 文書検索装置 | |
JP3804609B2 (ja) | 検索チューニング方法および情報検索システム | |
JPH0991297A (ja) | 文字列検索方法及び装置 | |
JPH08249341A (ja) | 文書データベースの文書格納・検索装置 | |
JP3187671B2 (ja) | 電子辞書表示装置 | |
JP2000076254A (ja) | キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体 | |
JPH03194653A (ja) | 情報検索システムにおける略語検索法 | |
JPH0793345A (ja) | 文書検索装置 | |
JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
JPH0991304A (ja) | 情報検索方法、情報検索システム及び情報検索用記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070626 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071004 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |