JP2005216139A - 文書検索システム、文書検索方法及びプログラム - Google Patents

文書検索システム、文書検索方法及びプログラム Download PDF

Info

Publication number
JP2005216139A
JP2005216139A JP2004024076A JP2004024076A JP2005216139A JP 2005216139 A JP2005216139 A JP 2005216139A JP 2004024076 A JP2004024076 A JP 2004024076A JP 2004024076 A JP2004024076 A JP 2004024076A JP 2005216139 A JP2005216139 A JP 2005216139A
Authority
JP
Japan
Prior art keywords
document
search
score
information
reference value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004024076A
Other languages
English (en)
Inventor
Toshihiro Shikayama
俊洋 鹿山
Toshihiko Manabe
俊彦 真鍋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004024076A priority Critical patent/JP2005216139A/ja
Publication of JP2005216139A publication Critical patent/JP2005216139A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索が全て完了するまで利用者を待たせることのない文書検索システムを提供すること。
【解決手段】インターフェイス部21から検索条件を入力する。検索部22は、該検索条件に基づき文書データベース群23を検索して、該文書データベース群23から該検索条件に適合する文書に関する情報を取得するとともに、該文書の該検索条件への適合度を計算する。検索結果フィルタ部24は、当該検索が完了する前の特定のタイミングごとに、そのタイミングにおいて計算されている適合度に基づいて該文書に関する情報を提示すべきか否かを判断する。インターフェイス部21は、検索結果フィルタ部24により提示すべきとの判断がなされるごとに、当該提示すべきと判断された文書に関する情報を、暫定的な検索結果として提示する。
【選択図】 図2

Description

本発明は、文書を検索する文書検索システム、文書検索方法及びプログラムに関する。
電子的な文書が企業内やWolrd Wide Webをはじめとして広く流通するに伴い、それら文書を管理する手段に対する需要が高まっている。文書をデータベースに蓄積して適宜検索する文書検索システムは、その管理手法の一端を担うものであり、Web上の各種検索エンジンや、ナレッジマネジメントシステムの検索機能などが知られている。
このような文書検索システムにおいては、文書データベースに納められた文書(例えば、新聞の記事、従業員の日報、Web上に存在するHTML文書等)は、データベースに納められたレコードに比べて一つ一つの文書のサイズが大きいのが普通である。従って、文書データベースに対して検索を行った場合、文書データベース内の文書が検索要求に適合するか否かを判断するだけでなく、検索要求にどの程度適合するかを示すスコアを計算して結果を表示させるのが一般的である(例えば特許文献1参照)。
特開平11−184875号公報
しかしながら、従来の文書検索システムにおいては、一つのデータベースに蓄積される文書の数やデータベースの数が増えてくると、検索要求に対して検索結果を返すまでの応答時間が増大し、利便性を損なうという問題が発生するようになる。「インターフェイス 2000年10月号特集第一章」を初めとする文献によれば、マン−マシン系での応答時間の目安は数秒と言われており、大規模な文書検索システムにおいては、この応答時間を満たすことが高いハードルとなっている。
この問題を解決するためには、文書検索システムを動作させる計算機を高速なものに取り替えるだけでなく、GETA(URL:http://geta.ex.nii.ac.jp/)に見られるように、文書や検索に必要なデータを複数の計算機に分散して持たせ処理させる方法があるが、この種のシステム強化のアプローチはコスト的・時間的なリソースの点から実現が難しい。
本発明は、上記事情を考慮してなされたもので、検索が全て完了するまで利用者を待たせることのない文書検索システム、文書検索方法及びプログラムを提供することを目的とする。
本発明に係る文書検索システムは、検索条件を入力する入力手段と、前記検索条件に基づき文書データベースを検索して、該文書データベースから前記検索条件に適合する文書に関する情報を取得する取得手段と、前記文書の前記検索条件への適合度を計算する計算手段と、前記検索が完了する前の特定のタイミングごとに、そのタイミングにおいて計算されている適合度に基づいて前記文書に関する情報を提示すべきか否かを判断する判断手段と、この判断手段により提示すべきとの判断がなされるごとに、当該提示すべきと判断された前記文書に関する情報を、暫定的な検索結果として提示する提示手段とを備えたことを特長とする。
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手段を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
本発明では、検索の途中経過を動的に表示する手段を設けることにより、利用者が適合文書に到達する平均時間の短縮を図ることができる。例えば、途中経過として基準値(例えば予め定められた基準値若しくは利用者の指定した基準値又は一定件数以上の文書を提示するためにシステムが随時調整した基準値)を越える適合度を持つ文書を検出した時点で即座に文書一覧を表示し或いは表示中の文書一覧に追加する。基準値を利用者が途中で変更可能とし、この結果に応じて表示される文書一覧の内容を変化させるようにすることもできる(例えば、提示される文書の数が変化する)。検索処理が複数のステージ(例えば、単純な検索の後に、適合度の高い文書に対してのみ詳細な検索を行う等)に分かれている場合は、ステージ毎に横断検索を行い、ステージが進む毎に文書一覧やスコアが変化するように制御することもできる。複数の文書データベースを横断検索する場合にも、検索結果の入手にかかる時間がデータベースの個数に応じて増加するという問題に対処することができる。
本発明によれば、検索の途中経過を適宜提示するので、検索が全て完了するまで利用者を待たせることのない文書検索システムを実現することができる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
図1に、本発明の第1の実施形態に係る文書検索システムのハードウェア構成の一例を示す。
図1に示す通り、本文書検索システムは、制御装置11、入力装置12、表示装置13、メモリ14、外部記憶装置15、各装置を互いに結合するバス16を備えている。
制御装置11は、各装置の制御や各装置間のデータ転送等の処理を行うものである。制御装置11は、例えば中央演算処理装置を用いて構成される。
入力装置12は、文字列、各種データ、命令等の入力を行うものである。入力装置12は、例えば、キーボード、ペン、マウス、タブレット、タッチパネル等の入力デバイスを用いて構成される。
表示装置13は、検索結果やシステムから利用者へのメッセージ等の表示を行うものである。表示装置13は、例えば、CRT又は液晶ディスプレイ等の表示デバイスと、表示コントローラとを用いて構成される。
メモリ14は、本文書検索システムの動作時に必要なデータやプログラムを格納するためのものであり、図1の通り、制御装置11が各種制御や処理を実行するためのプログラム部141と、処理の際に必要なデータを格納するためのバッファ部142を含む。メモリ14は、例えば、RAM等の記憶装置を用いて構成される。
外部記憶装置15は、(本文書検索システムの電源断の後においても)永続的に乃至は長期に渡って保存することが必要なデータを格納するためのものであり、図1の通り、検索対象となる文書をデータベース化した文書データベースの集合たる文書データベース群151と、本文書検索システムの動作時にメモリ14のプログラム部141に転送されるプログラムを格納したプログラム格納部152を含む。外部記憶装置15は、例えば、ハードディスク、フラッシュメモリ、光磁気ディスク等の記憶デバイスと、そのコントローラとを用いて構成される。
図2に、本実施形態に係る文書検索システムの機能ブロック構成の一例を示す。
図2に示す通り、本文書検索システムは、インターフェイス部21、検索部22、文書データベース群23、検索結果フィルタ部24を備えている。
本実施形態では、インターフェイス部21、検索部22及び検索結果フィルタ部24は、プログラムとして実行される場合を例にとる。この場合、図1においては、当該プログラムは、外部記憶装置15のプログラム格納部152からメモリ14内のプログラム部141に転送され、制御装置11にて実行される。
文書データベース群23は、1又は複数の文書データベース(文書DB)231からなる。各文書データベース231には、当該文書データベースに固有の識別情報(以下、文書DBID)が付与される。
また、本実施形態では、各文書には、その文書が格納されている文書データベース内で固有の識別情報(以下、文書ID)が付与されるものとして説明する。よって、以下の説明では、個々の文書は、文書IDと文書DBIDのペアにより特定される。なお、各文書に全文書データベースに渡って固有の識別情報が付与される場合には、以下の手順において文書データベースの文書DBIDを省くことも可能である。
インターフェイス部21は、利用者からの検索条件を含む検索要求を受付け、これを検索部22に渡す。検索条件の内容については特に限定はなく、例えば、質問文やキーワード列でもよいし、この他に文書ファイルや文書データベース内で文書を特定するID等も考えられる。
検索部22は、文書データベース群23を構成する各文書データベース231に対して逐次的に検索を行い、検索結果フィルタ部24へ渡すべき検索情報を取得するごとに、その時点で、その文書の文書IDと、その文書が格納されている文書データベースの文書DBIDと、当該検索要求に対する当該文書の適合度を示す最終的なスコア又はそのもととなる暫定的なスコアとを含む、当該文書に関する情報(検索情報)を、検索結果フィルタ部24に渡す。
検索結果フィルタ部24は、検索情報が渡されるごとに、その時点で、渡された検索情報に係る文書に関して、所定の提示条件を満たすかどうか調べ、満たす場合には、当該提示条件を満たした文書に関する検索情報(ただし、検索部22から暫定的なスコアを渡される場合には、スコアについては、それまでに受取った暫定的なスコアの合計値(以下、暫定スコア)で置き換えたもの)をインターフェイス部21に渡す。
ここで、上記所定の提示条件は、例えば、渡された検索情報に係る文書についてのスコア(最終的なスコア又は暫定スコア)が所定のスコア閾値を越えることであり、この場合、検索結果フィルタ部24は、スコアがスコア閾値(以下、最低スコア)を越えているかどうかを調べる。
また、スコアに所定の処理を加えた後の値を用いる場合(例えば、最大のスコアで正規化し、正規化したスコアと最低スコアとを比較する場合)には、検索情報が渡されるごとに、当該検索情報に係る文書以外の文書の正規化スコア(最終的なスコアを正規化したもの又は暫定スコアを正規化したもの)も影響を受けるので、この場合には、検索結果フィルタ部24は、検索情報が渡されるごとに、少なくとも1つの検索情報を渡されている文書の全てについて、正規化スコアが最低スコアを越えているかどうか調べ、この条件を満たす文書すべてについて、検索情報をインターフェイス部21に渡すようにすると好ましい。
なお、提示条件を、スコアに加えて、他の情報をも用いて規定するようにしてもよい。
インターフェイス部21は、検索情報が渡されるごとに、その時点で、当該検索情報に基づいて検索結果(最終的な検索結果又は暫定的な若しくは途中経過としての検索結果)の表示を行う。これにより、検索が完了するよりも前に利用者は検索結果の候補(若しくは検索の途中経過)を閲覧することができる。
なお、検索結果フィルタ部24からインターフェイス部21へは、各時点において、提示すべき全ての文書に係る検索情報を渡す他に、それまでに検索結果フィルタ部24からインターフェイス部21へ渡されている検索情報との差分のみ渡す方法も可能である。
インターフェイス部21は、検索結果の表示方法等に関する指定を利用者が設定・変更するための手段を提供するようにしてもよい。
例えば、上記提示条件に最低スコアを用いるにあたっては、該最低スコアは予め設定されたものであってもよいが、好ましくは、インターフェイス部21は、利用者が最低スコアを操作するためのインターフェイス(例えば、スライドバー)を利用者に与えるようにしてもよい。この場合、表示された検索結果を閲覧するなどした利用者が最低スコア操作用インターフェイスを操作すると、利用者の操作に対応する最低スコア(例えば、利用者がスライドバーを操作する形態におけるバーの位置に対応する最低スコア)がインターフェイス部21から検索結果フィルタ部24に伝えられる。以降、更新後の最低スコアを越えるスコア(最終的なスコア又は暫定スコア)を持つ文書についてのみ、検索情報が検索結果フィルタ部24からインターフェイス部21に渡される。インターフェイス部21は、以降、更新後の最低スコアを越えるスコアを持つ文書についてのみ検索結果の表示を行う。
このように、利用者は検索が完了するよりも前に検索途中段階における検索結果を取得し、さらに検索結果の選別を行うことが出来るため、システムの大規模化・高速化を図ることなく利便性を向上させることができる。この検索途中段階における検索結果とは、検索対象とする文書の内、一部の文書について検索が行われた検索結果のことである。
以下、具体例を用いながら本実施形態について詳しく説明する。
インターフェイス部21は、システムが初期状態、すなわち検索結果に対する操作を行う以前のときは、図3の初期状態画面例に示す通り、利用者が質問を入力するためのテキストエリア(3a)と検索要求を送るためのボタン(3b)を表示する。
利用者がキーボードなどを用いてテキストエリア(3a)に質問文或いはキーワード列等の検索条件を入力し、マウスなどで検索要求ボタン(3b)を押すと、インターフェイス部21は、ボタン(3b)の押下から検索要求を察知し、テキストエリア(3a)に入力されている内容を含む検索要求を検索部22へ渡す。
ここでは、利用者が「電磁波の人体への影響はどの程度?」という質問文をテキストエリア(3a)に入力して、検索要求ボタン(3b)を押したものとする。
この検索要求を受け取った検索部22は、検索処理を開始し文書データベース内の或る文書の当該検索要求に対する最終的なスコア又は暫定スコア(本具体例では後者を用いる)が正の値であると判明した時点で、当該文書の三つ組みデータ(文書DBID,文書ID,最終的なスコア又は暫定的なスコア)を含む検索情報を、検索結果フィルタ部24へ渡す。
なお、スコアの算出方法については特に限定はない。よく知られたスコアの算出方法としては、例えば、tf*idfがある(tfは、term frequencyの略であり、idfは、inverse document frequencyの略である)。
図4に、tf*idfをスコアとして用いる場合の検索部22の処理手順の一例を示す。
この手順例は、1つの文書データベースの1つの文書の1つの形態素についてのスコア(すなわち、暫定的なスコア)であって正の値のものが求まるごとに、検索部22から検索結果フィルタ部24へ検索情報へ渡すものである。
ステップS1では、インターフェイス部21から送られた検索条件に係る自然言語文字列(例えば、質問文乃至はキーワード列)を形態素解析し、形態素リストLmを作成する。
ステップS2では、検索に供する文書データベース群23を、検索を行う順にリストアップして、文書データベースのリストLdを作成する。このリストLdについては、文書DBID,文書データベースの名前,文書データベースが置かれた位置等、文書データベースを特定できるものでリストを作成すれば良い。また、リストLdの並び順は、システムが規定していてもよいし、利用者に対して予め設定するための手段を提供して設定させてもよい。例えば、リストLdが、「部内文書データベース」→「社内文書データベース」→「社外文書データベース」という順に並べられていれば、この結果として、利用者は自分の部署の文書を早く閲覧することが可能になる。
ステップS3では、リストLdから、並び順に従って、1つの文書データベース(=dとする)を取り出し(このdはリストLdから削除する)、以降ステップS4〜S13を適用する(すなわち、1つの文書データベースdに対する検索を行う)。
まず、ステップS4では、ステップS1で作成された形態素リストLmを、リストLm’にコピーする。
ステップS5では、リストLm’から1つの形態素(=mとする)を取り出し(このmはリストLm’から削除する)、以降ステップS6〜S12を適用する(すなわち、文書データベースd内の全文書それぞれに対する形態素mによる(暫定的な)スコアの計算を行う)。
idf(m,d)は、文書データベースd内の文書のうち形態素mを含む文書の数とd内の全文書数から計算されるため、ステップS5の完了時点で算出可能である。
ステップS6では、文書データベースdにおける形態素mのidf(m,d)を計算する。
ステップS7では、文書データベースd内にある文書のリストLiを作成する。このリストLiについては、文書ID,文書の名前,文書が置かれた位置等、文書を特定できるものでリストを作成すれば良い。
ステップS8では、リストLiから1つの文書(=iとする)を取り出し、この文書iをリストLiから削除する。リストLiの並び順は、システムが規定していてもよいし、利用者に対して予め設定するための手段を提供して設定させてもよい。例えば、日付の新しい順に並んでいれば、利用者は、日付の新しい順に検索を実行させ、この検索途中の検索結果を閲覧することが出来る。
ステップS9では、文書i内に形態素mがどれだけ出現するかを示すtf(m,i)を計算する。
ところで、適合度を示すスコアであるtf*idfは、最終的には、Σm{tf(m,i)*idf(m,d)}で示されるが、idf(m,d)が負の値になることは無いので、tf(m,i)が正であれば、if*idfも必ず正の値になる。
ステップS10では、tf(m,i)が正の値か否か判断する。ステップS11では、ステップS10で正の値と判断した時点で、tf*idf(m,i,d)=tf(m,i)*idf(m,d)を求め、(文書DBID、文書ID、暫定的なスコアtf*idf(m,i,d))を含む検索情報を検索結果フィルタ部24に渡す。
他方、ステップS10で正の値でないと判断したならば、ステップS11はスキップする。
ステップS12では、リストLiが空か否か調べ、空でなければステップS8に戻り、空であれば、ステップS13に進む。
ステップS13では、リストLm’が空か否か調べ、空でなければステップS5に戻り、空であれば、ステップS14に進む。
ステップS14では、リストLdが空か否か調べ、空でなければステップS3に戻り、空であれば、処理を終了する。
この手順によれば、検索部22は、1つの文書データベースの1つの文書の1つの形態素についての暫定的なスコアが求まるごとに、検索結果フィルタ部24へ検索情報を渡すことができる。
検索結果フィルタ部24は、検索部22の結果を蓄積し、ある文書について暫定スコアが最低スコアを越えるに至った時点で、当該文書につき(文書DBID、文書ID、スコア)を含む検索情報をインターフェイス部21に渡す。
図5に、インターフェイス部21に検索情報を渡すか否かを判定するための基準となる最低スコアが定まっている場合の検索結果フィルタ部24の処理手順の一例を示す。
まず、検索結果フィルタ部24は、ステップS21によって、検索部22から渡された(文書DBID、文書ID、スコア)を暫定スコア表241に蓄積する(暫定的なスコアtf*idf(m,i,d)を、(文書DBID,文書ID)ごとに纏める)。
なお、暫定スコア表241は、検索が始まった時点で空にされるため、暫定スコア表241に格納する(文書DBID、文書ID)ごとのスコアとしては、検索が始まった時点から現時点までの暫定的なスコアの合計値(暫定スコア)が格納される。なお、暫定スコアの代わりに、検索が始まった時点から現時点までの暫定的なスコアの個々の値を格納し、必要時に、暫定スコアを計算するようにしてもよいし、検索が始まった時点から現時点までの暫定的なスコアの個々の値と、暫定スコアとを格納するようにしてもよい。
次に、ステップS22にて、暫定スコアと最低スコアとを比較する。
ステップS22にて暫定スコアが最低スコアを越えていれば、ステップS23にて、(文書DBID,文書ID,暫定スコア)を含む検索情報をインターフェイス部21に渡し、処理を終了する。
他方、ステップS22にて暫定スコアが最低スコア以下であれば、ステップS23をスキップして、処理を終了する。
検索結果フィルタ部24から(文書DBID,文書ID,暫定スコア)を含む検索情報を受け取ったインターフェイス部21は、例えば図6のような検索結果一覧画面を描画する。符号6eで示した点線の矩形は、説明のためのものであり、実際には描画されないものとする。
図6の例におけるテキストエリア6a及び検索要求ボタン6bは、図3で説明したテキストエリア3a及び検索要求ボタン3bと同様の機能を有するものである。なお、図6の例では、テキストエリア6aには、利用者が記述した質問文が表示されたままの状態になっているが、この画面で質問文を表示しないようにしても構わない。
図6の符号6cは検索結果フィルタ部24から渡された(文書DBID,文書ID,暫定スコア)を含む検索情報をもとに得られた当該文書に関する情報の内容である。なお、この例では、当該文書について、「表題」と「文書の冒頭部分」が表示されているが、これは一例であり、当該文書についてどのような情報をどのような形態で提示するかについては種々のバリエーションが可能である。例えば、検索の適合度に寄与した形態素のある部分を表示し、当該部分を強調して表示するなど、種々のものが考えられる。
なお、文書DBIDで示される文書データベースから文書IDで示される文書そのものを取り出す動作については、インターフェイス部21で行ってもよいし、検索結果フィルタ部24で行ってもよい。検索結果フィルタ部24が取り出し動作を行う場合には、暫定スコア表241に文書文書そのものを格納するようにしてもよい。
図6の符号6dは当該文書についての適合度を表すスコア(最終的なスコア又は暫定スコア)を示す。スコアは、その値そのもので提示するよりも、例えば棒グラフなどの図案等で視覚的に提示するのが好ましい。図6中では数値と俸グラフの両方で提示している。
図6の符号6eは検索結果を表示させるための最低スコアを利用者が変更するためのスライドバーである。利用者がスライドバー6eを操作した時点で、スライドバーのつまみの位置に対応した値が最低スコアとして直ちに検索結果フィルタ部24へ伝えられる。
図6の例では、つまみを右に寄せれば最低スコアを高くすることによって符号6cの検索結果として表示される結果数を減らすことができ、また左に寄せれば最低スコアを低くすることで符号6cの検索結果として表示される結果数を増やすことが出来る。
図6の例では、スコアバー6dがスライドバー6eのつまみの位置より右に延びている文書のみを符号6cの検索結果として表示(スライドバー6eのつまみの位置と、スコアとして表示される位置を対応させて表示)するようにしているため、利用者はつまみをどの位置にすればよいのかという目安を知ることが出来る。
また、図6の例では、スライド6fを上下させることにより、利用者は他の検索結果を参照することができる。
図7に、図5とは異なり利用者が例えば図6のスライドバー6eを操作することによってスライドバー6eのつまみの位置に対応した最低スコアが伝えられる場合の検索結果フィルタ部24の処理手順の一例を示す。
ステップS24では、暫定スコア表241から(文書DBID,文書ID)のペアのリストLtを作成する。
ステップS25では、リストLtから、1つのペア(=tとする)を取り出し(このtはリストLtから削除する)、ステップS26,S27を適用する(すなわち、1つの文書に対して表示させるか否かの判定を行う)。
次に、ステップS26にて、その文書の暫定スコアと、インターフェイス部21から渡された最低スコアとを比較し、暫定スコアが最低スコアを越えていれば、ステップS27にて、(文書DBID,文書ID,暫定スコア)を含む検索情報をインターフェイス部21に渡す。
ステップS28では、リストLtが空かどうか調べ、空でなければステップS25に戻り、空であれば、処理を終了する。
なお、この時点で検索が完全に終了しておらず、検索部22からまだ結果が送られている可能性もある。このため、結果の混乱を避けるために、ステップS21を実行する直前に暫定スコア表241をコピーしておいてもよい。
本実施形態によれば、次のような利点が得られる。
最終的な検索結果が出るよりも前に検索結果の一部を見ることが出来るため、利用者に暫定的ではあるが検索結果を出す迄に待たせる時間を検索処理の時間より短くすることができる。
なお、これによって、例えば、計算時間はかかるが、より精度の高い適合度指標を用いることも可能になる。
また、検索の結果として提示される文書の多寡を利用者側で自由かつ即時的に変更することが出来る構成であるため、検索要求に適合する文書が見つからない不安や検索結果が多すぎることによる煩雑さを軽減することが出来る。
(第2の実施形態)
第1の実施形態では、検索の際に結果を表示させるための最低スコア(スコア閾値)をある一定の値に定めていたが、第2の実施形態では、システムが自立的にこの値を定めるものである。
以下、第1の実施形態と相違する点を中心に説明する。
本実施形態では、検索結果を提示すべき文書数の上限の規定値(=nとする)を設定し、暫定スコア表241に格納されている文書の数が規定値以上である場合に、(暫定スコアの順位で)上位n番目の文書の持つ暫定スコアを新たな最低スコアとすることによって、検索情報を上位n件分だけインターフェイス部21に渡すようにする。
図8に、本実施形態の検索結果フィルタ部24の処理手順の一例を示す。
まず、検索結果フィルタ部24は、ステップS31によって、検索部22から渡された(文書DBID、文書ID、スコア)を暫定スコア表241に蓄積する(暫定的なスコアtf*idf(m,i,d)を、(文書DBID,文書ID)ごとに纏める)。
ステップS32で、暫定スコア表241中、最低スコアを越える暫定スコアを持つ文書の数が、規定値n以上であるかどうか調べ、n以上でなければ、ステップS33で、暫定スコア表241中の全ての文書について、(文書DBID,文書ID,暫定スコア)を含む検索情報を、インターフェイス部21に渡し、処理を終了する。
他方、n以上であれば、ステップS34で、上位n番目になる文書の暫定スコアを新しい最低スコアとし、ステップS35で、最低スコアより高いスコアを持つ表241中の文書についてのみ、(文書DBID,文書ID,暫定スコア)を含む検索情報を、インターフェイス部21に渡し、処理を終了する。
なお、検索結果の表示対象となる文書の数は、予め設定されたものでもよいが、例えばテキストボックスやスライドバーなどの手段によって利用者が適宜設定出来るようにすると好ましい。さらにこうすることによって暫定スコアの閾値をユーザから完全に隠すことができる。この場合は、図8中のステップS24,S35は、「インターフェイス部に(文書DBID,文書ID)を暫定スコアの上位n件分だけ渡す」というステップに代替可能だが、結果表示からスコア表示部(例えば、図6中の符号6d)が消えるなど、結果の良否判定を難しくする影響がある。
(第3の実施形態)
第3の実施形態は、第1及び第2の実施形態において、文書の属性による絞り込みを可能にしたものである。
以下、これまで説明した実施形態と相違する点を中心に説明する。
ここでは、利用者は最低スコア(スコア閾値)或いは表示文書数による絞り込みに加えて、文書の属性による絞り込みを可能にした例を用いて説明する。
図9に、最低スコアによる絞り込み及び文書の属性による絞り込みのためのインターフェイスを備えた検索結果一覧画面の一例を示す。この画面は、図6の画面に属性表示領域9gと選択属性表示領域9hを付加したものである。利用者が所望の属性表示領域をマウス等で選択(クリック)すると、クリックされた属性表示領域に対応する属性(属性の種類an,その属性の属性値av)がインターフェイス部21から検索結果フィルタ部24に伝えられ、以降、当該属性を持つ文書についてのみ、検索情報が検索結果フィルタ部24からインターフェイス部21に渡され、インターフェイス部21は、以降、当該属性を持つ文書についてのみ、検索結果の表示を行う。このように、利用者は、所望の属性表示領域をクリックすることで、表示させる文書を、特定の属性を持つもののみに絞ることが可能となる。なお、属性の種類が1種類のみの場合には、属性の種類の情報は使用しなくて構わない。
例えば、図9の例において、符号9cに示した検索結果の属性に表示されている「○○新聞」の部分をクリックすると、検索結果のうち「○○新聞」が検索属性表示領域9hに入力され、以降「○○新聞」に係る記事等の文書のみが検索結果表示領域9cに表示される。このときの検索結果一覧画面例を図10に示す。図10の例では、選択属性表示領域10hには既に選択された属性が表示されており、属性表示領域10gでは「○○新聞」をクリック出来ないようになっている。
なお、上記選択属性表示領域9hへの入力方法についてはこれに限らず、ユーザがキーボード等の入力デバイスを用いて直接入力しても良い。また、各文書の属性については予め各文書に振られた文書データベースである必要がある。 図11に、本実施形態の検索結果フィルタ部24の処理手順の一例を示す。
ここで、本実施形態では、暫定スコア表243は、図5等の暫定スコア表241に加えて、(文書DBID、文書ID)ごとに、属性(属性の種類an,その属性の属性値av)をも格納する。
まず、検索結果フィルタ部24は、ステップS41において、検索部22から検索情報が渡されたとき、該検索情報に係る文書について、暫定スコア表243に未だ情報が格納されていなければ(検索情報に係る(文書DBID,文書ID)が暫定スコア表243になければ)、当該文書DBIDを持つ文書データベース231を参照して、当該文書IDを持つ文書の持つ属性(属性の種類an,その属性の属性値av)を取得する。
そして、ステップS42において、当該文書(文書DBID、文書ID、暫定スコア,属性)を暫定スコア表243に蓄積する(暫定的なスコアtf*idf(m,i,d)を、(文書DBID,文書ID)ごとに纏める)。
なお、図5で説明したように、暫定スコアの代わりに、検索が始まった時点から現時点までの暫定的なスコアの個々の値を格納し、必要時に、暫定スコアを計算するようにしてもよいし、検索が始まった時点から現時点までの暫定的なスコアの個々の値と、暫定スコアとを格納するようにしてもよい。
次に、ステップS43にて、暫定スコアと最低スコアとを比較する。ただし、本実施形態では、上記のようにして特定の属性が選択されている場合には、判断の対象となった文書の持つ属性が、該特定の属性を持つときのみ、この比較を行い、その他のときは、比較は行わずに、検索情報をインターフェイス部21に渡さないものと決定する。
この比較の結果、暫定スコアが最低スコアを越えていれば、ステップS44にて、(文書DBID,文書ID,暫定スコア)を含む検索情報をインターフェイス部21に渡し、処理を終了する。
他方、暫定スコアが最低スコア以下であれば、ステップS44をスキップして、処理を終了する。
図12に、本実施形態の検索結果フィルタ部24の処理手順の他の例を示す。
インターフェイス部21からは、利用者により指定された属性(属性an,属性値av)のペアのリストLaが渡されるものとする。
ステップS51では、暫定スコア表243から(文書DBID,文書ID)のペアのリストLtを作成する。
ステップS52では、リストLtから、1つの文書ID(=tとする)を取り出す(このtはリストLtから削除する)。
ステップS53にて、その文書の暫定スコアと、インターフェイス部21から渡された最低スコアとを比較し、暫定スコアが最低スコア以下であれば、ステップS57に進むが、暫定スコアが最低スコアを越えていれば、ステップS54にてリストLaのコピーリストL’aを作成し、更にステップS55でリストL’aから、(属性の種類an,その属性の属性値av)のペアを1つ取り出す(このペアはリストL’aから削除する)。
そして、ステップS56にて、文書tの持つ属性の種類とその属性値が、それぞれ、取り出したanとavに一致するかどうか調べ、一致すれば、ステップS57で、(文書DBID,文書ID,暫定スコア,各種属性)を含む検索情報をインターフェイス部21に渡し、ステップS58に進む。
他方、一致しなければ、ステップS59に進む。ステップS59では、リストLaが空かどうか調べ、空でなければステップS55に戻り、空であれば、ステップS58に進む。
ステップS58では、リストLtが空かどうか調べ、空でなければステップS52に戻り、空であれば、処理を終了する。
なお、図12の手順例は、選択された1又は複数の属性に一つでも当てはまれば表示させる場合の例であるが、選択された全て又は一定数以上の属性に当てはまるときのみ表示させるようにしてもよい。
(第4の実施形態)
第1〜第3の実施形態の検索部22の処理手順例(図4参照)では、1つの文書データベースの1つの文書の1つの形態素についてのスコア(すなわち、暫定的なスコア)であって正の値のものが求まるごとに、検索部22から検索結果フィルタ部24へ検索情報を渡すものであった。
ところで、各々の文書データベース毎にスコアを正規化している場合など、検索部22は文書データベースを走査している最中に暫定的なスコアを検索結果フィルタ部24に渡すよりも、例えば各々の文書データベース内の全文書を走査してから暫定スコアを計算した後に渡す方が好ましい場合もある。
以下、これまで説明した実施形態と相違する点を中心に説明する。
図13〜図14に、図4に示した検索部22の処理手順例とは異なる手順例を示す。図4及び図13〜図14は、基本的には、同様の処理を行うものであり、互いに相違する点は、第1に、tf(m,i)が正の値であるか否か判断し、正の値と判った時点で、(文書DBID、文書ID、暫定的なスコアtf*idf(m,i,d))を含む検索情報を検索結果フィルタ部24に渡す処理のタイミングが上記のように相違する点と、第2に、Ldに関する処理ループと、Lm’に関する処理ループと、Liに関する処理ループとの包含関係(階層関係)が相違する点である。
具体的には、以下のようになる。
図13の手順例では、1つの文書データベースごとに、全ての文書につき、全ての形態素についてのスコアが求まってから、検索結果フィルタ部24へ検索情報を渡すようにする。
図14の手順例では、1つの文書データベース且1つの形態素ごとに、全ての文書についてのスコアが求まるごとに、検索結果フィルタ部24へ検索情報を渡すようにする。
例えば、適合する文書が見つかった時点ではスコアを計算することが出来ない場合は、図13又は図14のように、検索部22は一つの文書データベースを走査し終わった時点で文書IDとスコアのペアのリストを含む検索情報を検索結果フィルタ部24に渡してもよい。
図15の手順例では、1つの形態素ごとに、全ての文書データベースの全ての文書につきスコアが求まるごとに、検索結果フィルタ部24へ検索情報を渡すようにする。例えば、形態素一つ一つについて全文書データベース内の全文書を走査しなければ暫定スコアを計算できない場合には、図15のように形態素を一つ取り出してから全文書データベースの全文書に対する暫定スコア計算を行えばよい。
図16の手順例では、1つの文書データベースの1つの文書ごとに、全ての形態素についてのスコアが求まってから、検索結果フィルタ部24へ検索情報を渡すようにする。例えば、質問文中の全形態素について一つの文書に対するスコア算定を行うことで各々の文書に対するスコアの確定を優先させるアルゴリズムの場合には、図15の手順のようにすればよい。
(第5の実施形態)
第1〜第4の実施形態では、検索要求を質問文あるいはキーワード列で与える場合を中心に示した。第5の実施形態では、これまでの各実施形態において、文書データベース内の文書を示す文書ID、あるいは文書そのものを検索要求として与える例を示す。
以下、これまで説明した実施形態と相違する点を中心に説明する。
図17に、本実施形態におけるインターフェイス部21の初期状態画面例を示す。図3との相違点は、文書ファイル設定領域17c及び選択ボタン17dが付加されている点である。利用者は、検索要求として文書データベース内の文書を示す文書IDや文書ファイルを用いる場合、文書ファイル設定領域17cに所望の文書ID等を直接記述するか、あるいは選択ボタン17dにより所望の文書ID等を選択し、検索ボタン18bをクリックする。なお、この場合、必要に応じて、文書データベースから該当する文書を取り出して文書の内容を形態素解析し、形態素解析結果を利用して検索することができる。
図18に、本実施形態におけるインターフェイス部21の検索結果一覧画面を示す。図6との相違点は、上記に加えて、類似検索のインターフェイス18gが付加されている点である。利用者は、検索結果に係る文書に対する類似検索を更に行いたい場合には、類似検索ボタン18gをクリックすればよい。なお、類似検索については、例えば、文献“「情報検索と言語処理」,徳永健伸,東京大学出版会,pp30−31,1999,ISBN4−13−065405−5”等の公知技術を用いることができる。
(第6の実施形態)
第6の実施形態では、これまでの各実施形態において、検索結果を利用者に提示する際の検索結果の並び順をソートできるようにした例を示す。
以下、これまで説明した実施形態と相違する点を中心に説明する。
検索結果の候補が見つかり次第利用者にそれを見せるという各実施形態の特徴を考慮すると、検索結果の候補が見つかり次第スコアの高い順にソートするのはシステムに対する負担が大きい。そこで、これまでの各実施形態において、利用者側でソート命令を出せるようにすればよい。なお、第4の実施形態については、検索結果の候補を利用者に見せる間隔が長く出来るため、表示する時点で自動的にスコアの高い順にソートさせてもシステムに対する負荷はそう大きくならない。
図19に、利用者側でソート命令を出すためのインターフェイスを備えた検索結果一覧画面例を示す。図6との相違点は、ソート命令のためのボタン19gが付加されている点である。検索結果一覧画面では、スコアの大小にかかわらずに、見つかった順に検索結果が表示される。ここで、利用者は、スコアの高い順にソートさせたい場合には、ソート命令ボタン19gをクリックする。すると、検索結果がスコアの高い順にソートされる。なお、このソートの操作は、検索結果フィルタ部24で行ってもよいし、インターフェイス部21で行ってもよい。
なお、ソート命令が出された場合に、スコアだけでなく、例えば日付や出所等の属性についてもソートするようにしてもよい。この場合の順序は、五十音訓順、日付順などが考えられる。
(第7の実施形態)
第7の実施形態では、これまでの各実施形態において、利用者が任意の時点で検索を中止できるようにした例を示す。
以下、これまで説明した実施形態と相違する点を中心に説明する。
図20に、利用者が検索中止命令を出すためのインターフェイスを備えた検索結果一覧画面例を示す。図6との相違点は、検索中止のためのボタン20gが付加されている点である。検索結果一覧画面では、見つかった順に次々と検索結果が表示されていく。ここで、利用者は、検索を中止させたい場合には、検索中止ボタン20gをクリックする。すると、検索が中止される。
このように検索を中止することができれば、利用者側の端末にかかるインターフェイス再描画の負荷を抑えることが出来るため、利用者は他の作業を軽快に行うことが出来るなどの利点がある。もちろん、検索システムにとっても、検索が停止されれば開放されたリソースを他の利用者による検索要求に充てられるため、この結果として検索システム利用者全体が処理時間短縮という利便性を受けることが出来る。
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る文書検索システムのハードウェア構成の一例を示す図。 同実施形態に係る文書検索システムの機能ブロック構成の一例を示す図。 初期状態画面の一例を示す図。 同実施形態に係る文書検索システムの検索部の処理手順の一例を示すフローチャート。 同実施形態に係る文書検索システムの検索結果フィルタ部の処理手順の一例を示すフローチャート。 検索結果一覧画面の一例を示す図。 同実施形態に係る文書検索システムの検索結果フィルタ部の処理手順の他の例を示すフローチャート。 同実施形態に係る文書検索システムの検索結果フィルタ部の処理手順のさらに他の例を示すフローチャート。 検索結果一覧画面の他の例を示す図。 検索結果一覧画面のさらに他の例を示す図。 同実施形態に係る文書検索システムの検索結果フィルタ部の処理手順のさらに他の例を示すフローチャート。 同実施形態に係る文書検索システムの検索結果フィルタ部の処理手順のさらに他の例を示すフローチャート。 同実施形態に係る文書検索システムの検索部の処理手順の他の例を示すフローチャート。 同実施形態に係る文書検索システムの検索部の処理手順のさらに他の一例を示すフローチャート。 同実施形態に係る文書検索システムの検索部の処理手順のさらに他の一例を示すフローチャート。 同実施形態に係る文書検索システムの検索部の処理手順のさらに他の一例を示すフローチャート。 初期状態画面の一例を示す図。 検索結果一覧画面のさらに他の例を示す図。 検索結果一覧画面のさらに他の例を示す図。 検索結果一覧画面のさらに他の例を示す図。
符号の説明
11…制御装置、12…入力装置、13…表示装置、14…メモリ、15…外部記憶装置、16…バス、21…インターフェイス部、22…検索部、23,151…文書データベース群、24…検索結果フィルタ部、141…プログラム部、142…バッファ部、152…プログラム格納部、231…文書データベース。

Claims (8)

  1. 検索条件を入力する入力手段と、
    前記検索条件に基づき文書データベースを検索して、該文書データベースから前記検索条件に適合する文書に関する情報を取得する取得手段と、
    前記文書の前記検索条件への適合度を計算する計算手段と、
    前記検索が完了する前の特定のタイミングごとに、そのタイミングにおいて計算されている適合度に基づいて前記文書に関する情報を提示すべきか否かを判断する判断手段と、
    この判断手段により提示すべきとの判断がなされるごとに、当該提示すべきと判断された前記文書に関する情報を、暫定的な検索結果として提示する提示手段とを備えたことを特長とする文書検索システム。
  2. 前記提示条件は、前記タイミングにおいて計算されている前記文書の前記検索条件への適合度が、基準値を越えることであり、
    前記判断手段は、前記適合度が前記基準値を越えている場合に、提示すべきと判断することを特徴とする請求項1に記載の文書検索システム。
  3. 前記提示手段は、前記適合度を示す情報を、前記文書に関する情報の一つとして提示することを特徴とする請求項2に記載の文書検索システム。
  4. 前記検索の実行中に利用者から前記基準値を変更する指示を入力するための基準値入力手段を更に備え、
    前記判断手段は、前記検索の実行中に前記基準値入力手段により前記基準値の変更が指示された場合には、直ちに当該変更後の基準値により前記判断を行うことを特徴とする請求項2に記載の文書検索システム。
  5. 前記検索の実行中に、前記提示手段により前記情報を提示する文書数の上限値に基づいて、前記基準値を変更する基準値変更手段を更に備え、
    前記判断手段は、前記検索の実行中に前記基準値変更手段により前記基準値が変更された場合には、直ちに当該変更後の基準値により前記判断を行うことを特徴とする請求項2に記載の文書検索システム。
  6. 前記提示手段は、前記検索の実行中に、同一文書について計算されている前記適合度又前記基準値の少なくとも一方が更新されたことによって、同一文書に対する前記判断の結果が異なるものになった場合には、当該更新後の判断の結果に従って前記提示を行うことを特徴とする請求項2に記載の文書検索システム。
  7. 検索条件を入力する入力ステップと、
    前記検索条件に基づき文書データベースを検索して、該文書データベースから前記検索条件に適合する文書に関する情報を取得する取得ステップと、
    前記文書の前記検索条件への適合度を計算する計算ステップと、
    前記検索が完了する前の特定のタイミングごとに、そのタイミングにおいて計算されている適合度に基づいて前記文書に関する情報を提示すべきか否かを判断する判断ステップと、
    この判断ステップにより提示すべきとの判断がなされるごとに、当該提示すべきと判断された前記文書に関する情報を、暫定的な検索結果として提示する提示ステップとを有することを特長とする文書検索方法。
  8. 文書検索システムとしてコンピュータを機能させるためのプログラムにおいて、
    前記プログラムは、
    検索条件を入力する入力ステップと、
    前記検索条件に基づき文書データベースを検索して、該文書データベースから前記検索条件に適合する文書に関する情報を取得する取得ステップと、
    前記文書の前記検索条件への適合度を計算する計算ステップと、
    前記検索が完了する前の特定のタイミングごとに、そのタイミングにおいて計算されている適合度に基づいて前記文書に関する情報を提示すべきか否かを判断する判断ステップと、
    この判断ステップにより提示すべきとの判断がなされるごとに、当該提示すべきと判断された前記文書に関する情報を、暫定的な検索結果として提示する提示ステップとをコンピュータに実行させることを特徴とするプログラム。
JP2004024076A 2004-01-30 2004-01-30 文書検索システム、文書検索方法及びプログラム Pending JP2005216139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004024076A JP2005216139A (ja) 2004-01-30 2004-01-30 文書検索システム、文書検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004024076A JP2005216139A (ja) 2004-01-30 2004-01-30 文書検索システム、文書検索方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2005216139A true JP2005216139A (ja) 2005-08-11

Family

ID=34906874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004024076A Pending JP2005216139A (ja) 2004-01-30 2004-01-30 文書検索システム、文書検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2005216139A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011028576A (ja) * 2009-07-27 2011-02-10 Ricoh Co Ltd 画像形成装置、表示制御方法、及びプログラム
JP2011159100A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
US8938123B2 (en) 2012-05-11 2015-01-20 Kabushiki Kaisha Toshiba Electronic device and handwritten document search method
WO2020255307A1 (ja) * 2019-06-19 2020-12-24 日本電気株式会社 情報処理装置、情報処理方法、および記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011028576A (ja) * 2009-07-27 2011-02-10 Ricoh Co Ltd 画像形成装置、表示制御方法、及びプログラム
JP2011159100A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
US8938123B2 (en) 2012-05-11 2015-01-20 Kabushiki Kaisha Toshiba Electronic device and handwritten document search method
WO2020255307A1 (ja) * 2019-06-19 2020-12-24 日本電気株式会社 情報処理装置、情報処理方法、および記録媒体
JPWO2020255307A1 (ja) * 2019-06-19 2020-12-24

Similar Documents

Publication Publication Date Title
US7096218B2 (en) Search refinement graphical user interface
JP3870666B2 (ja) 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US7769771B2 (en) Searching a document using relevance feedback
CA2635783C (en) Dynamic search box for web browser
JPH08255172A (ja) 文書検索システム
TW200805095A (en) Data product search using related concepts
JP2004341753A (ja) 検索支援装置、検索支援方法、およびプログラム
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP2000276485A (ja) 電子辞書装置及び電子辞書プログラムを記録した記録媒体
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP3930168B2 (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP2005216139A (ja) 文書検索システム、文書検索方法及びプログラム
JPH05324728A (ja) 情報検索装置
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JPH09259139A (ja) 文書資料知的検索システム
JPH10289241A (ja) 画像処理装置及びその制御方法
JP2004185346A (ja) プロジェクト作業支援方法およびシステム
JPH09311805A (ja) 文書処理方法及び装置
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2939841B2 (ja) データベース検索装置
JP2002163273A (ja) 文書管理方法およびシステム
JP4496797B2 (ja) 文書管理装置および方法
JP2000322439A (ja) 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JPH09160908A (ja) 文書処理装置及びその方法、記憶媒体
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080715