JP2007018350A

JP2007018350A - 情報検索装置、情報検索方法および情報検索プログラム

Info

Publication number: JP2007018350A
Application number: JP2005200295A
Authority: JP
Inventors: Mineichi Kudo; 峰一工藤; Tetsuya Murai; 村井　　哲也; Atsuyoshi Nakamura; 篤祥中村
Original assignee: Hokkaido University NUC
Current assignee: Hokkaido University NUC
Priority date: 2005-07-08
Filing date: 2005-07-08
Publication date: 2007-01-25

Abstract

【課題】コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現するとともに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現すること。
【解決手段】コンピュータ上でのユーザのすべての作業が作業記録ＤＢ２２４に記録される。ユーザの複数の電子ファイルに関する一つの作業が終了する度に、名付け／索引付け部２０６は、作業結果である電子ファイルから各種の粒度概念に基づく名前／索引候補を選定する。この選定結果に基づいて、検索時にユーザが検索文を入力すると、粒度分解部２０８は、検索文を粒度分解して、ユーザの意図に合った粒度の検索語を抽出し、検索エンジン２１０は、粒度分解された検索語を用いて作業記録ＤＢ２２４にアクセスして検索を行う。また、ユーザが指定した粒度に従って記録を表示する。
【選択図】図１

Description

本発明は、情報検索装置、情報検索方法および情報検索プログラムに関する。

近年、コンピュータ内のファイルを検索する種々の情報検索技術が提案されている。従来の情報検索方法として、例えば、特許文献１および特許文献２に記載されているものがある。

特許文献１記載の方法では、入力文書と文書集合とを対比して文字列の特徴量を計算・評価することにより抽出した特徴文字列を使用して情報検索を行い、検索した文書を評価順に並べ替えるようにしている。

また、特許文献２記載の方法では、入力された検索文の構造と文書データベース内の文書クラスタのクラスタ構造との類似度を計算して、最も類似するクラスタ構造に対応づけられた文書データベース内の文書クラスタから類似文書を検索するようにしている。
特開平９−２９３０７７号公報特開２００１−８４２５２号公報

しかしながら、特許文献１記載の方法においては、検索の対象は、コンピュータ内の文書集合であるため、文書集合以外のファイル、例えば、表計算ファイルやｈｔｍｌファイル、スケジュール等は検索の対象にならず、これらのファイルに対しては所望の検索を行うことができないという問題がある。

また、特許文献２記載の方法においては、検索の対象は、文書の全文であるため、検索者が与えるキーワードは、厳密にファイルに記載されたものでなくてはならず、十分な検索精度を得られないという問題がある。

さらに、特許文献１および特許文献２記載の方法はそれぞれ、ファイルの内容に関して検索語と対応したものを検索するものであるが、各ファイルに関する作業記録を保存しているわけではないため、検索として、例えば、「何々の作業に関して扱ったファイルは？」という質問ができない。また、同一の作業目的の下で取り扱われた複数のファイルを一括に検索できないという問題がある。

通常、ユーザは、特定の目的および特定の相手に対して複数の電子ファイルを扱う。従って、複数のファイルを同一の目的の下で扱った、あるいは、特定の相手とやりとりを行った、という事実を記録することが事後の検索において有効となる。また、検索者は、電子ファイル内に記載されている単語ではなく、検索者独自の漠然とした関係性や思考を示すキーワード、例えば、作業内容や作業の期間、作業にかかわった人名等（以下「作業内容キーワード」と略記する）を、情報検索のためのキーワードとして与えることが多い。従って、作業内容キーワードを積極的に扱うことにより、検索者の意図に適合した情報検索を実現する情報検索方法が要求されている。

なお、本明細書において、作業とは、ユーザの操作による各種アプリケーションにおける全ての処理、例えば、メーラやスケジューラ、ワープロ、表計算ソフト等を用いた電子ファイルを扱う処理の全てを意味する。

本発明は、かかる点に鑑みてなされたものであり、コンピュータ内のあらゆるファイルに対して、作業履歴として高精度な情報検索を実現するとともに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができる情報検索装置、情報検索方法および情報検索プログラムを提供することを目的とする。

本発明に係る情報検索装置は、ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するキーワード抽出手段と、抽出されたキーワードを対応する作業と関連付けて概念レベル別に作業記録として記憶する作業記録記憶手段と、を有する。

本発明によれば、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現するとともに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができる。特に、前者については、より具体的に、コンピュータ内のあらゆるファイルに対して行われた作業を記録することで、一つの目的に沿って扱われた複数のファイル、あるいは、ある時期もしくはある日付、またはある人とのやりとりにおいて扱われたファイルを、それぞれ高精度に検索することができる。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（実施の形態１）
本発明者は、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、さらに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現するためには、ユーザの作業を逐次自動で記録し、記録した作業の中から検索者独自の曖昧さを示すキーワードを統一的に扱って情報検索を行うことが必要であることを見出した。また、検索者独自の曖昧さを示すキーワードを統一的に扱って情報検索を行うためには、記録した作業およびキーワードを概念上段階的に表現した粒度という概念を用いて表現して情報検索を行うことが必要であることを見出したのである。

本発明は、ユーザの操作によりコンピュータ内で処理される全ての作業を、粒度という概念に基づいて分類して逐次自動で記録し、検索者からの検索要求により、記録された作業を高精度に、かつ、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現するものである。

なお、本明細書において、粒度とは、時間や人間、ファイル等の概念を、検索者独自の漠然とした関係性や思考を示すキーワードに基づいて段階的に表現したものである。例えば、時間であれば、「年−月−日−時−分−秒」のようになり、人間であれば、「所属−氏名−ニックネーム−プロフィール」のようになり、ファイルであれば、「種類−ファイル名−タイトル−要約−本文」のようになる。ただし、当該段階的表現も検索者独自の曖昧さを含んだ表現である。粒度については、後に詳細に説明する。

図１は、本発明の一実施の形態に係る情報検索装置の構成を示すブロック図である。

図１の情報検索装置１０は、大別して、入力装置１００、コンピュータ本体２００および出力装置３００を有する。

入力装置１００は、コマンドや文字入力、編集、ポインティング、音声入力等を行うためのキーボードやマウス、マイク等で構成されている。ユーザは、入力装置１００を用いて、コンピュータ本体２００に対して各種の操作を行う。

また、出力装置３００は、画面に情報を表示するディスプレイ（表示装置）や、情報を音声で出力するスピーカ、情報を紙等に印刷するプリンタ等で構成されている。コンピュータ本体２００の処理結果は、出力装置１００に出力されて、ユーザに提供される。ここでは、出力装置３００として、ディスプレイ（表示装置）を例にとって説明する。

コンピュータ本体２００は、各種アプリケーション処理部２０２、入力インターフェース（以下「入力Ｉ／Ｆ」と略記する）２０４、名付け／索引付け部２０６、粒度分解部２０８、検索エンジン２１０、粒度分析部２１２、レイアウトマネージャ２１４、出力インターフェース（以下「出力Ｉ／Ｆ」と略記する）２１６、制御部２１８、バス２２０、電子ファイルデータベース（以下「電子ファイルＤＢ」と略記する）２２２、作業記録データベース（以下「作業記録ＤＢ」と略記する）２２４、時間表現辞書データベース（以下「時間表現辞書ＤＢ」と略記する）２２６、タスクレベル表現辞書データベース（以下「タスクレベル表現辞書ＤＢ」と略記する）２２８、人名表現辞書データベース（以下「人名表現辞書ＤＢ」と略記する）２３０、キーワードデータベース（以下「キーワードＤＢ」と略記する）２３２および時計２３４を有する。各部２０２〜２１８、２２２〜２３４は、バス２２０によって互いに接続されている。

各種アプリケーション処理部２０２は、メーラやスケジューラ、ワープロ、表計算ソフトその他の各種アプリケーション（ソフトウェア）の処理を行う。処理された電子ファイルは、電子ファイルＤＢ２２２に格納される。

入力Ｉ／Ｆ２０４は、ユーザが、各種アプリケーション処理部２０２における各種アプリケーションの処理、情報検索時における検索文の入力および粒度調整ボタンを用いた表示粒度の調整要求を行うための方式を定めたものである。入力Ｉ／Ｆ２０４は、ユーザが情報検索時に入力した検索文を粒度分解部２０８へ出力し、ユーザが情報検索時に行った表示粒度の調整指示を粒度分析部２１２へ出力する。

名付け／索引付け部２０６は、制御部２１８からの名付け／索引付け要求を受けて、電子ファイルＤＢ２２２から、対応する電子ファイルを取得し、取得した電子ファイルを各種の粒度概念、例えば、時間粒度やタスクレベル粒度、人名粒度等に基づいて名付け／索引付けして、結果（名前／索引候補）を制御部２１８へ出力する。この結果に基づいて作業記録が半自動的に行われ、作業記録ＤＢ２２４に登録される。

粒度分解部２０８は、入力Ｉ／Ｆ２０４から入力した検索文を粒度分解する。すなわち、入力Ｉ／Ｆ２０４から入力した検索文を形態素解析し、さらに、形態素解析した検索文を時間表現辞書ＤＢ２２６に格納された時間粒度、タスクレベル表現辞書ＤＢ２２８に格納されたタスクレベル粒度および人名表現辞書ＤＢ２３０に格納された人名粒度に基づいて分解して、指示された粒度に対応する検索語を出力する。粒度分解された検索語は、制御部２１８からの検索要求に含まれて（粒度付き検索要求）、検索エンジン２１０へ与えられる。

検索エンジン２１０は、制御部２１８からの粒度付き検索要求を受けて、作業記録ＤＢ２２４にアクセスし、作業記録ＤＢ２２４から、粒度分解された検索語に対応する作業記録を取得する。取得した作業記録（検索結果）は、制御部２１８からの表示要求に含まれて、粒度分析部２１２へ与えられる。

粒度分析部２１２は、制御部２１８からの表示要求および入力Ｉ／Ｆ２０４から入力したユーザの表示粒度調整指示を受けて、検索エンジン２１０の検索結果の粒度分析、つまり、基本表示形式の選択と基本表示粒度の決定を行う。粒度分析結果（表示形式と表示粒度）は、検索エンジン２１０の検索結果と共に、レイアウトマネージャ２１４へ出力される。

レイアウトマネージャ２１４は、検索エンジン２１０の検索結果の出力レイアウト（表示レイアウト）を設定するとともに、粒度分析部２１２から入力した粒度分析結果に対して表示粒度の調整を行う。具体的には、出力装置（表示装置）３００の表示粒度（表示領域の大きさや画面の解像度）が異なる環境においても、検索エンジン２１０の検索結果が適切に表示されるように、表示粒度を調整する。これにより、表示粒度に応じたリストの選択や内容の表示が可能になる。表示粒度が調整されたレイアウト情報付き検索結果は、表示情報として、出力Ｉ／Ｆ２１６へ出力される。もちろん、各種アプリケーション処理部２０２の処理結果も、このレイアウトマネージャ２１４で出力レイアウトが設定された後、表示情報として出力Ｉ／Ｆ２１６へ出力される。

出力Ｉ／Ｆ２１６は、コンピュータ本体２００で処理されレイアウトマネージャ２１４で出力レイアウトが設定された表示情報を出力するための方式を定めたものである。表示情報は、出力装置３００へ出力される。

制御部２１８は、各種アプリケーション処理部２０２に対して、ユーザの操作、例えば、リストの選択・編集や新規メッセージの作成要求を行う。また、名付け／索引付け部２０６に対して、名付け／索引付け要求を行い、検索エンジン２１０に対して、作業記録ＤＢ２２４からどのような作業記録を取得するかについての粒度付き検索要求を行う。また、作業記録ＤＢ２２４に対して、作業記録の登録要求を行う。

電子ファイルＤＢ２２２には、各種アプリケーション処理部２０２の処理結果である電子ファイルが格納される。

作業記録ＤＢ２２４には、制御部２１８からの登録要求を受けて、名付け／索引付け部２０６の結果（名前／索引候補）を基にユーザが編集し確定した名前および索引を含むデータ（作業記録）が、時計２３４から入力した時刻を含めて登録される。登録された作業記録は、検索時に、検索エンジン２１０からのアクセスを受ける。なお、検索結果は、制御部２１８へ出力される。

時間表現辞書ＤＢ２２６には、時間の粒度に応じた時間表現が格納され、タスクレベル表現辞書ＤＢ２２８には、タスクレベルの粒度に応じたタスクレベル表現が格納され、人名表現辞書ＤＢ２３０には、人名の粒度に応じた人名表現が格納されている。これらの辞書は、粒度分解部２０８によってアクセスされる。なお、時間表現辞書ＤＢ２２６、タスクレベル表現辞書ＤＢ２２８および人名表現辞書ＤＢ２３０に格納された単語の粒度の概念は、検索者独自の漠然とした関係性や思考を示すものである。従って、ユーザは、入力装置１００を用いて、時間表現辞書ＤＢ２２６、タスクレベル表現辞書ＤＢ２２８および人名表現辞書ＤＢ２３０に格納する単語を自由に変更、追加または削除可能である。

キーワードＤＢ２３２には、キーワードとして抽出されうる言葉が格納されている。キーワードＤＢ２３２は、粒度分解部２０８によってアクセスされる。時刻の情報は、時計２３４によって与えられる。時刻の情報は、作業記録ＤＢ２２４へ与えられる。

ここで、本発明における重要な概念である粒度について説明する。

上記のように、粒度とは、時間や人間、ファイル等の概念を、検索者独自の曖昧さを示すキーワードに基づいて段階的に表現したものである。従って、粒度の概念は、一般的な検索において検索語を曖昧にするような否定的な情報を積極的に活用することを可能にする。すなわち、これまで情報検索において情報として扱われなかった検索の曖昧さを示す修飾語を積極的に利用することで、より適切な情報検索および検索者の意図したレベルでの情報の表示を行うことができ、情報検索の利便性と一覧性を高めることができるのである。

粒度の大小を示す直感的な例を、図２（Ａ）〜図２（Ｃ）を用いて説明する。図２（Ａ）〜図２（Ｃ）は、検索粒度、情報粒度および表示粒度に基づいた粒度表を示す図であり、特に、図２（Ａ）は、時刻について表示した図であり、図２（Ｂ）は、人について表示した図であり、図２（Ｃ）は、画像について表示した図である。また、図中において、右にいく程粒度が高くなり、左にいく程粒度が低くなる。

図２（Ａ）においては、情報粒度が「年−月−日−時−分−秒」であり、表示粒度が６である。検索語を「１０日」として入力すると、情報粒度が「日」、表示粒度が「３」の情報を中心として各種の情報が表示される。

図２（Ｂ）においては、情報粒度が「所属−氏名−ニックネーム−顔画像−プロフィール」であり、表示粒度が５である。検索語を「特許太郎」として入力すると、情報粒度が「氏名」、表示粒度が「２」の情報を中心として各種の情報が表示される。

図２（Ｃ）においては、情報粒度が「種類−ファイル名−説明やキーワード−サムネイル−画像自体」であり、表示粒度が５である。検索語を「特許花子の運動会」として入力すると、情報粒度が「ファイル名」、表示粒度が「２」の情報を中心として各種の情報が表示される。

図２（Ａ）〜図２（Ｃ）より、被写体の画像としての粒度は明確である。ここで、粒度に基づいた情報検索を実現するためには、スコープ（表示領域）を一定に保持する必要がある。すなわち、スコープが一定であるが故に粒度の変化に応じて被写体の画像が変化する。例えば、小さな粒が１００個集まって大きな粒を作っているものを１つの箱に入れる場合を考える。この場合、大きな粒を１０個見えるようにした場合と小さな粒を１０個、つまり、大きな粒の１／１０個を見えるようにする場合では箱の大きさが異なる。つまり、見ているものを拡大して小さな粒を見えるようにすると、スコープが一定であれば、大きな粒が見えなくなり、小さな粒が現われる。逆に、縮小すると小さな粒は見えなくなり、大きな粒が多数見えるようになる。スコープを一定に保持することは、大小にかかわらず粒の同じ個数が入るように箱の大きさを調整することに相当する。例えば、ワープロソフト等で、スライドバーを用いて表示領域を変化させることは、粒度の変化に相当しない。また、文字の拡大・縮小は、同じ画面サイズで行ったのであれば、粒度の変化に相当しない。しかし、文章および周辺の文字が消え、１つの文字のストローク形状を意識する程度の拡大または文字は見えないが文章のフォーマットが見えるようになる程度の縮小は、粒度の変化に相当する。また、本発明で利用する情報粒度は、例えば、人に関しては「所属−氏名−ニックネーム−顔画像−プロフィール」等となり、同一の人に関する異なる内容とその順番に相当する。

以上のように、情報検索に粒度という概念を用いることにより、時間や人、内容等に関連するキーワードを、例えば、「いつ頃の誰に関係した何に関する仕事」といった自由文を検索文として入力することが可能になり、同時に、検索の曖昧さを粒度情報として数値レベルで抽出することが可能になる。このとき、上記のように、自由検索文は、例えば、タスクレベル粒度や時間粒度、人名粒度、キーワードに分解されるとともに、それぞれの粒度概念についての検索粒度が決定される。さらに、分解された検索内容および検索内容に付随する検索粒度に基づいて、表示すべき情報粒度を決定し、表示領域の大きさや画面の解像度、つまり、表示粒度を勘案して適切な粒度を自動的に選択して表示し、過度な情報を抑制し、一覧性の高い情報表示を実現することも可能である。

次に、図１の情報検索装置１００の動作を説明する。

本発明に係る情報検索装置１００の動作は、２つの処理系統に大別することができる。１つ目は、ユーザの作業を常に監視してユーザが行った作業を逐次自動で記録する処理（以下「記録系処理」と略記する）であり、２つ目は、ユーザからの検索指示があった時点で、記録された作業を検索して適切に表示する処理（以下「検索系処理」と略記する）である。また、記録系処理と検索系処理とは、互いに独立な処理であり、並行して行われる。そこで、情報検索装置１００の動作を記録系処理と検索系処理とに分けて説明することにする。

まず、記録系処理について説明する。図３は、情報検索装置１００の記録系処理を示すフローチャートである。

まず、ステップＳ１０００では、各種アプリケーション処理部２０２からユーザへの操作要求、例えば、リストの選択・編集や新規メッセージの作成要求等があるかどうかを判断する。その判断の結果、ユーザへの操作要求があると判断されたとき（Ｓ１０００：ＹＥＳ）はステップＳ１１００へ進み、ユーザへの操作要求がないと判断されたとき（Ｓ１０００：ＮＯ）は、操作要求があるまで待機する。

そして、ステップＳ１１００では、各種アプリケーション処理部２０２からの操作要求を受けたユーザの操作により、各種アプリケーション処理部２０２における電子ファイルを扱う各種処理のうち指定された１つの処理である作業が行われる。上記のように、各種アプリケーション（ソフトウェア）は、例えば、メーラやスケジューラ、ワープロ、表計算ソフト等である。また、上記のように、各種アプリケーション処理部２０２で処理された電子ファイルは、電子ファイルＤＢ２２２に格納される。

そして、ステップＳ１２００では、各種アプリケーション処理部２０２からの作業の終了通知があるかどうかを判断する。そして、その判断の結果、作業の終了通知があると判断された場合（Ｓ１２００：ＹＥＳ）はステップＳ１３００へ進み、作業の終了通知がないと判断された場合（Ｓ１２００：ＮＯ）はステップＳ１１００へ戻る。ここで、各種アプリケーション処理部２０２からの作業の終了通知は、ユーザによる各種アプリケーションの終了により行われるようにしてもよいし、作業時間中のユーザの操作により行われるようにしてもよい。さらに、作業時間中に逐次自動で行われるようにしても勿論よい。

そして、ステップＳ１３００では、制御部２１８は、各種アプリケーション処理部２０２からの作業の終了通知を受けて、名付け／索引付け部２０６に対し、作業の終了通知に係る電子ファイルへの名付け／索引付けの要求を行う。

そして、ステップＳ１４００では、名付け／索引付け部２０６は、制御部２１８からの名付け／索引付け要求を受けて、電子ファイルＤＢ２２２から、対応する電子ファイルを取得し、取得した電子ファイルを各種の粒度概念に基づいて名付け／索引付けする。ここで、名付け／索引付け処理について、図４のフローチャートを用いて詳細に説明する。図４は、名付け／索引付け処理を示すフローチャートである。なお、ここでは、名付け／索引付けの対象は、文書（メッセージの１つ）集合であるものとする。

まず、ステップＳ１４１０では、名付け／索引付け部２０６は、制御部２１８からの名付け／索引付け要求を受けて、電子ファイルＤＢ２２２から、対応する電子ファイルを取得する。

そして、ステップＳ１４２０では、電子ファイルＤＢ２２２から取得した各種の文書である電子ファイルをテキストファイル形式に変換する。

そして、ステップＳ１４３０では、形態素解析を行う。すなわち、ステップＳ１４２０でテキストファイル形式に変換された各種の文書である電子ファイルを形態素、つまり、文書中で変化しない最小単位の単語に分割する。

そして、ステップＳ１４４０では、形態素解析した各種の文書である電子ファイルから共通ポップアップ単語の抽出を行う。ここで、共通ポップアップ単語の抽出について、図５のフローチャートを用いて詳細に説明する。図５は、共通ポップアップ単語抽出処理を示すフローチャートである。

まず、ステップＳ１４４１では、文書毎の単語の出現頻度を計算する。ここでは、簡単化のために、表１のように、文書１〜文書５と単語１〜単語５を対象とした例を示す。

例えば、文書１には、単語１〜単語５が、それぞれ３、２、０、５、３回出現している。

そして、ステップＳ１４４２では、全ての文書（文書１〜文書５）に共通の単語の出現頻度を計算する。具体的には、表２のように、対象となる文書１〜文書５に出現する単語の出現頻度、つまり、表１の各列に関する最小値を計算する。

例えば、単語１の全ての文書に共通の出現頻度、つまり、単語１の列に関する最小値は２であり、単語２の全ての文書に共通の出現頻度、つまり、単語２の列に関する最小値は０である。

そして、ステップＳ１４４３では、表３のように、対象となる文書１〜文書５に出現する単語の平均出現頻度、つまり、表１の各列に関する平均値を整数化（例えば、四捨五入）したものを計算する。

なお、整数化の手法は四捨五入に限定されず、例えば、切り上げ、切り下げ、または、閾値の設定等の手法を用いてもよい。さらに、整数化せずに小数のまま平均出現頻度を計算するようにしてもよい。

そして、ステップＳ１４４４では、表４のように、ステップＳ１４４１で計算した単語の出現頻度とステップＳ１４４３で計算した単語の平均出現頻度との差分を算出して、負数を０とする。

そして、ステップＳ１４４５では、ステップＳ１４４４の減算の結果、非負数となる単語を、その文書のポップアップ単語として抽出する。例えば、単語４と単語５を、文書１のポップアップ単語として抽出し、単語１と単語３を、文書５のポップアップ単語として抽出する。

そして、ステップＳ１４４６では、共通ポップアップ単語を抽出する。具体的には、共通ポップアップ単語を少なくとも一つ含むなるべく大きな文書集合を計算し、つまり、それ以上文章を追加すると共通なポップアップ単語がなくなるまで多くの文書を取り込んで、当該ポップアップ単語を、当該文書集合における共通ポップアップ単語とする。例えば、表４の文書集合においては、単語４が、文書１、文書３および文書４の共通ポップアップ単語となり、単語５が、文書１および文書２の共通ポップアップ単語となり、単語１が、文書３および文書５の共通ポップアップ単語となり、単語３が、文書４および文書５の共通ポップアップ単語となる。このように、５つの文書が、４つのカテゴリに多重に分けられる。

ただし、対象とする文書の数が数十を越すような場合において、共通ポップアップ単語によるカテゴリの分類をすべて見つけるためには計算時間がかかり過ぎる。実際、可能なすべての分類を見つけるには、文書数に関して指数的な組み合わせを調べる必要がある。そこで、次の方法により、一部の典型的な分類を効率的に見つける。対象の文書集合全体に関してそれぞれの文書を調べる順番を１つ定め、その順に文書を調べ、共通ポップアップ単語が存在する限り、文書を追加する。ここで、共通ポップアップ単語が無くなるような追加は行わず次の文書を追加する。このような手順を決められた回数の順番に関して行うことで、複数の分類と共通ポップアップ単語を効率的に見つけることができる。

より詳細には、まず、第１のステップとして、検査順序の決定を行う。すなわち、名付け／索引付けの対象である文書集合全体に関してそれぞれの文書を調べる順番を１つ定める。そして、第２のステップとして、文書の追加を行う。すなわち、決定した検査順序の順番で文書を調べ、共通ポップアップ単語が存在する限り文書を追加する。そして、第３のステップとして、分類結果と共通ポップアップ単語の出力を行う。すなわち、追加した文書の分類結果と共通ポップアップ単語の出力を行う。そして、第１のステップ〜第３のステップ、つまり、検査順序の決定、文書の追加および分類結果と共通ポップアップ単語の出力を指定回数行うことにより共通ポップアップ単語の抽出を行う。ここで、指定回数は、ユーザの操作により設定することができる。

そして、ステップＳ１４４７では、分類の絞り込みを行う。分類の絞り込みを行う理由は、ステップＳ１４４６の共通ポップアップ単語の抽出過程で決定した検査順序によってはあまりに多くの分類（共通ポップアップ集合を一つは有する文章集合で互いに重複するもの）が見つかるからである。尤も、対象とする文書数が、例えば、１０程度までであれば、すべての順序を試すことですべての分類を見つけても問題はないが、多くの場合、すべての文書が、発見された分類の少なくとも１つに入ることが保証されれば十分である。

ステップＳ１４４７で行う分類の絞り込みには、例えば、「欲張り法」を用いることができる。「欲張り法」とは、全体的な最善の利益を得る方策を考えるのではなく目先の利益を優先し、結果としてある程度よい全体的利益を得る方策のもので、本処理では以下の処理を行うことにより分類の絞り込みを行う。すなわち、第１のステップとして、最も多くの文書を含む分類（最大の分類）を選ぶ。そして、第２のステップとして、ステップ１の分類に含まれなかった文書を最も多く含む別の分類を選ぶ。そして、第３のステップとして、ステップ１およびステップ２の分類に含まれなかった文書を最も多く含む３つ目の分類を選ぶ。そして、第４のステップとして、ステップ１〜ステップ３までの操作をすべての文書がいずれかの分類に含まれるまで行う。

そして、ステップＳ１４５０では、ユーザに対して提示する電子ファイルの名前／索引候補を選定する。名前／索引候補には、例えば、ステップＳ１４４０で抽出した共通ポップアップ単語を用いる。

そして、ステップＳ１４６０では、電子ファイルの名前／索引を決定する。具体的には、ユーザが、例えば、ステップＳ１４５０で選定された電子ファイルの名前／索引候補をただ単に選択することにより、または、電子ファイルの名前／索引候補を修正することにより、または、別の名前／索引を入力することにより、名前／索引を決定する。

そして、ステップＳ１４７０では、制御部２１８は、ステップＳ１４６０で決定した名前／索引により電子ファイルを名付け／索引付けして、結果（名前／索引）を作業記録ＤＢ２２４へ出力する。

そして、ステップＳ１５００では、作業記録ＤＢ２２４に、制御部２１８からの登録要求を受けて、名付け／索引付け部２０６の結果（名前／索引候補）を基にユーザが編集し確定した名前／索引を含むデータ（作業記録）が、時計２３４から入力した時刻を含めて登録する。

次に、記録系処理の具体例について図６を用いて説明する。図６は、受信した約８００通のメールを本発明に係る情報検索装置により名付け／索引付けして作業記録ＤＢ２２４に登録した例を示す図である。なお、整数化の閾値は０.８であり、共通ポップアップ単語数は３であり、分類指標はＤ（日付）、Ｐ（人）およびＫ（キーワード）である。

最上段に表示された「Ｋ０：［２００］北海道支局総務協力」は、「北海道支局総務協力」の共通ポップアップ単語を含むメールが２００通検索されたことを示している。また、最下段に表示された「ＤＫ４６：［３］日付：２００３年経理７月」は、「日付：２００３年経理７月」の共通ポップアップ単語を含むメールが３通検索されたことを示している。

また、最上段に表示されたメールと上から２段目に表示されたメールとは、「北海道支局総務」という共通ポップアップ単語を含んでいる。従って、「北海道支局総務」という共通ポップアップ単語に基づいて、同一のメールを異なる視点から表示することができる。同様に、上から３段目に表示されたメールと上から６段目に表示されたメールとは、「ホームページ掲載」という共通ポップアップ単語を含んでいる。従って、「ホームページ掲載」という共通ポップアップ単語に基づいて、同一のメールを異なる視点から表示することができる。

また、名付け／索引付けの候補としては、例えば、最上段に表示されたメールについては、「北海道支局と総務と協力」が、上から６段目に表示されたメールについては、「日付：２００４年と受信：who@www.dummy.comと送信」が名付けとキーワードの候補になる。

上記のように、逐次記録されたメッセージは、プログラムにより分析され、適切に重複分類され、分類グループ毎に、共通ポップアップ単語および共通出現単語が抽出される。ここでは、ユーザに、ポップアップ単語を「と」で結んだものを名前候補として新しいウインドウで表示する。ユーザは、名前／索引候補を見て、適切な別の名前の付与、索引語の追加、削除または変更をしてその分類グループの名付け／索引付けをする。そして、名付け／索引付けが終了したグループは、新しいタスクとして表示されるのである。

以上のように、それぞれの共通ポップアップ単語は、内容、関連した人、作業時間等で索引付けされるため、同一のメッセージ集合やタスク集合を複数の異なる視点から分類することが可能になる。また、自動分類の結果として、ユーザが気付かない視点からの有効な分類方法が発見される可能性がある。

なお、ここでは、名付け／索引付け処理で、抽出される共通ポップアップ単語は１つであったが、本発明はこれに限定されない。例えば、共通ポップアップ単語として抽出されるポップアップ単語を複数に指定してもよい。具体的には、表４の文書集合において、共通ポップアップ単語として抽出されるポップアップ単語数を２つと指定してもよい。この場合においては、単語４および単語５が、文書１および文書４の共通ポップアップ単語となり、単語１および単語４が、文書３の共通ポップアップ単語となり、単語３、単語４および単語５が、文書４の共通ポップアップ単語となり、単語１および単語３が、文書５の共通ポップアップ単語となる。従って、より限定的なポップアップ単語が、名前／索引候補として抽出され、共通ポップアップ単語が、文書集合に対して名付け／索引付けされる。なお、この例においては、文書２が名付け／索引付けされないが、通常のアプリケーションにおいては、全ての文書は、いずれかのキーワードにより名付け／索引付けされる。

また、共通ポップアップ単語を増加させることおよび減少させることは、それぞれ、名付け／索引付けの要求粒度を細かくすることおよび粗くすることに相当する。例えば、共通ポップアップ単語を増加させると、より狭い話題で共通性が高い小数のファイルがまとまり、他方、共通ポップアップ単語を減少させると、より広い話題で共通性が低い多数のファイルがまとまることになる。

なお、ここでは、抽出した共通ポップアップ単語で名付け／索引付けすること、または、ユーザの直接入力により文書集合を分類するようにしたが、本発明はこれに限定されない。例えば、抽出した共通ポップアップ単語に頻出共通単語を加えてユーザに提示することで、名付け／索引付けすることを補助するようにしてもよい。この場合、ユーザは、提示された用語を連言として名付け／索引付けしてもよいし、それらの用語から想起される別の包括的な新しい用語で名付け／索引付けしてもよいので、後に説明する検索系処理時に想起される検索語と同一の用語を用いる可能性が高まり、従って、照合の成功率を高めることが可能になる。

次に、検索系処理について説明する。図７は、情報検索装置１００の検索系処理を示すフローチャートである。

まず、ステップＳ２０００では、ユーザからの検索文の入力があるかどうかを判断する。その判断の結果、検索文の入力があると判断されたとき（Ｓ２０００：ＹＥＳ）は、ステップＳ２１００へ進み、検索文の入力がないと判断されたとき（Ｓ２０００：ＮＯ）は、検索文の入力があるまで待機する。

そして、ステップＳ２１００では、ステップＳ２０００でユーザが入力した検索文を粒度分解する。ここで、粒度分解について、図８のフローチャートを用いて詳細に説明する。図８は、粒度分解処理を示すフローチャートである。なお、ユーザが入力した検索文は、例えば、「昨年の８月頃行った検査に関してＡ社のＫさんとした仕事は？」であるとして説明する。

まず、ステップＳ２１１０では、時間表現辞書ＤＢ２２６を参照して、検索文の時間粒度を決定する。すなわち、検索文の中から時間の概念を表現する単語、例えば、「昨年」や「８月」、「頃」を抽出し、時間表現辞書ＤＢ２２６に格納された時間粒度の概念を表現する単語と照合して検索文の時間粒度を決定する。また、上記のように、時間表現辞書ＤＢ２２６には、例えば、「年−月−日−時−分−秒」のように、時間の概念を段階的に表現した単語が格納されている。

そして、ステップＳ２１２０では、タスクレベル表現辞書ＤＢ２２８を参照して、検索文のタスクレベル粒度を決定する。すなわち、検索文の中からタスクレベルの概念を表現する単語、例えば、「仕事」や「関する」を抽出し、タスクレベル表現辞書ＤＢ２２８に格納されたタスクレベル粒度の概念を表現する単語と照合して検索文のタスクレベル粒度を決定する。また、上記のように、タスクレベル表現辞書ＤＢ２２８には、例えば、「セッション−タスク−メッセージ」のように、タスクレベルの概念を段階的に表現した単語が格納されている。

そして、ステップＳ２１３０では、人名表現辞書ＤＢ２３０を参照して、検索文の人名粒度を決定する。すなわち、検索文の中から人名の概念を表現する単語、例えば、「Ｋさん」や「苗字名前」、「Ａ社」を抽出し、人名表現辞書ＤＢ２３０に格納された人名粒度の概念を表現する単語と照合して検索文の人名粒度を決定する。また、上記のように、人名表現辞書２３０には、例えば、「所属−氏名−ニックネーム−プロフィール」のように、人名の概念を段階的に表現した単語が格納されている。

なお、ステップＳ２１１０〜ステップ２１３０の順序は、これに限定されず、自由に変更可能である。

また、ここでは、粒度の概念を表現する単語を格納する辞書として、時間表現辞書ＤＢ２２６、タスクレベル表現辞書ＤＢ２２８および人名表現辞書ＤＢ２３０を用いたが、本発明はこれに限定されない。例えば、「年齢」や「身長」、「体重」その他の様々な概念を表現する単語を格納する辞書を用いるようにしてもよい。

なお、ここでは、３つの辞書データベースを用いたが、本発明はこれに限定されない。例えば、用いる辞書データベースは単数または複数であってもよく、その数は限定されない。

また、上記のように、時間表現辞書ＤＢ２２６、タスクレベル表現辞書ＤＢ２２８および人名表現辞書ＤＢ２３０に格納された単語の粒度の概念は、検索者独自の漠然とした関係性や思考を示すものである。従って、ユーザは、入力装置１００を用いて、時間表現辞書ＤＢ２２６、タスクレベル表現辞書ＤＢ２２８および人名表現辞書ＤＢ２３０に格納する単語を自由に変更、追加または削除可能である。

そして、ステップＳ２１４０では、検索文のキーワードを抽出する。すなわち、ユーザが入力した検索文を形態素、つまり、検索文中で変化しない最小単位の単語に分割し、キーワードＤＢ２３２に格納されたキーワードと照合して検索文のキーワードを抽出する。

そして、ステップＳ２１５０では、検索語と粒度を決定する。すなわち、ステップＳ２１１０〜ステップＳ２１４０において、決定または抽出された各種粒度およびキーワードを、粒度分解された検索文の検索語として決定する。

そして、ステップＳ２２００では、制御部２１８は、検索エンジン２１０に対して、ステップＳ２１５０で決定した粒度分解された検索文の検索語を含む検索要求（粒度付き検索要求）を行う。

そして、ステップＳ２３００では、検索エンジン２１０は、制御部２１８からの粒度付き検索要求を受けて、作業記録ＤＢ２２４にアクセスし、作業記録ＤＢ２２４から、粒度付き検索要求に対応する作業記録（検索結果）を取得する。

そして、ステップＳ２４００では、制御部２１８は、粒度分析部２１２に対して、ステップＳ２３００で取得した作業記録（検索結果）を含む表示要求を行う。

そして、ステップＳ２５００では、粒度分析部２１２は、制御部２１８からの作業記録（検索結果）付き表示要求および入力Ｉ／Ｆ２０２からのユーザの表示粒度調整指示を受けて、検索エンジン２１０の検索結果の粒度分析、つまり、基本表示形式の選択と基本表示粒度の決定を行う。ここで、粒度分析について、図９のフローチャートを用いて詳細に説明する。図９は、粒度分析処理を示すフローチャートである。

まず、ステップＳ２５１０では、粒度分解された検索文の検索語のセッションやタスク、メッセージレベルの選択を行う。すなわち、粒度分解された検索語の粒度の概念の段階を選択する。

そして、ステップＳ２５２０では、入力Ｉ／Ｆ２０２からのユーザの表示粒度調整指示を受けて、作業記録（検索結果）の各種の表示粒度の調整、つまり、基本表示形式の選択と基本表示粒度の決定を行う。基本表示形式とは、表示情報を出力装置３００へ出力するときの形式であり、例えば、アイコンの表示方法や音声出力の有無および大小がこれに相当する。基本表示粒度とは、段階的な表示粒度の内、基本となる表示粒度であり、例えば、時間表現に係る表示粒度が「時刻」を基本として、「年−月−日−時−分−秒」のように表示粒度の調整を行う場合の「時刻」がこれに相当する。

そして、ステップＳ２６００では、レイアウトマネージャ２１４は、検索エンジン２１０の検索結果のレイアウト（表示レイアウト）を設定するとともに、粒度分析部２１２から入力した粒度分析結果に対して表示粒度の調整を行う。具体的には、出力装置（表示装置）３００の表示粒度（表示領域の大きさや画面の解像度）が異なる環境においても、検索エンジン２１０の検索結果が適切に表示されるように、表示粒度を調整する。これにより、表示粒度に応じたリストの選択や内容の表示が可能になる。

そして、ステップＳ２７００では、出力装置３００が、検索エンジン２１０の検索結果および各種アプリケーション処理部２０２の処理結果を、出力Ｉ／Ｆ２１６を経由して表示する。

次に、本発明をユーザインターフェースとして実現した際の出力装置に出力される画面例について説明する。

図１０（Ａ）は、本発明をユーザインターフェースとして用いた場合のメッセージレベルの画面を示す図であり、図１０（Ｂ）は、図１０（Ａ）の画面の粒度調整ボタンを調整して表示粒度を変化させた場合の画面を示す図である。なお、ユーザが入力した検索文は、「先月特許太郎さんとやりとりしたメールは？」であるとする。

図１０および後述する図１１において、細かい網掛けのボタン（以下「ズームアップボタン」と略記する）を押すことにより、表示粒度を細かくすることが可能になり、粗い網掛けのボタン（以下「ズームアウトボタン」と略記する）を押すことにより、表示粒度を粗くすることが可能になる。また、ズームアップボタンとズームアウトボタンとの間に表示されている数字は、現在の表示粒度を示しており、ユーザは、表示粒度の範囲内において、情報粒度を変化させることができる。すなわち、ズームアップボタンおよびズームアウトボタンを調節することにより、表示粒度を細かくまたは粗くすることで、異なるレベルの情報を選択的に表示可能なユーザインターフェースを実現することができる。

図１０（Ａ）の画面において、「メッセージ」のズームアウトボタンを１回押すと、図１０（Ｂ）の画面が表示され、「メッセージ」に関する表示粒度が「１」下がる。

図１１（Ａ）は、本発明をユーザインターフェースとして用いた場合のタスクレベルの画面を示す図であり、図１１（Ｂ）は、図１１（Ａ）の画面の粒度調整ボタンを調整して表示粒度を変化させた場合の画面を示す図である。なお、ユーザが入力した検索文は、「昨年の８月頃行ったＡ社の仕事は？」であるとする。

図１１（Ａ）の画面において、「人」のズームアウトボタンを１回押し、「メッセージ」のズームアップボタンを１回押すと、図１１（Ｂ）の画面が表示され、「人」に関する表示粒度が「１」下がり、「メッセージ」に関する表示粒度が「１」上がる。

上記のように、本発明の特徴は、ユーザの作業を、例えば、「セッション−タスク−メッセージ」に段階的に分類することにより、検索時の意図、例えば、時間の概念による検索、目的の概念による検索または内容の概念による検索をそれぞれセッションレベル、タスクレベルまたはメッセージレベルで表示し、検索者の意図に適合した情報検索を可能にするものである。

このように、本実施の形態の情報検索装置によれば、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、かつ、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができる。

本発明に係る情報検索装置は、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、さらに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができ、情報検索装置、情報検索方法および情報検索プログラムとして有用である。

情報検索装置の構成を示すブロック図（Ａ）時刻についての検索粒度、情報粒度および表示粒度に基づいた粒度表を示す図、（Ｂ）人についての検索粒度、情報粒度および表示粒度に基づいた粒度表を示す図、（Ｃ）画像についての検索粒度、情報粒度および表示粒度に基づいた粒度表を示す図情報検索装置の記録系処理を示すフローチャート名付け／索引付け処理を示すフローチャート共通ポップアップ単語抽出処理を示すフローチャート受信した約８００通のメールを本発明に係る情報検索装置により名付け／索引付けして作業記録ＤＢに登録した例を示す図情報検索装置の検索系処理を示すフローチャート粒度分解処理を示すフローチャート粒度分析処理を示すフローチャート（Ａ）本発明をユーザインターフェースとして用いた場合のメッセージレベルの画面を示す図、（Ｂ）画面の粒度調整ボタンを調整して表示粒度を変化させた場合の画面を示す図（Ａ）本発明をユーザインターフェースとして用いた場合のタスクレベルの画面を示す図、（Ｂ）画面の粒度調整ボタンを調整して表示粒度を変化させた場合の画面を示す図

符号の説明

１０情報検索装置
１００入力装置
２００コンピュータ本体
２０２各種アプリケーション処理部
２０４入力Ｉ／Ｆ
２０６名付け／索引付け部
２０８粒度分解部
２１０検索エンジン
２１２粒度分析部
２１４レイアウトマネージャ
２１６出力Ｉ／Ｆ
２１８制御部
２２０バス
２２２電子ファイルＤＢ
２２４作業記録ＤＢ
２２６時間表現辞書ＤＢ
２２８タスクレベル表現辞書ＤＢ
２３０人名表現辞書ＤＢ
２３２キーワードＤＢ
２３４時計
３００出力装置

Claims

ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するキーワード抽出手段と、
抽出されたキーワードを対応する作業と関連付けて概念レベル別に作業記録として記憶する作業記録記憶手段と、
を有する情報検索装置。
入力された検索文を解析して概念レベルに分解された検索語を抽出する検索語抽出手段と、
抽出された検索語を用いて、前記作業記録記憶手段にアクセスして前記抽出された検索語に対応する概念レベルで検索を行う検索手段と、
をさらに有する請求項１記載の情報検索装置。
前記検索手段の検索結果を分析して前記検索結果を出力する概念レベルを決定する出力概念レベル決定手段と、
決定された出力概念レベルで前記検索結果を外部に出力する出力手段と、
をさらに有する請求項２記載の情報検索装置。
前記キーワード抽出手段は、
ユーザの作業結果をテキストファイルに変換する手段と、
変換後のテキストファイルを最小単位の単語に分解する手段と、
単語に分解された複数のテキストファイルに共通に含まれる前記最小単位の単語を共通単語として抽出する手段と、
抽出した共通単語をキーワードとして前記複数のテキストファイルの集合に付与する手段と、を有し、
前記複数のテキストファイルの集合に付与されるキーワードは、集合別に、複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで表現されている、
請求項１記載の情報検索装置。
前記検索語抽出手段は、
入力された検索文に含まれる時間概念表現、タスクレベル概念表現、および／または人名概念表現の概念レベルをそれぞれ決定する手段と、
前記入力された検索文に含まれる、決定された概念レベルに対応する検索語を抽出する手段と、
を有する請求項２記載の情報検索装置。
検索者独自の漠然とした関係性および思考の各種の概念を示す単語を辞書として記憶する辞書記憶手段、をさらに有し、
前記検索語抽出手段は、
前記辞書記憶手段にアクセスして、概念レベルに分解された検索語の抽出を行う、
請求項２記載の情報検索装置。
前記出力概念レベル決定手段は、
前記検索手段の検索結果に対応する概念レベルを選択する手段と、
選択された概念レベルおよびユーザによる指示に基づいて、前記検索結果を出力する概念レベルを決定する手段と、
を有する請求項３記載の情報検索装置。
決定された出力概念レベルを、前記出力手段の物理的制約条件に応じて調整する出力概念レベル調整手段、
をさらに有する請求項３記載の情報検索装置。
前記作業は、ユーザにより操作されるアプリケーションにおける全ての処理である、請求項１記載の情報検索装置。
ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するステップと、
抽出したキーワードを対応する作業と関連付けて概念レベル別に作業記録として作業記録記憶手段に記憶するステップと、
を有する情報検索方法。
入力した検索文を解析して概念レベルに分解した検索語を抽出するステップと、
抽出した検索語を用いて、前記作業記録記憶手段にアクセスして前記抽出した検索語に対応する概念レベルで検索を行うステップと、
検索の結果を分析して前記検索結果を出力する概念レベルを決定するステップと、
決定した出力概念レベルで前記検索結果を外部に出力するステップと、
をさらに有する請求項１０記載の情報検索方法。
ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するステップと、
抽出したキーワードを対応する作業と関連付けて概念レベル別に作業記録として作業記録記憶手段に記憶するステップと、
をコンピュータに実行させる情報検索プログラム。
入力した検索文を解析して概念レベルに分解した検索語を抽出するステップと、
抽出した検索語を用いて、前記作業記録記憶手段にアクセスして前記抽出した検索語に対応する概念レベルで検索を行うステップと、
検索の結果を分析して前記検索結果を出力する概念レベルを決定するステップと、
決定した出力概念レベルで前記検索結果を外部に出力するステップと、
をさらにコンピュータに実行させる請求項１２記載の情報検索プログラム。