JP2007018350A - 情報検索装置、情報検索方法および情報検索プログラム - Google Patents
情報検索装置、情報検索方法および情報検索プログラム Download PDFInfo
- Publication number
- JP2007018350A JP2007018350A JP2005200295A JP2005200295A JP2007018350A JP 2007018350 A JP2007018350 A JP 2007018350A JP 2005200295 A JP2005200295 A JP 2005200295A JP 2005200295 A JP2005200295 A JP 2005200295A JP 2007018350 A JP2007018350 A JP 2007018350A
- Authority
- JP
- Japan
- Prior art keywords
- search
- concept
- work
- granularity
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】 コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現するとともに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現すること。
【解決手段】 コンピュータ上でのユーザのすべての作業が作業記録DB224に記録される。ユーザの複数の電子ファイルに関する一つの作業が終了する度に、名付け/索引付け部206は、作業結果である電子ファイルから各種の粒度概念に基づく名前/索引候補を選定する。この選定結果に基づいて、検索時にユーザが検索文を入力すると、粒度分解部208は、検索文を粒度分解して、ユーザの意図に合った粒度の検索語を抽出し、検索エンジン210は、粒度分解された検索語を用いて作業記録DB224にアクセスして検索を行う。また、ユーザが指定した粒度に従って記録を表示する。
【選択図】 図1
【解決手段】 コンピュータ上でのユーザのすべての作業が作業記録DB224に記録される。ユーザの複数の電子ファイルに関する一つの作業が終了する度に、名付け/索引付け部206は、作業結果である電子ファイルから各種の粒度概念に基づく名前/索引候補を選定する。この選定結果に基づいて、検索時にユーザが検索文を入力すると、粒度分解部208は、検索文を粒度分解して、ユーザの意図に合った粒度の検索語を抽出し、検索エンジン210は、粒度分解された検索語を用いて作業記録DB224にアクセスして検索を行う。また、ユーザが指定した粒度に従って記録を表示する。
【選択図】 図1
Description
本発明は、情報検索装置、情報検索方法および情報検索プログラムに関する。
近年、コンピュータ内のファイルを検索する種々の情報検索技術が提案されている。従来の情報検索方法として、例えば、特許文献1および特許文献2に記載されているものがある。
特許文献1記載の方法では、入力文書と文書集合とを対比して文字列の特徴量を計算・評価することにより抽出した特徴文字列を使用して情報検索を行い、検索した文書を評価順に並べ替えるようにしている。
また、特許文献2記載の方法では、入力された検索文の構造と文書データベース内の文書クラスタのクラスタ構造との類似度を計算して、最も類似するクラスタ構造に対応づけられた文書データベース内の文書クラスタから類似文書を検索するようにしている。
特開平9−293077号公報
特開2001−84252号公報
しかしながら、特許文献1記載の方法においては、検索の対象は、コンピュータ内の文書集合であるため、文書集合以外のファイル、例えば、表計算ファイルやhtmlファイル、スケジュール等は検索の対象にならず、これらのファイルに対しては所望の検索を行うことができないという問題がある。
また、特許文献2記載の方法においては、検索の対象は、文書の全文であるため、検索者が与えるキーワードは、厳密にファイルに記載されたものでなくてはならず、十分な検索精度を得られないという問題がある。
さらに、特許文献1および特許文献2記載の方法はそれぞれ、ファイルの内容に関して検索語と対応したものを検索するものであるが、各ファイルに関する作業記録を保存しているわけではないため、検索として、例えば、「何々の作業に関して扱ったファイルは?」という質問ができない。また、同一の作業目的の下で取り扱われた複数のファイルを一括に検索できないという問題がある。
通常、ユーザは、特定の目的および特定の相手に対して複数の電子ファイルを扱う。従って、複数のファイルを同一の目的の下で扱った、あるいは、特定の相手とやりとりを行った、という事実を記録することが事後の検索において有効となる。また、検索者は、電子ファイル内に記載されている単語ではなく、検索者独自の漠然とした関係性や思考を示すキーワード、例えば、作業内容や作業の期間、作業にかかわった人名等(以下「作業内容キーワード」と略記する)を、情報検索のためのキーワードとして与えることが多い。従って、作業内容キーワードを積極的に扱うことにより、検索者の意図に適合した情報検索を実現する情報検索方法が要求されている。
なお、本明細書において、作業とは、ユーザの操作による各種アプリケーションにおける全ての処理、例えば、メーラやスケジューラ、ワープロ、表計算ソフト等を用いた電子ファイルを扱う処理の全てを意味する。
本発明は、かかる点に鑑みてなされたものであり、コンピュータ内のあらゆるファイルに対して、作業履歴として高精度な情報検索を実現するとともに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができる情報検索装置、情報検索方法および情報検索プログラムを提供することを目的とする。
本発明に係る情報検索装置は、ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するキーワード抽出手段と、抽出されたキーワードを対応する作業と関連付けて概念レベル別に作業記録として記憶する作業記録記憶手段と、を有する。
本発明によれば、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現するとともに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができる。特に、前者については、より具体的に、コンピュータ内のあらゆるファイルに対して行われた作業を記録することで、一つの目的に沿って扱われた複数のファイル、あるいは、ある時期もしくはある日付、またはある人とのやりとりにおいて扱われたファイルを、それぞれ高精度に検索することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
本発明者は、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、さらに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現するためには、ユーザの作業を逐次自動で記録し、記録した作業の中から検索者独自の曖昧さを示すキーワードを統一的に扱って情報検索を行うことが必要であることを見出した。また、検索者独自の曖昧さを示すキーワードを統一的に扱って情報検索を行うためには、記録した作業およびキーワードを概念上段階的に表現した粒度という概念を用いて表現して情報検索を行うことが必要であることを見出したのである。
本発明者は、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、さらに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現するためには、ユーザの作業を逐次自動で記録し、記録した作業の中から検索者独自の曖昧さを示すキーワードを統一的に扱って情報検索を行うことが必要であることを見出した。また、検索者独自の曖昧さを示すキーワードを統一的に扱って情報検索を行うためには、記録した作業およびキーワードを概念上段階的に表現した粒度という概念を用いて表現して情報検索を行うことが必要であることを見出したのである。
本発明は、ユーザの操作によりコンピュータ内で処理される全ての作業を、粒度という概念に基づいて分類して逐次自動で記録し、検索者からの検索要求により、記録された作業を高精度に、かつ、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現するものである。
なお、本明細書において、粒度とは、時間や人間、ファイル等の概念を、検索者独自の漠然とした関係性や思考を示すキーワードに基づいて段階的に表現したものである。例えば、時間であれば、「年−月−日−時−分−秒」のようになり、人間であれば、「所属−氏名−ニックネーム−プロフィール」のようになり、ファイルであれば、「種類−ファイル名−タイトル−要約−本文」のようになる。ただし、当該段階的表現も検索者独自の曖昧さを含んだ表現である。粒度については、後に詳細に説明する。
図1は、本発明の一実施の形態に係る情報検索装置の構成を示すブロック図である。
図1の情報検索装置10は、大別して、入力装置100、コンピュータ本体200および出力装置300を有する。
入力装置100は、コマンドや文字入力、編集、ポインティング、音声入力等を行うためのキーボードやマウス、マイク等で構成されている。ユーザは、入力装置100を用いて、コンピュータ本体200に対して各種の操作を行う。
また、出力装置300は、画面に情報を表示するディスプレイ(表示装置)や、情報を音声で出力するスピーカ、情報を紙等に印刷するプリンタ等で構成されている。コンピュータ本体200の処理結果は、出力装置100に出力されて、ユーザに提供される。ここでは、出力装置300として、ディスプレイ(表示装置)を例にとって説明する。
コンピュータ本体200は、各種アプリケーション処理部202、入力インターフェース(以下「入力I/F」と略記する)204、名付け/索引付け部206、粒度分解部208、検索エンジン210、粒度分析部212、レイアウトマネージャ214、出力インターフェース(以下「出力I/F」と略記する)216、制御部218、バス220、電子ファイルデータベース(以下「電子ファイルDB」と略記する)222、作業記録データベース(以下「作業記録DB」と略記する)224、時間表現辞書データベース(以下「時間表現辞書DB」と略記する)226、タスクレベル表現辞書データベース(以下「タスクレベル表現辞書DB」と略記する)228、人名表現辞書データベース(以下「人名表現辞書DB」と略記する)230、キーワードデータベース(以下「キーワードDB」と略記する)232および時計234を有する。各部202〜218、222〜234は、バス220によって互いに接続されている。
各種アプリケーション処理部202は、メーラやスケジューラ、ワープロ、表計算ソフトその他の各種アプリケーション(ソフトウェア)の処理を行う。処理された電子ファイルは、電子ファイルDB222に格納される。
入力I/F204は、ユーザが、各種アプリケーション処理部202における各種アプリケーションの処理、情報検索時における検索文の入力および粒度調整ボタンを用いた表示粒度の調整要求を行うための方式を定めたものである。入力I/F204は、ユーザが情報検索時に入力した検索文を粒度分解部208へ出力し、ユーザが情報検索時に行った表示粒度の調整指示を粒度分析部212へ出力する。
名付け/索引付け部206は、制御部218からの名付け/索引付け要求を受けて、電子ファイルDB222から、対応する電子ファイルを取得し、取得した電子ファイルを各種の粒度概念、例えば、時間粒度やタスクレベル粒度、人名粒度等に基づいて名付け/索引付けして、結果(名前/索引候補)を制御部218へ出力する。この結果に基づいて作業記録が半自動的に行われ、作業記録DB224に登録される。
粒度分解部208は、入力I/F204から入力した検索文を粒度分解する。すなわち、入力I/F204から入力した検索文を形態素解析し、さらに、形態素解析した検索文を時間表現辞書DB226に格納された時間粒度、タスクレベル表現辞書DB228に格納されたタスクレベル粒度および人名表現辞書DB230に格納された人名粒度に基づいて分解して、指示された粒度に対応する検索語を出力する。粒度分解された検索語は、制御部218からの検索要求に含まれて(粒度付き検索要求)、検索エンジン210へ与えられる。
検索エンジン210は、制御部218からの粒度付き検索要求を受けて、作業記録DB224にアクセスし、作業記録DB224から、粒度分解された検索語に対応する作業記録を取得する。取得した作業記録(検索結果)は、制御部218からの表示要求に含まれて、粒度分析部212へ与えられる。
粒度分析部212は、制御部218からの表示要求および入力I/F204から入力したユーザの表示粒度調整指示を受けて、検索エンジン210の検索結果の粒度分析、つまり、基本表示形式の選択と基本表示粒度の決定を行う。粒度分析結果(表示形式と表示粒度)は、検索エンジン210の検索結果と共に、レイアウトマネージャ214へ出力される。
レイアウトマネージャ214は、検索エンジン210の検索結果の出力レイアウト(表示レイアウト)を設定するとともに、粒度分析部212から入力した粒度分析結果に対して表示粒度の調整を行う。具体的には、出力装置(表示装置)300の表示粒度(表示領域の大きさや画面の解像度)が異なる環境においても、検索エンジン210の検索結果が適切に表示されるように、表示粒度を調整する。これにより、表示粒度に応じたリストの選択や内容の表示が可能になる。表示粒度が調整されたレイアウト情報付き検索結果は、表示情報として、出力I/F216へ出力される。もちろん、各種アプリケーション処理部202の処理結果も、このレイアウトマネージャ214で出力レイアウトが設定された後、表示情報として出力I/F216へ出力される。
出力I/F216は、コンピュータ本体200で処理されレイアウトマネージャ214で出力レイアウトが設定された表示情報を出力するための方式を定めたものである。表示情報は、出力装置300へ出力される。
制御部218は、各種アプリケーション処理部202に対して、ユーザの操作、例えば、リストの選択・編集や新規メッセージの作成要求を行う。また、名付け/索引付け部206に対して、名付け/索引付け要求を行い、検索エンジン210に対して、作業記録DB224からどのような作業記録を取得するかについての粒度付き検索要求を行う。また、作業記録DB224に対して、作業記録の登録要求を行う。
電子ファイルDB222には、各種アプリケーション処理部202の処理結果である電子ファイルが格納される。
作業記録DB224には、制御部218からの登録要求を受けて、名付け/索引付け部206の結果(名前/索引候補)を基にユーザが編集し確定した名前および索引を含むデータ(作業記録)が、時計234から入力した時刻を含めて登録される。登録された作業記録は、検索時に、検索エンジン210からのアクセスを受ける。なお、検索結果は、制御部218へ出力される。
時間表現辞書DB226には、時間の粒度に応じた時間表現が格納され、タスクレベル表現辞書DB228には、タスクレベルの粒度に応じたタスクレベル表現が格納され、人名表現辞書DB230には、人名の粒度に応じた人名表現が格納されている。これらの辞書は、粒度分解部208によってアクセスされる。なお、時間表現辞書DB226、タスクレベル表現辞書DB228および人名表現辞書DB230に格納された単語の粒度の概念は、検索者独自の漠然とした関係性や思考を示すものである。従って、ユーザは、入力装置100を用いて、時間表現辞書DB226、タスクレベル表現辞書DB228および人名表現辞書DB230に格納する単語を自由に変更、追加または削除可能である。
キーワードDB232には、キーワードとして抽出されうる言葉が格納されている。キーワードDB232は、粒度分解部208によってアクセスされる。時刻の情報は、時計234によって与えられる。時刻の情報は、作業記録DB224へ与えられる。
ここで、本発明における重要な概念である粒度について説明する。
上記のように、粒度とは、時間や人間、ファイル等の概念を、検索者独自の曖昧さを示すキーワードに基づいて段階的に表現したものである。従って、粒度の概念は、一般的な検索において検索語を曖昧にするような否定的な情報を積極的に活用することを可能にする。すなわち、これまで情報検索において情報として扱われなかった検索の曖昧さを示す修飾語を積極的に利用することで、より適切な情報検索および検索者の意図したレベルでの情報の表示を行うことができ、情報検索の利便性と一覧性を高めることができるのである。
粒度の大小を示す直感的な例を、図2(A)〜図2(C)を用いて説明する。図2(A)〜図2(C)は、検索粒度、情報粒度および表示粒度に基づいた粒度表を示す図であり、特に、図2(A)は、時刻について表示した図であり、図2(B)は、人について表示した図であり、図2(C)は、画像について表示した図である。また、図中において、右にいく程粒度が高くなり、左にいく程粒度が低くなる。
図2(A)においては、情報粒度が「年−月−日−時−分−秒」であり、表示粒度が6である。検索語を「10日」として入力すると、情報粒度が「日」、表示粒度が「3」の情報を中心として各種の情報が表示される。
図2(B)においては、情報粒度が「所属−氏名−ニックネーム−顔画像−プロフィール」であり、表示粒度が5である。検索語を「特許太郎」として入力すると、情報粒度が「氏名」、表示粒度が「2」の情報を中心として各種の情報が表示される。
図2(C)においては、情報粒度が「種類−ファイル名−説明やキーワード−サムネイル−画像自体」であり、表示粒度が5である。検索語を「特許花子の運動会」として入力すると、情報粒度が「ファイル名」、表示粒度が「2」の情報を中心として各種の情報が表示される。
図2(A)〜図2(C)より、被写体の画像としての粒度は明確である。ここで、粒度に基づいた情報検索を実現するためには、スコープ(表示領域)を一定に保持する必要がある。すなわち、スコープが一定であるが故に粒度の変化に応じて被写体の画像が変化する。例えば、小さな粒が100個集まって大きな粒を作っているものを1つの箱に入れる場合を考える。この場合、大きな粒を10個見えるようにした場合と小さな粒を10個、つまり、大きな粒の1/10個を見えるようにする場合では箱の大きさが異なる。つまり、見ているものを拡大して小さな粒を見えるようにすると、スコープが一定であれば、大きな粒が見えなくなり、小さな粒が現われる。逆に、縮小すると小さな粒は見えなくなり、大きな粒が多数見えるようになる。スコープを一定に保持することは、大小にかかわらず粒の同じ個数が入るように箱の大きさを調整することに相当する。例えば、ワープロソフト等で、スライドバーを用いて表示領域を変化させることは、粒度の変化に相当しない。また、文字の拡大・縮小は、同じ画面サイズで行ったのであれば、粒度の変化に相当しない。しかし、文章および周辺の文字が消え、1つの文字のストローク形状を意識する程度の拡大または文字は見えないが文章のフォーマットが見えるようになる程度の縮小は、粒度の変化に相当する。また、本発明で利用する情報粒度は、例えば、人に関しては「所属−氏名−ニックネーム−顔画像−プロフィール」等となり、同一の人に関する異なる内容とその順番に相当する。
以上のように、情報検索に粒度という概念を用いることにより、時間や人、内容等に関連するキーワードを、例えば、「いつ頃の誰に関係した何に関する仕事」といった自由文を検索文として入力することが可能になり、同時に、検索の曖昧さを粒度情報として数値レベルで抽出することが可能になる。このとき、上記のように、自由検索文は、例えば、タスクレベル粒度や時間粒度、人名粒度、キーワードに分解されるとともに、それぞれの粒度概念についての検索粒度が決定される。さらに、分解された検索内容および検索内容に付随する検索粒度に基づいて、表示すべき情報粒度を決定し、表示領域の大きさや画面の解像度、つまり、表示粒度を勘案して適切な粒度を自動的に選択して表示し、過度な情報を抑制し、一覧性の高い情報表示を実現することも可能である。
次に、図1の情報検索装置100の動作を説明する。
本発明に係る情報検索装置100の動作は、2つの処理系統に大別することができる。1つ目は、ユーザの作業を常に監視してユーザが行った作業を逐次自動で記録する処理(以下「記録系処理」と略記する)であり、2つ目は、ユーザからの検索指示があった時点で、記録された作業を検索して適切に表示する処理(以下「検索系処理」と略記する)である。また、記録系処理と検索系処理とは、互いに独立な処理であり、並行して行われる。そこで、情報検索装置100の動作を記録系処理と検索系処理とに分けて説明することにする。
まず、記録系処理について説明する。図3は、情報検索装置100の記録系処理を示すフローチャートである。
まず、ステップS1000では、各種アプリケーション処理部202からユーザへの操作要求、例えば、リストの選択・編集や新規メッセージの作成要求等があるかどうかを判断する。その判断の結果、ユーザへの操作要求があると判断されたとき(S1000:YES)はステップS1100へ進み、ユーザへの操作要求がないと判断されたとき(S1000:NO)は、操作要求があるまで待機する。
そして、ステップS1100では、各種アプリケーション処理部202からの操作要求を受けたユーザの操作により、各種アプリケーション処理部202における電子ファイルを扱う各種処理のうち指定された1つの処理である作業が行われる。上記のように、各種アプリケーション(ソフトウェア)は、例えば、メーラやスケジューラ、ワープロ、表計算ソフト等である。また、上記のように、各種アプリケーション処理部202で処理された電子ファイルは、電子ファイルDB222に格納される。
そして、ステップS1200では、各種アプリケーション処理部202からの作業の終了通知があるかどうかを判断する。そして、その判断の結果、作業の終了通知があると判断された場合(S1200:YES)はステップS1300へ進み、作業の終了通知がないと判断された場合(S1200:NO)はステップS1100へ戻る。ここで、各種アプリケーション処理部202からの作業の終了通知は、ユーザによる各種アプリケーションの終了により行われるようにしてもよいし、作業時間中のユーザの操作により行われるようにしてもよい。さらに、作業時間中に逐次自動で行われるようにしても勿論よい。
そして、ステップS1300では、制御部218は、各種アプリケーション処理部202からの作業の終了通知を受けて、名付け/索引付け部206に対し、作業の終了通知に係る電子ファイルへの名付け/索引付けの要求を行う。
そして、ステップS1400では、名付け/索引付け部206は、制御部218からの名付け/索引付け要求を受けて、電子ファイルDB222から、対応する電子ファイルを取得し、取得した電子ファイルを各種の粒度概念に基づいて名付け/索引付けする。ここで、名付け/索引付け処理について、図4のフローチャートを用いて詳細に説明する。図4は、名付け/索引付け処理を示すフローチャートである。なお、ここでは、名付け/索引付けの対象は、文書(メッセージの1つ)集合であるものとする。
まず、ステップS1410では、名付け/索引付け部206は、制御部218からの名付け/索引付け要求を受けて、電子ファイルDB222から、対応する電子ファイルを取得する。
そして、ステップS1420では、電子ファイルDB222から取得した各種の文書である電子ファイルをテキストファイル形式に変換する。
そして、ステップS1430では、形態素解析を行う。すなわち、ステップS1420でテキストファイル形式に変換された各種の文書である電子ファイルを形態素、つまり、文書中で変化しない最小単位の単語に分割する。
そして、ステップS1440では、形態素解析した各種の文書である電子ファイルから共通ポップアップ単語の抽出を行う。ここで、共通ポップアップ単語の抽出について、図5のフローチャートを用いて詳細に説明する。図5は、共通ポップアップ単語抽出処理を示すフローチャートである。
まず、ステップS1441では、文書毎の単語の出現頻度を計算する。ここでは、簡単化のために、表1のように、文書1〜文書5と単語1〜単語5を対象とした例を示す。
例えば、文書1には、単語1〜単語5が、それぞれ3、2、0、5、3回出現している。
そして、ステップS1442では、全ての文書(文書1〜文書5)に共通の単語の出現頻度を計算する。具体的には、表2のように、対象となる文書1〜文書5に出現する単語の出現頻度、つまり、表1の各列に関する最小値を計算する。
例えば、単語1の全ての文書に共通の出現頻度、つまり、単語1の列に関する最小値は2であり、単語2の全ての文書に共通の出現頻度、つまり、単語2の列に関する最小値は0である。
そして、ステップS1443では、表3のように、対象となる文書1〜文書5に出現する単語の平均出現頻度、つまり、表1の各列に関する平均値を整数化(例えば、四捨五入)したものを計算する。
なお、整数化の手法は四捨五入に限定されず、例えば、切り上げ、切り下げ、または、閾値の設定等の手法を用いてもよい。さらに、整数化せずに小数のまま平均出現頻度を計算するようにしてもよい。
そして、ステップS1445では、ステップS1444の減算の結果、非負数となる単語を、その文書のポップアップ単語として抽出する。例えば、単語4と単語5を、文書1のポップアップ単語として抽出し、単語1と単語3を、文書5のポップアップ単語として抽出する。
そして、ステップS1446では、共通ポップアップ単語を抽出する。具体的には、共通ポップアップ単語を少なくとも一つ含むなるべく大きな文書集合を計算し、つまり、それ以上文章を追加すると共通なポップアップ単語がなくなるまで多くの文書を取り込んで、当該ポップアップ単語を、当該文書集合における共通ポップアップ単語とする。例えば、表4の文書集合においては、単語4が、文書1、文書3および文書4の共通ポップアップ単語となり、単語5が、文書1および文書2の共通ポップアップ単語となり、単語1が、文書3および文書5の共通ポップアップ単語となり、単語3が、文書4および文書5の共通ポップアップ単語となる。このように、5つの文書が、4つのカテゴリに多重に分けられる。
ただし、対象とする文書の数が数十を越すような場合において、共通ポップアップ単語によるカテゴリの分類をすべて見つけるためには計算時間がかかり過ぎる。実際、可能なすべての分類を見つけるには、文書数に関して指数的な組み合わせを調べる必要がある。そこで、次の方法により、一部の典型的な分類を効率的に見つける。対象の文書集合全体に関してそれぞれの文書を調べる順番を1つ定め、その順に文書を調べ、共通ポップアップ単語が存在する限り、文書を追加する。ここで、共通ポップアップ単語が無くなるような追加は行わず次の文書を追加する。このような手順を決められた回数の順番に関して行うことで、複数の分類と共通ポップアップ単語を効率的に見つけることができる。
より詳細には、まず、第1のステップとして、検査順序の決定を行う。すなわち、名付け/索引付けの対象である文書集合全体に関してそれぞれの文書を調べる順番を1つ定める。そして、第2のステップとして、文書の追加を行う。すなわち、決定した検査順序の順番で文書を調べ、共通ポップアップ単語が存在する限り文書を追加する。そして、第3のステップとして、分類結果と共通ポップアップ単語の出力を行う。すなわち、追加した文書の分類結果と共通ポップアップ単語の出力を行う。そして、第1のステップ〜第3のステップ、つまり、検査順序の決定、文書の追加および分類結果と共通ポップアップ単語の出力を指定回数行うことにより共通ポップアップ単語の抽出を行う。ここで、指定回数は、ユーザの操作により設定することができる。
そして、ステップS1447では、分類の絞り込みを行う。分類の絞り込みを行う理由は、ステップS1446の共通ポップアップ単語の抽出過程で決定した検査順序によってはあまりに多くの分類(共通ポップアップ集合を一つは有する文章集合で互いに重複するもの)が見つかるからである。尤も、対象とする文書数が、例えば、10程度までであれば、すべての順序を試すことですべての分類を見つけても問題はないが、多くの場合、すべての文書が、発見された分類の少なくとも1つに入ることが保証されれば十分である。
ステップS1447で行う分類の絞り込みには、例えば、「欲張り法」を用いることができる。「欲張り法」とは、全体的な最善の利益を得る方策を考えるのではなく目先の利益を優先し、結果としてある程度よい全体的利益を得る方策のもので、本処理では以下の処理を行うことにより分類の絞り込みを行う。すなわち、第1のステップとして、最も多くの文書を含む分類(最大の分類)を選ぶ。そして、第2のステップとして、ステップ1の分類に含まれなかった文書を最も多く含む別の分類を選ぶ。そして、第3のステップとして、ステップ1およびステップ2の分類に含まれなかった文書を最も多く含む3つ目の分類を選ぶ。そして、第4のステップとして、ステップ1〜ステップ3までの操作をすべての文書がいずれかの分類に含まれるまで行う。
そして、ステップS1450では、ユーザに対して提示する電子ファイルの名前/索引候補を選定する。名前/索引候補には、例えば、ステップS1440で抽出した共通ポップアップ単語を用いる。
そして、ステップS1460では、電子ファイルの名前/索引を決定する。具体的には、ユーザが、例えば、ステップS1450で選定された電子ファイルの名前/索引候補をただ単に選択することにより、または、電子ファイルの名前/索引候補を修正することにより、または、別の名前/索引を入力することにより、名前/索引を決定する。
そして、ステップS1470では、制御部218は、ステップS1460で決定した名前/索引により電子ファイルを名付け/索引付けして、結果(名前/索引)を作業記録DB224へ出力する。
そして、ステップS1500では、作業記録DB224に、制御部218からの登録要求を受けて、名付け/索引付け部206の結果(名前/索引候補)を基にユーザが編集し確定した名前/索引を含むデータ(作業記録)が、時計234から入力した時刻を含めて登録する。
次に、記録系処理の具体例について図6を用いて説明する。図6は、受信した約800通のメールを本発明に係る情報検索装置により名付け/索引付けして作業記録DB224に登録した例を示す図である。なお、整数化の閾値は0.8であり、共通ポップアップ単語数は3であり、分類指標はD(日付)、P(人)およびK(キーワード)である。
最上段に表示された「K0:[200]北海道支局 総務 協力」は、「北海道支局 総務 協力」の共通ポップアップ単語を含むメールが200通検索されたことを示している。また、最下段に表示された「DK46:[3]日付:2003年 経理 7月」は、「日付:2003年 経理 7月」の共通ポップアップ単語を含むメールが3通検索されたことを示している。
また、最上段に表示されたメールと上から2段目に表示されたメールとは、「北海道 支局 総務」という共通ポップアップ単語を含んでいる。従って、「北海道 支局 総務」という共通ポップアップ単語に基づいて、同一のメールを異なる視点から表示することができる。同様に、上から3段目に表示されたメールと上から6段目に表示されたメールとは、「ホームページ 掲載」という共通ポップアップ単語を含んでいる。従って、「ホームページ 掲載」という共通ポップアップ単語に基づいて、同一のメールを異なる視点から表示することができる。
また、名付け/索引付けの候補としては、例えば、最上段に表示されたメールについては、「北海道支局と総務と協力」が、上から6段目に表示されたメールについては、「日付:2004年と受信:who@www.dummy.comと送信」が名付けとキーワードの候補になる。
上記のように、逐次記録されたメッセージは、プログラムにより分析され、適切に重複分類され、分類グループ毎に、共通ポップアップ単語および共通出現単語が抽出される。ここでは、ユーザに、ポップアップ単語を「と」で結んだものを名前候補として新しいウインドウで表示する。ユーザは、名前/索引候補を見て、適切な別の名前の付与、索引語の追加、削除または変更をしてその分類グループの名付け/索引付けをする。そして、名付け/索引付けが終了したグループは、新しいタスクとして表示されるのである。
以上のように、それぞれの共通ポップアップ単語は、内容、関連した人、作業時間等で索引付けされるため、同一のメッセージ集合やタスク集合を複数の異なる視点から分類することが可能になる。また、自動分類の結果として、ユーザが気付かない視点からの有効な分類方法が発見される可能性がある。
なお、ここでは、名付け/索引付け処理で、抽出される共通ポップアップ単語は1つであったが、本発明はこれに限定されない。例えば、共通ポップアップ単語として抽出されるポップアップ単語を複数に指定してもよい。具体的には、表4の文書集合において、共通ポップアップ単語として抽出されるポップアップ単語数を2つと指定してもよい。この場合においては、単語4および単語5が、文書1および文書4の共通ポップアップ単語となり、単語1および単語4が、文書3の共通ポップアップ単語となり、単語3、単語4および単語5が、文書4の共通ポップアップ単語となり、単語1および単語3が、文書5の共通ポップアップ単語となる。従って、より限定的なポップアップ単語が、名前/索引候補として抽出され、共通ポップアップ単語が、文書集合に対して名付け/索引付けされる。なお、この例においては、文書2が名付け/索引付けされないが、通常のアプリケーションにおいては、全ての文書は、いずれかのキーワードにより名付け/索引付けされる。
また、共通ポップアップ単語を増加させることおよび減少させることは、それぞれ、名付け/索引付けの要求粒度を細かくすることおよび粗くすることに相当する。例えば、共通ポップアップ単語を増加させると、より狭い話題で共通性が高い小数のファイルがまとまり、他方、共通ポップアップ単語を減少させると、より広い話題で共通性が低い多数のファイルがまとまることになる。
なお、ここでは、抽出した共通ポップアップ単語で名付け/索引付けすること、または、ユーザの直接入力により文書集合を分類するようにしたが、本発明はこれに限定されない。例えば、抽出した共通ポップアップ単語に頻出共通単語を加えてユーザに提示することで、名付け/索引付けすることを補助するようにしてもよい。この場合、ユーザは、提示された用語を連言として名付け/索引付けしてもよいし、それらの用語から想起される別の包括的な新しい用語で名付け/索引付けしてもよいので、後に説明する検索系処理時に想起される検索語と同一の用語を用いる可能性が高まり、従って、照合の成功率を高めることが可能になる。
次に、検索系処理について説明する。図7は、情報検索装置100の検索系処理を示すフローチャートである。
まず、ステップS2000では、ユーザからの検索文の入力があるかどうかを判断する。その判断の結果、検索文の入力があると判断されたとき(S2000:YES)は、ステップS2100へ進み、検索文の入力がないと判断されたとき(S2000:NO)は、検索文の入力があるまで待機する。
そして、ステップS2100では、ステップS2000でユーザが入力した検索文を粒度分解する。ここで、粒度分解について、図8のフローチャートを用いて詳細に説明する。図8は、粒度分解処理を示すフローチャートである。なお、ユーザが入力した検索文は、例えば、「昨年の8月頃行った検査に関してA社のKさんとした仕事は?」であるとして説明する。
まず、ステップS2110では、時間表現辞書DB226を参照して、検索文の時間粒度を決定する。すなわち、検索文の中から時間の概念を表現する単語、例えば、「昨年」や「8月」、「頃」を抽出し、時間表現辞書DB226に格納された時間粒度の概念を表現する単語と照合して検索文の時間粒度を決定する。また、上記のように、時間表現辞書DB226には、例えば、「年−月−日−時−分−秒」のように、時間の概念を段階的に表現した単語が格納されている。
そして、ステップS2120では、タスクレベル表現辞書DB228を参照して、検索文のタスクレベル粒度を決定する。すなわち、検索文の中からタスクレベルの概念を表現する単語、例えば、「仕事」や「関する」を抽出し、タスクレベル表現辞書DB228に格納されたタスクレベル粒度の概念を表現する単語と照合して検索文のタスクレベル粒度を決定する。また、上記のように、タスクレベル表現辞書DB228には、例えば、「セッション−タスク−メッセージ」のように、タスクレベルの概念を段階的に表現した単語が格納されている。
そして、ステップS2130では、人名表現辞書DB230を参照して、検索文の人名粒度を決定する。すなわち、検索文の中から人名の概念を表現する単語、例えば、「Kさん」や「苗字名前」、「A社」を抽出し、人名表現辞書DB230に格納された人名粒度の概念を表現する単語と照合して検索文の人名粒度を決定する。また、上記のように、人名表現辞書230には、例えば、「所属−氏名−ニックネーム−プロフィール」のように、人名の概念を段階的に表現した単語が格納されている。
なお、ステップS2110〜ステップ2130の順序は、これに限定されず、自由に変更可能である。
また、ここでは、粒度の概念を表現する単語を格納する辞書として、時間表現辞書DB226、タスクレベル表現辞書DB228および人名表現辞書DB230を用いたが、本発明はこれに限定されない。例えば、「年齢」や「身長」、「体重」その他の様々な概念を表現する単語を格納する辞書を用いるようにしてもよい。
なお、ここでは、3つの辞書データベースを用いたが、本発明はこれに限定されない。例えば、用いる辞書データベースは単数または複数であってもよく、その数は限定されない。
また、上記のように、時間表現辞書DB226、タスクレベル表現辞書DB228および人名表現辞書DB230に格納された単語の粒度の概念は、検索者独自の漠然とした関係性や思考を示すものである。従って、ユーザは、入力装置100を用いて、時間表現辞書DB226、タスクレベル表現辞書DB228および人名表現辞書DB230に格納する単語を自由に変更、追加または削除可能である。
そして、ステップS2140では、検索文のキーワードを抽出する。すなわち、ユーザが入力した検索文を形態素、つまり、検索文中で変化しない最小単位の単語に分割し、キーワードDB232に格納されたキーワードと照合して検索文のキーワードを抽出する。
そして、ステップS2150では、検索語と粒度を決定する。すなわち、ステップS2110〜ステップS2140において、決定または抽出された各種粒度およびキーワードを、粒度分解された検索文の検索語として決定する。
そして、ステップS2200では、制御部218は、検索エンジン210に対して、ステップS2150で決定した粒度分解された検索文の検索語を含む検索要求(粒度付き検索要求)を行う。
そして、ステップS2300では、検索エンジン210は、制御部218からの粒度付き検索要求を受けて、作業記録DB224にアクセスし、作業記録DB224から、粒度付き検索要求に対応する作業記録(検索結果)を取得する。
そして、ステップS2400では、制御部218は、粒度分析部212に対して、ステップS2300で取得した作業記録(検索結果)を含む表示要求を行う。
そして、ステップS2500では、粒度分析部212は、制御部218からの作業記録(検索結果)付き表示要求および入力I/F202からのユーザの表示粒度調整指示を受けて、検索エンジン210の検索結果の粒度分析、つまり、基本表示形式の選択と基本表示粒度の決定を行う。ここで、粒度分析について、図9のフローチャートを用いて詳細に説明する。図9は、粒度分析処理を示すフローチャートである。
まず、ステップS2510では、粒度分解された検索文の検索語のセッションやタスク、メッセージレベルの選択を行う。すなわち、粒度分解された検索語の粒度の概念の段階を選択する。
そして、ステップS2520では、入力I/F202からのユーザの表示粒度調整指示を受けて、作業記録(検索結果)の各種の表示粒度の調整、つまり、基本表示形式の選択と基本表示粒度の決定を行う。基本表示形式とは、表示情報を出力装置300へ出力するときの形式であり、例えば、アイコンの表示方法や音声出力の有無および大小がこれに相当する。基本表示粒度とは、段階的な表示粒度の内、基本となる表示粒度であり、例えば、時間表現に係る表示粒度が「時刻」を基本として、「年−月−日−時−分−秒」のように表示粒度の調整を行う場合の「時刻」がこれに相当する。
そして、ステップS2600では、レイアウトマネージャ214は、検索エンジン210の検索結果のレイアウト(表示レイアウト)を設定するとともに、粒度分析部212から入力した粒度分析結果に対して表示粒度の調整を行う。具体的には、出力装置(表示装置)300の表示粒度(表示領域の大きさや画面の解像度)が異なる環境においても、検索エンジン210の検索結果が適切に表示されるように、表示粒度を調整する。これにより、表示粒度に応じたリストの選択や内容の表示が可能になる。
そして、ステップS2700では、出力装置300が、検索エンジン210の検索結果および各種アプリケーション処理部202の処理結果を、出力I/F216を経由して表示する。
次に、本発明をユーザインターフェースとして実現した際の出力装置に出力される画面例について説明する。
図10(A)は、本発明をユーザインターフェースとして用いた場合のメッセージレベルの画面を示す図であり、図10(B)は、図10(A)の画面の粒度調整ボタンを調整して表示粒度を変化させた場合の画面を示す図である。なお、ユーザが入力した検索文は、「先月特許太郎さんとやりとりしたメールは?」であるとする。
図10および後述する図11において、細かい網掛けのボタン(以下「ズームアップボタン」と略記する)を押すことにより、表示粒度を細かくすることが可能になり、粗い網掛けのボタン(以下「ズームアウトボタン」と略記する)を押すことにより、表示粒度を粗くすることが可能になる。また、ズームアップボタンとズームアウトボタンとの間に表示されている数字は、現在の表示粒度を示しており、ユーザは、表示粒度の範囲内において、情報粒度を変化させることができる。すなわち、ズームアップボタンおよびズームアウトボタンを調節することにより、表示粒度を細かくまたは粗くすることで、異なるレベルの情報を選択的に表示可能なユーザインターフェースを実現することができる。
図10(A)の画面において、「メッセージ」のズームアウトボタンを1回押すと、図10(B)の画面が表示され、「メッセージ」に関する表示粒度が「1」下がる。
図11(A)は、本発明をユーザインターフェースとして用いた場合のタスクレベルの画面を示す図であり、図11(B)は、図11(A)の画面の粒度調整ボタンを調整して表示粒度を変化させた場合の画面を示す図である。なお、ユーザが入力した検索文は、「昨年の8月頃行ったA社の仕事は?」であるとする。
図11(A)の画面において、「人」のズームアウトボタンを1回押し、「メッセージ」のズームアップボタンを1回押すと、図11(B)の画面が表示され、「人」に関する表示粒度が「1」下がり、「メッセージ」に関する表示粒度が「1」上がる。
上記のように、本発明の特徴は、ユーザの作業を、例えば、「セッション−タスク−メッセージ」に段階的に分類することにより、検索時の意図、例えば、時間の概念による検索、目的の概念による検索または内容の概念による検索をそれぞれセッションレベル、タスクレベルまたはメッセージレベルで表示し、検索者の意図に適合した情報検索を可能にするものである。
このように、本実施の形態の情報検索装置によれば、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、かつ、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができる。
本発明に係る情報検索装置は、コンピュータ内のあらゆるファイルに対して、高精度な情報検索を実現し、さらに、検索者独自の漠然とした関係性や思考を示すキーワードを利用して、検索者の意図に適合した情報検索を実現することができ、情報検索装置、情報検索方法および情報検索プログラムとして有用である。
10 情報検索装置
100 入力装置
200 コンピュータ本体
202 各種アプリケーション処理部
204 入力I/F
206 名付け/索引付け部
208 粒度分解部
210 検索エンジン
212 粒度分析部
214 レイアウトマネージャ
216 出力I/F
218 制御部
220 バス
222 電子ファイルDB
224 作業記録DB
226 時間表現辞書DB
228 タスクレベル表現辞書DB
230 人名表現辞書DB
232 キーワードDB
234 時計
300 出力装置
100 入力装置
200 コンピュータ本体
202 各種アプリケーション処理部
204 入力I/F
206 名付け/索引付け部
208 粒度分解部
210 検索エンジン
212 粒度分析部
214 レイアウトマネージャ
216 出力I/F
218 制御部
220 バス
222 電子ファイルDB
224 作業記録DB
226 時間表現辞書DB
228 タスクレベル表現辞書DB
230 人名表現辞書DB
232 キーワードDB
234 時計
300 出力装置
Claims (13)
- ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するキーワード抽出手段と、
抽出されたキーワードを対応する作業と関連付けて概念レベル別に作業記録として記憶する作業記録記憶手段と、
を有する情報検索装置。 - 入力された検索文を解析して概念レベルに分解された検索語を抽出する検索語抽出手段と、
抽出された検索語を用いて、前記作業記録記憶手段にアクセスして前記抽出された検索語に対応する概念レベルで検索を行う検索手段と、
をさらに有する請求項1記載の情報検索装置。 - 前記検索手段の検索結果を分析して前記検索結果を出力する概念レベルを決定する出力概念レベル決定手段と、
決定された出力概念レベルで前記検索結果を外部に出力する出力手段と、
をさらに有する請求項2記載の情報検索装置。 - 前記キーワード抽出手段は、
ユーザの作業結果をテキストファイルに変換する手段と、
変換後のテキストファイルを最小単位の単語に分解する手段と、
単語に分解された複数のテキストファイルに共通に含まれる前記最小単位の単語を共通単語として抽出する手段と、
抽出した共通単語をキーワードとして前記複数のテキストファイルの集合に付与する手段と、を有し、
前記複数のテキストファイルの集合に付与されるキーワードは、集合別に、複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで表現されている、
請求項1記載の情報検索装置。 - 前記検索語抽出手段は、
入力された検索文に含まれる時間概念表現、タスクレベル概念表現、および/または人名概念表現の概念レベルをそれぞれ決定する手段と、
前記入力された検索文に含まれる、決定された概念レベルに対応する検索語を抽出する手段と、
を有する請求項2記載の情報検索装置。 - 検索者独自の漠然とした関係性および思考の各種の概念を示す単語を辞書として記憶する辞書記憶手段、をさらに有し、
前記検索語抽出手段は、
前記辞書記憶手段にアクセスして、概念レベルに分解された検索語の抽出を行う、
請求項2記載の情報検索装置。 - 前記出力概念レベル決定手段は、
前記検索手段の検索結果に対応する概念レベルを選択する手段と、
選択された概念レベルおよびユーザによる指示に基づいて、前記検索結果を出力する概念レベルを決定する手段と、
を有する請求項3記載の情報検索装置。 - 決定された出力概念レベルを、前記出力手段の物理的制約条件に応じて調整する出力概念レベル調整手段、
をさらに有する請求項3記載の情報検索装置。 - 前記作業は、ユーザにより操作されるアプリケーションにおける全ての処理である、請求項1記載の情報検索装置。
- ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するステップと、
抽出したキーワードを対応する作業と関連付けて概念レベル別に作業記録として作業記録記憶手段に記憶するステップと、
を有する情報検索方法。 - 入力した検索文を解析して概念レベルに分解した検索語を抽出するステップと、
抽出した検索語を用いて、前記作業記録記憶手段にアクセスして前記抽出した検索語に対応する概念レベルで検索を行うステップと、
検索の結果を分析して前記検索結果を出力する概念レベルを決定するステップと、
決定した出力概念レベルで前記検索結果を外部に出力するステップと、
をさらに有する請求項10記載の情報検索方法。 - ユーザの作業結果から、ユーザの作業に関する記録を検索するためのキーワードを複数種類の概念でかつ各種類の概念に対して複数の段階的な概念レベルで抽出するステップと、
抽出したキーワードを対応する作業と関連付けて概念レベル別に作業記録として作業記録記憶手段に記憶するステップと、
をコンピュータに実行させる情報検索プログラム。 - 入力した検索文を解析して概念レベルに分解した検索語を抽出するステップと、
抽出した検索語を用いて、前記作業記録記憶手段にアクセスして前記抽出した検索語に対応する概念レベルで検索を行うステップと、
検索の結果を分析して前記検索結果を出力する概念レベルを決定するステップと、
決定した出力概念レベルで前記検索結果を外部に出力するステップと、
をさらにコンピュータに実行させる請求項12記載の情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005200295A JP2007018350A (ja) | 2005-07-08 | 2005-07-08 | 情報検索装置、情報検索方法および情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005200295A JP2007018350A (ja) | 2005-07-08 | 2005-07-08 | 情報検索装置、情報検索方法および情報検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007018350A true JP2007018350A (ja) | 2007-01-25 |
Family
ID=37755459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005200295A Pending JP2007018350A (ja) | 2005-07-08 | 2005-07-08 | 情報検索装置、情報検索方法および情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007018350A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8661041B2 (en) | 2010-04-12 | 2014-02-25 | Samsung Electronics Co., Ltd. | Apparatus and method for semantic-based search and semantic metadata providing server and method of operating the same |
WO2016092924A1 (ja) * | 2014-12-09 | 2016-06-16 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017027409A (ja) * | 2015-07-23 | 2017-02-02 | 日本電信電話株式会社 | 検索処理装置、データベース構築装置、検索処理方法、データベース構築方法、及びプログラム |
-
2005
- 2005-07-08 JP JP2005200295A patent/JP2007018350A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8661041B2 (en) | 2010-04-12 | 2014-02-25 | Samsung Electronics Co., Ltd. | Apparatus and method for semantic-based search and semantic metadata providing server and method of operating the same |
WO2016092924A1 (ja) * | 2014-12-09 | 2016-06-16 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JPWO2016092924A1 (ja) * | 2014-12-09 | 2017-09-14 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017027409A (ja) * | 2015-07-23 | 2017-02-02 | 日本電信電話株式会社 | 検索処理装置、データベース構築装置、検索処理方法、データベース構築方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9336303B2 (en) | Computer-implemented system and method for providing visual suggestions for cluster classification | |
Rai | Identifying key product attributes and their importance levels from online customer reviews | |
WO2009154153A1 (ja) | 文書検索システム | |
US20120110046A1 (en) | File management apparatus and file management method | |
WO2011091442A1 (en) | System and method for optimizing search objects submitted to a data resource | |
US20180293215A1 (en) | Method and Computer Program for Sharing Memo between Electronic Documents | |
KR102414391B1 (ko) | 과거이력 기반 실시간 문서작성 추천 시스템 | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2007018350A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP2007140639A (ja) | データ表示装置、データ表示方法およびデータ表示プログラム | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP2004206391A (ja) | 文書情報分析装置 | |
JP2009129176A (ja) | 構造化文書検索装置、方法およびプログラム | |
Salway et al. | Investigating Curatorial Voice with Corpus Linguistic Techniques: the case of Dorothy George and applications in museological practice | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
Vashisht et al. | Enhanced lexicon E-SLIDE framework for efficient sentiment analysis | |
JP5137134B2 (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2017102976A (ja) | 文献解析装置、文献解析方法およびプログラム | |
TWI703453B (zh) | 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 | |
JP2008518345A (ja) | データ処理システム及びデータ処理方法 | |
JP2009271772A (ja) | テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム | |
JP2022150482A (ja) | データ検索装置、データ検索方法及びデータ検索プログラム | |
JP3210842B2 (ja) | 情報処理装置 |