JP2005018530A - Information processor, information processing program, and information processing method - Google Patents
Information processor, information processing program, and information processing method Download PDFInfo
- Publication number
- JP2005018530A JP2005018530A JP2003183975A JP2003183975A JP2005018530A JP 2005018530 A JP2005018530 A JP 2005018530A JP 2003183975 A JP2003183975 A JP 2003183975A JP 2003183975 A JP2003183975 A JP 2003183975A JP 2005018530 A JP2005018530 A JP 2005018530A
- Authority
- JP
- Japan
- Prior art keywords
- document
- history
- information
- keyword
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、例えば、オフィス文書やWeb文書などの電子ドキュメントを利用するコンピュータシステムにおいて、キーワードを用いてドキュメントの検索を行うための、情報処理装置、情報処理プログラム及び情報処理方法に関するものである。
【0002】
【従来の技術】
昨今、ネットワークや高性能なパーソナルコンピュータ(以下、PCと云う)の普及によって、オフィス環境における電子ドキュメントの作成と利用がより一般的になり、電子ドキュメントの情報量は日々増大の一途をたどっている。このように多量な電子ドキュメントの情報から必要な情報を検索するためのドキュメント検索技術は、電子ドキュメントの氾濫する環境においては必須の技術となっており、ドキュメント検索システムの性能はオフィス業務の効率化に重要な影響を与えている。また、ドキュメントの検索技術としては、あらかじめユーザがドキュメントに割り当てたキーワードを用いたキーワード検索技術、ドキュメントのコンテンツから指定文字列を検索する全文検索技術、または両者の特徴を合わせた検索技術であって、ドキュメントのコンテンツから自動的にキーワードを抽出してあらかじめインデックス情報を作成し、全文検索の精度の向上と検索の高速化を行うインデックス型検索技術などが存在する。その中でも、インデックスを用いた検索システムであるインデックス型検索技術は、不特定多数のドキュメントを検索する場合の性能に優れており、Web情報検索サイトなどを含めて広く利用されている検索技術である。
【0003】
インデックス型検索の性能はドキュメントのコンテンツから如何に重要なキーワードを抽出できるかに大きく依存しており、適当なキーワードを抽出するための自然言語解析処理やキーワードの出現頻度に基づくインデックス情報の重み付け処理など、インデックス情報の生成には様々な工夫が施されている。また、検索精度を向上させるために、コンテンツに含まれる文字列以外の情報を利用しようという試みも見られる。例えば、Google社(登録商標)のWeb検索エンジンではWebドキュメント間のリンク情報をキーワードの重み付けに利用し、検索対象をWebとドキュメントに特定した範囲で高い検索成果を得ている。
【0004】
また、例えば下記特許文献1には、簡単な操作で画像検索を行う技術が開示されている。この技術は、画像データの過去の操作内容と操作日時を検索情報として記録し、これらの検索情報と検索時に指定した検索項目が一致したときに所望の画像を抽出するものである。
さらに、例えば下記特許文献2には、Webブラウザ上で所望の情報を指定できるブックマークに基づいて情報検索を行う技術が開示されている。この技術は、ブックマーク情報とブックマークの利用履歴からキーワードを抽出し、キーワードにマッチする情報をユーザに通知するものである。
【0005】
【特許文献1】
特開平7−239854号公報(段落番号0017〜0040、及び図1〜図3参照)
【特許文献2】
特開2001−195422号公報(段落番号0005〜0013、及び図1〜図4)
【0006】
【発明が解決しようとする課題】
しかしながら、インデックス情報の生成は依然として情報検索システムの大きな技術課題であり、検索精度の向上だけではなく、インデックス生成処理の高度化によるCPUに対する負荷の増大への対応、検索対象ドキュメントのカバー率を向上させるための多種多様なドキュメントフォーマットへの対応、などといった検索を行うためのシステム全体の技術的向上もドキュメント検索システムの大きな技術課題となっている。そのような面から考えると、従来のドキュメント検索装置ないしドキュメント検索装置システムは、最適なシステム環境でインデックス情報が生成されているとは云えず、結果的には、フィールドにおける検索の柔軟性が欠けると共に、検索精度のさらなる向上を阻んでいる。上記の特許文献1及び特許文献2の技術においてもこれらの問題点は依然として解決されていない。
【0007】
本発明は、上述の課題に鑑みてなされたもので、その目的とするところは、ドキュメントの使われ方や使われた経緯などを示すドキュメントへのアクセス履歴情報を用いてドキュメント検索方法を一元化することにより、効果的なキーワード情報を少ない処理負荷で生成することによってドキュメントの検索を容易にすることができる情報処理装置、情報処理プログラム及び情報処理方法を提供することにある。
【0008】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、ドキュメントの検索を行うためのキーワードを生成する情報処理装置であって、前記ドキュメントを操作したときのアクセス履歴から得られる履歴情報を取得する履歴取得手段と、前記履歴取得手段により取得された履歴情報に基づいて、該履歴情報から前記ドキュメント検索用のキーワードを抽出するキーワード抽出手段とを備えてなるものである。
【0009】
また、本発明は、ドキュメントの検索を行うためのキーワードを生成する処理をコンピュータに実行させるための情報処理プログラムであって、前記ドキュメントを操作したときのアクセス履歴から得られる履歴情報を取得する履歴取得機能と、前記履歴取得ステップにより取得された履歴情報に基づいて、該履歴情報から前記ドキュメント検索用のキーワードを抽出するキーワード抽出機能とをコンピュータに実行させるものである。
【0010】
また、本発明は、ドキュメントの検索を行うためのキーワードを生成する情報処理方法であって、前記ドキュメントを操作したときのアクセス履歴から得られる履歴情報を取得する履歴取得ステップと、前記履歴取得ステップにより取得された履歴情報に基づいて、該履歴情報から前記ドキュメント検索用のキーワードを抽出するキーワード抽出ステップとを備えてなるものである。
【0011】
【発明の実施の形態】
本発明のドキュメント検索装置は、ドキュメントの操作内容情報、ドキュメントを使った業務内容情報、又はドキュメントの関連文書情報などのように、ドキュメントを操作したときの履歴から得られる操作履歴情報に基づいてドキュメント検索用のキーワードを生成し、このキーワードを用いてインデックス情報を生成してデータベースに登録し、以後このインデックス情報を用いてドキュメントの検索を行うようにしたり、或いは、生成されたキーワードをドキュメントに埋め込むことにより以後そのキーワードを用いてドキュメント検索を行うようにする。これによって、実際に使われる可能性が高くて精度の高い情報を検索キーワードとすることができると共に、非テキスト文章の検索にも適用することができる。また、全文検索によって全てのドキュメントを網羅した高精度な検索を行うこともできる。
【0012】
以下、本発明の実施の形態を説明する。
図1は本発明の実施の形態におけるドキュメント検索システムの構成を示すブロックである。このドキュメント検索システムは、ユーザがドキュメントの操作を行うクライアント端末1と、ネットワーク上に存在し、履歴の取得(保存)、履歴の解析、キーワードの抽出及びインデックス情報の作成、及び各種データベース(以下、データベースをDBと略す)の管理などを行う履歴サーバ4と、ユーザのドキュメントを保存し、ネットワークを介してドキュメントへのアクセスを可能にするファイルサーバ13とがLAN14に接続された構成となっている。
【0013】
ユーザがドキュメント操作を行うクライアント端末1は、ドキュメントの履歴情報を収集する履歴収集手段としての履歴収集部2と所定のキーワードを含むドキュメントを検索するインデックス検索手段としてのインデックス検索部3とを備えた構成となっている。
【0014】
履歴収集部2は、クライアント端末1に組み込まれたソフトウェアモジュールであり、ユーザの行うアプリケーション操作のイベントを検知してアクセスしたドキュメント情報を収集し、このドキュメント情報を履歴サーバ4に送信する機能を備えている。
【0015】
インデックス検索部3は、クライアント端末1のソフトウェアプリケーションであり、履歴サーバ4に存在するインデックスDB12からユーザの指定したキーワードを含むドキュメントまたはドキュメントの部位を検索し、検索結果を重みの大きい順にユーザに提示する機能を備えている。
【0016】
履歴サーバ4は、履歴取得手段としての履歴取得部5、履歴解析手段としての履歴解析部6、キーワード抽出手段としてのキーワード抽出部7、インデックス作成部9、履歴DB10、ドキュメント情報DB11、及びインデックスDB12を備えた構成となっている。
【0017】
尚、履歴サーバ4は、図1に示す構成では、ネットワーク上に存在してサーバ機能として実現し、履歴情報の保存、履歴情報の解析、及びインデックス管理を行う。しかし、このようなサーバ機能はクライアント端末1に存在させてもよい。また、履歴情報の保存、解析、及びインデックス管理の機能はそれぞれ別々のサーバに持たせてもよい。尚、インデックス管理の機能は既存のインデックスを用いた検索システムを使用する。
【0018】
履歴取得部5は、履歴サーバ4上で動作するソフトウェアモジュールであり、クライアント端末1から送信されたドキュメンアクセスの履歴データを受信し、履歴DB10へ保存する機能を備えている。
【0019】
履歴解析部6は、履歴DB10に保存されたドキュメントアクセスの履歴データを解析し、ドキュメントのアクセス回数や特定のドキュメントまたはドキュメントの部位の関連文書を抽出し、ドキュメント情報DB11へ保存する機能を備えている。ここで、関連文書とは、そのドキュメント/部位を作成するときに参照した文書/部位、そのドキュメント/部位を利用して作成された派生文書、そのドキュメント/部位にアクセスがあるときに並行して利用されることの多い同時利用文書などの情報をいう。
【0020】
なお、この履歴解析部6は、本発明による検索効果を増大するための付加的なものであり、履歴解析部6が本発明の全てにおける構成要件となるものではない。
【0021】
履歴情報から関連文書を抽出する場合、履歴情報だけでは何れが関連する履歴であるか分からないため、別途ドキュメントアクセス履歴からの業務解析処理と、業務解析処理によって作成された業務履歴からのドキュメント関連付け処理を行う。
ドキュメントアクセス履歴からの業務履歴生成処理は例えば次のような処理を行う。業務の区切りの際に発生する印刷やファイルの保存、メールの送信といった特徴的なドキュメントアクセス履歴に着目し、時系列に連続するドキュメントアクセス履歴を区切ることで業務履歴を作成している。
業務履歴からドキュメントの関連付け処理は例えば次のような処理を行う。スプレッドシートでデータの集計を行ってから、プレゼンテーション用のドキュメントに集計結果を貼り付けたり過去のメールを参照して、新しいメールを作成するように、業務の種別に関らずある程度決まったパターンに従ったアクセスが発生するものと考えられるので、このアクセスパターンを予め定義しておき業務履歴ないのドキュメントアクセス履歴と比較することで、関連を導くことができる。例えば、「同じ業務内でドキュメントAを開いた後、更新されたドキュメントB」というパターンからは、「AはBの参照情報である」という関連と逆に「BはAの派生情報である」という関連を導くことができる。
【0022】
キーワード抽出部7は、重み付け手段としての重み付け部8を備えており、履歴DB10及びドキュメント情報DB11に保存された情報からキーワード情報を抽出し、このキーワード情報に重み付けを行ってインデックスDB12へ記録する。尚、キーワードの抽出方法や重み付けの方法については後述する。
インデックス作成手段としてのインデックス作成部9は、キーワード抽出部7により抽出されたキーワード及び履歴DB10に保存された履歴情報、及びドキュメント情報DB11に保存されたドキュメント情報(履歴解析部6の解析結果)に基づいてインデックス情報を作成する。
【0023】
履歴DB10は、クライアント端末1から送信された履歴情報を保存するデータベースである。尚、履歴DB10の詳細な構成については図2を用いて後述する。
ドキュメント情報DB11は、履歴DB10に保存された履歴情報を解析して得られた情報を保存するデータベースである。尚、ドキュメント情報DB11の詳細な構成については図3を用いて後述する。
インデックスDB12は、インデックス作成部9により作成されたインデックス情報を記録するデータベースである。インデックスDB12の詳細な構成については図4を用いて後述する。尚、このインデックスDB12は、既存のインデックス検索システムに付随するインデックスDBを流用しても構わない。
【0024】
ファイルサーバ13は、ユーザのドキュメントを保存するファイルDB13aを有し、ネットワークを介してドキュメントへのアクセスを可能にするサーバであるが、本発明での管理対象となるドキュメントはこのファイルサーバ13上だけでなく、クライアント端末1上、または、インターネット上のドキュメントであっても構わない。
【0025】
図2は、図1に示す履歴DB10の構成と内容の一例を示す図である。図2において、『日時』の項目欄には、クライアント端末1でドキュメントアクセスが発生した日時を記録する。例えば、「2003/03/19 14:34:12」と云うように、アクセス発生日時を年月日から時分秒まで記録する。
『操作内容』の項目欄には、ユーザがドキュメントに対して行った操作内容を記録する。尚、操作の種別には、Open、Save、Delete、Print、Send(メール送信)などが含まれる。
【0026】
『ユーザ名』の項目欄には、操作を行ったユーザを識別するためのユーザ情報を記録する。例えば、操作を行ったユーザ個人の名前を記録する。
『文書』の項目欄には、捜査対象となったドキュメントを識別する情報を記録する。例えば、捜査対象がweb文書であればURL(例えば、 HYPERLINK ”http://www.b−car.co.jp” http://www.b−car.co.jp)を記録し、Windows共有ファイルであれば、Windows、サーバ名、共有名、パス名、ファイル名を含むネットワークパス(例えば、 HYPERLINK ”¥¥¥¥server1¥¥dsr¥¥cars.doc” ¥¥server1¥dsr¥cars.doc)を記録する。
【0027】
『文書タイトル』の項目欄には、ユーザがドキュメントを操作した際にアプリケーションから得られるドキュメントのタイトルを記録する。例えば、新車情報のドキュメントであれば各自動車会社の新車情報(例えば、A社新車情報)や新車に関するイベント情報(例えば、春の新車)などを記録する。
『ページ』の項目には、操作を行った対象のページ番号を記録する。尚、操作の対象がドキュメント全体である場合はこのフィールドは空白になる。
『送信/出力先』の項目欄には、ドキュメントの送信や出力操作を行った履歴に対して、送信先または出力先の情報を記録する。例えば、操作の内容がプリントである場合は、プリントを行ったプリンタ名(例えば、PrinterA)、EメールでのSend(送信)であれば、あて先に含まれるユーザのユーザ名(例えば、藤原)を記録する。
【0028】
『周辺キーワード』の項目欄には、操作を行ったドキュメントに含まれるキーワード情報(例えば、車種A、車種B、バイクなど)を記録する。尚、キーワード情報は操作対象となったドキュメントにあらかじめ含まれている場合もあるし、クライアント端末1の履歴収集手段2がドキュメントのコンテンツから動的に生成したものでもよい。キーワード情報があらかじめドキュメントに含まれる例としては、Microsoft Officeアプリケーション(登録商標)で作成された文書などがある。ドキュメントのコンテンツから動的にキーワードを生成するには、既存の方法がいくつか用意されている。
【0029】
例えば、コンピュータがドキュメントの中の品詞を分解して自然言語を解析する形態素解析処理によってテキスト情報を語彙の単位に分割し、それぞれの語彙のドキュメント内での出現回数をカウントして、出現する回数の多いものをキーワードとするような方法が用いられる。また、検索操作の対象がドキュメント全体ではなく、ページなどのようにドキュメントの一部であった場合は、ドキュメント全体からキーワードを抽出するのではなく、対象のページに含まれる情報からキーワードを抽出する方法が用いられる。このとき、周辺キーワードは必須ではなく、システムの負荷に応じて処理を省いてもよい。
【0030】
図3は、図1に示すドキュメント情報DBの構成と内容の一例を示す図である。すなわち、この図は、履歴DB10に保存された履歴情報を解析して得られるドキュメント情報を記録するドキュメント情報DB11の構成と内容を示している。
『文書』の項目欄には、ドキュメント情報の検索対象となる文書の識別子(例えば、c:¥abc.doc)を記述する。このフィールドに含まれる情報の記述方法は、図2に示す履歴DB10の構成と内容で説明したときの『文書』項目の情報と同じである。すなわち、検索対象がweb文書であればURLを記録し、Windows共有ファイルであれば、Windows、サーバ名、共有名、パス名、ファイル名を含むネットワークパスを記録する。
【0031】
『ページ』の項目欄には、検索対象がドキュメント全体でなく、ドキュメント中の一つの部位である場合は検索対象となるページ番号を記録する。尚、検索対象がドキュメント全体である場合はこのフィールドは空白となる。
『アクセス回数』の項目欄には、検索対象のドキュメントまたは部位に対して、発生したアクセスの回数を記録する。
『参照文書/参照回数』の項目欄には、検索対象となるドキュメントまたは部位の作成や更新時に参照したドキュメント(例えば、def.doc)を記録する。また、頻繁に参照したドキュメントを他の文書と区別するために参照回数をドキュメント名と併せて記録する。例えば、def.docを3回参照した場合には、def.doc/3と云うように記録する。
【0032】
『派生文書/被参照回数』の項目欄には、検索対象となるドキュメントまたは部位を参照して作成されたドキュメント(例えば、cars.doc)を記録する。また、派生文書作成時には検索対象文書がどれだけ参照されたかの被参照回数を記録する。
『同時利用文書』の項目欄には、検索対象となるドキュメントまたは部位にアクセスが発生するときに、同時に利用されることの多いドキュメント(例えば、 HYPERLINK ”http://www.a−car.co.jp” http://www.a−car.co.jp)を記録する。
『キーワード』の項目欄には、検索対象となるドキュメントまたは部位に含まれるキーワード情報(例えば、車種A、車種Bなど)を記録する。このキーワード情報は、履歴DB10の周辺キーワードに記録されているキーワード情報と、履歴DB10の文書タイトルに記録されているタイトルから抽出したキーワードとを含んでいる。
【0033】
図4は、図1に示すインデックスDB12の構成と内容の一例を示す図である。すなわち、この図は、キーワードを用いたドキュメントの検索に用いるインデックスDB12の構成と内容を示している。実際に利用されるインデックスDB12は、検索処理を高速化するためにDBの構成も効率化されているが、ここでは簡単のために単純な構成を例示している。
【0034】
『文書』の項目欄には、検索対象となるドキュメントの識別情報(例えば、c:¥abc.doc)を記録する。この例では、先に説明した履歴DB10またはドキュメント情報DB11に含まれる『文書』の項目欄のフィールドの情報と同じ情報が記録されている。
『ページ』の項目欄には、検索の結果がドキュメント全体ではなく、ドキュメントの部位である場合は部位のページ番号を記録する。
『キーワード』の項目欄には、対象となるドキュメント、または部位に含まれるキーワードのリスト(例えば、A社、車、カーライフなど)を記録する。インデックスDB12を既存のドキュメント検索システムと本発明によるドキュメント検索システムで共有する場合は、既存のドキュメント検索システムで生成されたキーワード情報と、本発明によるドキュメント検索システムで生成されたキーワード情報の両方がこのキーワードのリストに存在する。
【0035】
『重み』の項目欄には、それぞれのキーワードに対する重み(重要度)を記録する。重みの値の大きいキーワードの方が対象のドキュメント/部位をよりよく表すキーワードと認識される。例えば、『文書』項目欄の“c:¥abc.doc”においては、「車種A」の重みは“10”であって、「車種B」の重みは“3”であるので、「車種A」は「車種B」よりキーワードの重要度がはるかに高いことを意味している。
尚、インデックスDB12を用いたドキュメントの検索処理では、ユーザが指定したキーワードでこのインデックスDB12のキーワードフィールドを検索し、キーワードを含むドキュメント/部位を特定して、キーワードに割り当てられた重みの大きい順にソートして検索結果とする。
【0036】
次に、フローチャートを用いて、本発明のドキュメント検索システムが行う動作シーケンスを詳細に説明する。図5は、本実施の形態におけるドキュメント検索システムにおいてクライアント端末が行う履歴収集処理の流れを示すフローチャートである。まず、クライアント端末1に組み込まれた履歴収集部2がユーザのアプリケーション操作イベント処理を開始する。つまり、履歴収集部2がユーザの行うドキュメントの操作を検知して一連の検索処理を開始する(ステップS1)。検索処理が開始されると、履歴収集部2は、イベントの内容に応じて、アプリケーションからファイル名、ページ番号、タイトル、操作内容などのドキュメント情報を操作履歴情報として収集する。このとき、履歴収集部2は、開かれているドキュメントのコンテンツから周辺キーワードの抽出を行う(ステップS2)。そして、履歴収集部2は、ステップS2で収集した情報を操作履歴情報として履歴サーバ4へ送信する(ステップS3)。
【0037】
図6は、本実施の形態におけるドキュメント検索システムにおいて履歴サーバ4が行う、操作履歴情報の受信からインデックスDBの更新までの処理の流れを示すフローチャートである。つまり、この図は、履歴サーバ4が操作履歴情報からキーワードを抽出して登録するまでの処理の流れを示している。
【0038】
まず、履歴サーバ4が履歴の収集態勢に入ると(ステップS11)、履歴サーバ4の履歴取得部5が、クライアント端末1から履歴データを受信したか否かを判断する(ステップS12)。ここで、まだ履歴データを受信していなければ(ステップS12,No)、履歴データを受信するまで待機する。一方、履歴取得部5がクライアント端末1から履歴データを受信したことを検知したときは、キーワード検索を行うための一連の処理を開始する(ステップS12,Yes)。
【0039】
すなわち、履歴サーバ4においては、履歴取得部5が、受信した履歴データを履歴DB10に保存し、キーワード抽出部7が、受信した履歴データに含まれるキーワード情報を抽出する(ステップS13)。尚、キーワード抽出部7によるキーワードの抽出処理の内容は図7を用いて後述する。さらに、キーワード抽出部7は、重み付け部8により抽出されたキーワード情報を重み付けした上で、このキーワード情報をインデックスDB12へ登録する(ステップS14)。これによって、クライアント端末1のインデックス検索部3は、インデックスDB12に登録されているキーワード情報を重みの高い順に並べて所望のドキュメントを検索することができる。尚、キーワード抽出部7が行うキーワードの重み付け処理の内容は図8を用いて後述する。
【0040】
さらに、本実施の形態では、次のステップS15からステップS18までを付加することによってキーワードの抽出と登録を効果的に行うことができる。すなわち、ドキュメント検索システムが履歴の解析を行うように設定されているか否か(つまり、履歴解析部6が構成されているか否か)を判断し(ステップS15)、履歴の解析を行うように設定されている(つまり、履歴解析部6が構成されている)場合は(ステップS15,Yes)、履歴解析部6が履歴データの解析処理を開始する。そして、履歴解析部6は、履歴DB10に記録されている履歴データを用いて、ドキュメントのアクセス回数、関連文書などの履歴データの解析を行う(ステップS16)。尚、履歴データから関連する文書を解析する処理は既存の処理手順を用いて行う。また、ステップS15でドキュメント検索システムが履歴の解析を行うように設定されていない(つまり、履歴解析部6が構成されていない)場合は(ステップS15,No)、そのまま検索処理を終了する。
【0041】
次に、ステップS16で履歴解析部6が履歴の解析を行った場合は、キーワード抽出部7が、履歴解析部6の行った解析結果(ドキュメント情報DBの内容)からキーワード情報を抽出して重み付けを行う(ステップS17)。尚、キーワード抽出部7が行うキーワード情報の抽出と重み付けの処理内容は図7と図8を用いて後述する。そして、インデックス作成部9が、キーワード抽出部7により抽出されたキーワード及び重み付けの情報を用いてインデックスを作成し、インデックスDB12へ登録する(ステップS18)。これによって、クライアント端末1のインデックス検索部3は、インデックスDB12に登録されているインデックス情報に基づいてキーワード情報を重みの高い順に並べて所望のドキュメントを検索することができる。
【0042】
図7は、履歴サーバ4のキーワード抽出部7がキーワードを抽出するときのルールの一例を示す図である。すなわち、図7は、図6に示すフローチャートのステップS13、S14において、キーワード抽出部7が、履歴DB10及びドキュメント情報DB11から履歴データに含まれるキーワードを抽出し、インデックス作成部9がインデックスDB12へ追加キーワードとして登録したり、ステップS18、S19において、キーワード抽出部7が解析結果から抽出したキーワードをインデックス作成部9がインデックスDB12へ追加キーワードとして登録したりするときのルールの一例を示したものである。尚、図7に示すキーワード抽出ルールは、ドキュメント検索システムの構成や負荷に応じて任意に選択して使用することができ、全てのルールを使用する必要はない。また、新たにルールを追加して使用することもできる。
【0043】
以下、キーワード抽出部7が行うキーワード抽出のルールを図7に従って詳細に説明する。
『作成者を追加する』ルールにおいては、ドキュメントを作成した作成者名を追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
『作成日を追加する』ルールにおいては、ドキュメントを作成した日時を追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
『ドキュメントの所在するサーバ名を追加する』ルールにおいては、ドキュメントの所在するサーバのサーバ名を追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
【0044】
『ドキュメントへのアクセス内容を追加する』ルールにおいては、閲覧、印刷、削除、転送、送信など、ドキュメントに対してユーザが行った操作内容を追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
『送付先を追加する』ルールにおいては、ドキュメントがEメールなどにより送信されていた場合には、あて先(送信先)のユーザ名を追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
『アクセス頻度を追加する』ルールにおいては、ドキュメントのアクセス頻度に応じて、「高頻度」「低頻度」などの追加キーワードを抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
すなわち、アクセス頻度が高いときは「高頻度」、アクセス頻度が低いときは「低頻度」としてインデックスDB12へ登録する。
【0045】
『アクセス回数を追加する』ルールにおいては、ドキュメントのアクセス回数に応じて、トータルアクセス回数の多い場合には「人気」、トータルアクセス回数が少ない場合には「不人気」などの追加キーワードを抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
『出力先を追加する』ルールにおいては、ドキュメントが印刷出力されている場合は出力先のプリンタ名を追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
すなわち、データの出力先のデバイス名をインデックスDB12へ登録する。
【0046】
『関連文書のキーワードを追加する』ルールにおいては、ドキュメント情報DB11に記録されている参照文書、派生文書、同時利用文書の関連文書に含まれるキーワード情報を対象文書の追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
『関連文書のタイトルを追加する』ルールにおいては、ドキュメント情報DB11に記録された参照文書、派生文書、同時利用文書の関連文書のタイトルに含まれるキーワード情報を対象文書の追加キーワードとして抽出し、インデックス作成部9によりインデックスDB12へ登録させる。
【0047】
図8は、キーワード抽出部7がキーワードに重み付けをするときのルールの一例を示す図である。すなわち、図8は、図6に示すフローチャートのステップS14及びステップS18において、キーワード抽出部7がキーワードに重み付けをしてインデックスDB12へ登録するときのルールの一例を示した図である。
尚、図8に示すルールは、ドキュメント検索システムの構成や負荷に応じて任意に選択して使用することができ、全てのルールを使用する必要はない。また、新たにルールを追加して使用することもできる。
【0048】
『キーワードの含まれるドキュメントのアクセス回数>10』である場合のように、関連文書に対するアクセス回数が多い場合のルールとしては、ドキュメントの関連文書のキーワードを登録するときにキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
『キーワードの含まれる部位のアクセス回数>10』のように、関連文書の部位に対するアクセス回数が多い場合のルールとして、ドキュメント関連文書の部位のキーワードを登録するときにキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
【0049】
『キーワードの含まれる部位の出力回数>1』のように、キーワードを含む部位を過去に印刷した履歴がある場合のルールとして、重要なドキュメント/部位であると考えてキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
『参照回数が2以上の関連ドキュメントのキーワード』のように、ドキュメントを作成したり更新したりしたときの参照文書/部位のキーワードを登録するとき、参照文書/部位に対する参照回数が多い場合は、キーワードの関連性が高いと考えてキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
【0050】
『派生ドキュメントのキーワード』のルールとして、ドキュメントを参照して作成された派生文書/部位のキーワードを登録するとき、派生文書/部位からの参照回数が多い場合には、キーワードの関連性が強いと考えてキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
『印刷を行った関連ドキュメントのキーワード』のルールとして、関連ドキュメントに含まれるキーワードのうち、印刷や送信など特定の重要度の高い処理を行った関連文書のキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
『特定ユーザの作成文書』のルールとして、特定のユーザの作成した文書に含まれるキーワードの重みを増加する。すなわち、インデックス作成部9は、キーワードの重みを“1”増加してインデックスDB12へ登録する。
【0051】
以上述べた実施の形態は本発明を説明するための一例であり、本発明は、上記の実施の形態に限定されるものではなく、発明の要旨の範囲で種々の変形が可能である。すなわち、上記の実施の形態では、抽出したキーワード情報をインデックスDB12へ登録するようにしたが、これに限ることはなく、ドキュメント自体にキーワード情報を埋め込んでもよい(付加してもよい)。例えば、Microsoft Officeアプリケーション(登録商標)で作成される文書には、文書内にキーワード情報を記録する領域が用意されているし、HTML、XML文書でもキーワード情報をドキュメントのコンテンツとは別のメタ情報として記録するための領域が規定されている。また、本発明のドキュメント検索システムで抽出されたキーワード情報がドキュメント自体に含まれることによって、インデックスDBを持たない全文検索システムなどと併用した場合であっても、本発明のドキュメント検索システムは前述の実施の形態と同様な作用効果を実現することができる。
【0052】
なお、本発明の実施の形態では、装置内部に発明を実施する機能が予め記録されている場合で説明したが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしても良い。記録媒体としては、CD−ROM等プログラムを記憶でき、且つ装置が読取り可能な記録媒体であれば,その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のOS(オペレーティング・システム)等と協働してその機能を実現させるものであっても良い。
【0053】
【発明の効果】
以上説明したように、本発明によれば、ユーザの操作履歴に基づいた信頼性の高いキーワード情報をドキュメントに付加しているので検索精度を高めることができる。また、関連文書の情報を用いることでドキュメント自体には含まれていないキーワードを付加することができ、検索の柔軟性を高めることができる。さらに、検索対象のドキュメントが画像や音声など、テキスト情報を含まないドキュメントであっても、履歴情報や関連文書を用いてキーワード情報を付加し、テキストを含むドキュメントと同様にキーワードによる検索の対象とすることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態におけるドキュメント検索システムの構成を示すブロックである。
【図2】図1に示す履歴DBの構成と内容の一例を示す図である。
【図3】図1に示すドキュメント情報DBの構成と内容の一例を示す図である。
【図4】図1に示すインデックスDBの構成と内容の一例を示す図である。
【図5】本発明の実施の形態におけるドキュメント検索システムにおいてクライアント端末が行う履歴収集処理の流れを示すフローチャートである。
【図6】本発明の実施の形態におけるドキュメント検索システムにおいて履歴サーバが行う、操作履歴情報の受信からインデックスDBの更新までの処理の流れを示すフローチャートである。
【図7】履歴サーバのキーワード抽出部がキーワードを抽出するときのルールの一例を示す図である。
【図8】キーワード抽出部がキーワードに重み付けをするときのルールの一例を示す図である。
【符号の説明】
1 クライアント端末、2 履歴収集部、3 インデックス検索部、4 履歴サーバ、5 履歴取得部、6 履歴解析部、7 キーワード抽出部、10 履歴DB、11 ドキュメント情報DB、12 インデックスDB、13 ファイルサーバ、14 LAN。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information processing apparatus, an information processing program, and an information processing method for searching for a document using a keyword in a computer system that uses an electronic document such as an office document or a Web document.
[0002]
[Prior art]
In recent years, with the spread of networks and high-performance personal computers (hereinafter referred to as PCs), the creation and use of electronic documents in the office environment has become more common, and the amount of information in electronic documents continues to increase day by day. . Document retrieval technology for retrieving necessary information from a large amount of electronic document information is essential in an environment where electronic documents are flooded, and the performance of the document retrieval system improves the efficiency of office work. Has an important impact. Further, as a document search technique, a keyword search technique using a keyword assigned to a document in advance by a user, a full-text search technique for searching a specified character string from document contents, or a search technique that combines the characteristics of both. There is an index type search technology that automatically extracts keywords from document contents and creates index information in advance to improve the accuracy of full-text search and speed up the search. Among them, index type search technology that is a search system using an index is excellent in performance when searching an unspecified number of documents, and is a search technology widely used including Web information search sites. .
[0003]
The performance of index-type search greatly depends on how important keywords can be extracted from document contents. Natural language analysis processing to extract appropriate keywords and index information weighting processing based on keyword appearance frequency For example, various measures are taken to generate index information. There are also attempts to use information other than character strings included in content in order to improve search accuracy. For example, Google's (registered trademark) Web search engine uses link information between Web documents for keyword weighting, and obtains high search results in a range in which search targets are specified as Web and documents.
[0004]
Further, for example,
Furthermore, for example,
[0005]
[Patent Document 1]
JP-A-7-239854 (see paragraph numbers 0017 to 0040 and FIGS. 1 to 3)
[Patent Document 2]
JP 2001-195422 A (paragraph numbers 0005 to 0013 and FIGS. 1 to 4)
[0006]
[Problems to be solved by the invention]
However, the generation of index information is still a major technical issue for information retrieval systems, not only improving the search accuracy, but also responding to the increased load on the CPU due to advanced index generation processing, and improving the coverage of search target documents The technical improvement of the entire system for performing a search such as support for various document formats is also a major technical problem of the document search system. From this point of view, the conventional document search device or document search device system does not say that index information is generated in an optimum system environment, and as a result, the search flexibility in the field is lacking. At the same time, the search accuracy is further prevented. These problems are still not solved in the techniques of
[0007]
The present invention has been made in view of the above-described problems, and an object of the present invention is to unify a document search method using access history information to a document indicating how a document is used and how it has been used. Accordingly, an object of the present invention is to provide an information processing apparatus, an information processing program, and an information processing method capable of facilitating document search by generating effective keyword information with a small processing load.
[0008]
[Means for Solving the Problems]
In order to achieve the above object, the present invention provides an information processing apparatus that generates a keyword for searching a document, and obtains history information obtained from an access history when the document is operated. And keyword extraction means for extracting the keyword for document search from the history information based on the history information acquired by the history acquisition means.
[0009]
Further, the present invention is an information processing program for causing a computer to execute a process for generating a keyword for searching for a document, and obtains history information obtained from an access history when the document is operated. Based on the history information acquired by the history acquisition step, the computer is caused to execute an acquisition function and a keyword extraction function for extracting the document search keyword from the history information.
[0010]
The present invention is also an information processing method for generating a keyword for searching a document, a history acquisition step for acquiring history information obtained from an access history when the document is operated, and the history acquisition step And a keyword extraction step of extracting the document search keyword from the history information based on the history information acquired by the above.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
The document search apparatus of the present invention is based on operation history information obtained from a history of operating a document, such as operation content information of a document, business content information using the document, or related document information of a document. Generate a keyword for search, generate index information using this keyword, register it in the database, and then search the document using this index information, or embed the generated keyword in the document As a result, the document search is performed using the keyword. This makes it possible to use highly accurate information that is highly likely to be actually used as a search keyword, and can also be applied to a search for non-text sentences. In addition, it is possible to perform a high-accuracy search that covers all documents by a full-text search.
[0012]
Embodiments of the present invention will be described below.
FIG. 1 is a block diagram showing a configuration of a document search system according to an embodiment of the present invention. This document search system exists on a network with a
[0013]
A
[0014]
The
[0015]
The
[0016]
The
[0017]
In the configuration shown in FIG. 1, the
[0018]
The
[0019]
The
[0020]
The
[0021]
When extracting related documents from history information, it is not possible to know which is related history only by history information. Therefore, business analysis processing from document access history and document association from business history created by business analysis processing. Process.
The business history generation process from the document access history is performed as follows, for example. Focusing on characteristic document access histories such as printing, file storage, and mail transmission that occur at the time of business separation, business history is created by separating document access history that is continuous in time series.
For example, the following processing is performed as the document association processing from the business history. After aggregating data in a spreadsheet, pasting the results into a presentation document or referencing past emails to create new emails, a pattern that is fixed to some extent regardless of the type of business. Since it is considered that the access according to this occurs, the relation can be derived by defining this access pattern in advance and comparing it with the document access history without the business history. For example, from the pattern “document B updated after opening document A within the same business”, “B is derivative information of A” contrary to the relationship “A is reference information of B”. Can lead to the relationship.
[0022]
The
The index creation unit 9 as an index creation unit uses the keywords extracted by the
[0023]
The
The
The
[0024]
The
[0025]
FIG. 2 is a diagram showing an example of the configuration and contents of the
In the “operation content” item column, the operation content performed on the document by the user is recorded. The types of operations include Open, Save, Delete, Print, Send (mail transmission), and the like.
[0026]
In the “user name” item column, user information for identifying the user who performed the operation is recorded. For example, the name of the user who performed the operation is recorded.
In the “document” item column, information for identifying a document to be investigated is recorded. For example, if the investigation target is a web document, a URL (for example, HYPERLINK "http://www.b-car.co.jp" http: // www. b-car. co. jp ), And if it is a Windows shared file, the network path (eg, Windows, server name, share name, path name, file name) HYPERLINK "\\\\ server1 \\ dsr \\ cars.doc" \\ server1 \ dsr \ cars. doc ).
[0027]
In the “document title” item column, the title of the document obtained from the application when the user operates the document is recorded. For example, in the case of a new car information document, new car information (for example, company A new car information) of each automobile company, event information about the new car (for example, spring new car), and the like are recorded.
In the “page” item, the page number of the target operation is recorded. Note that this field is blank when the operation target is the entire document.
In the “transmission / output destination” item column, information on the transmission destination or the output destination is recorded with respect to the history of document transmission and output operations. For example, if the content of the operation is a print, the name of the printer that performed the print (for example, Printer A), or the Send (send) by e-mail, the user name of the user included in the destination (for example, Fujiwara) Record.
[0028]
In the “peripheral keyword” item column, keyword information (for example, vehicle type A, vehicle type B, motorcycle, etc.) included in the operated document is recorded. Note that the keyword information may be included in advance in the document to be operated, or may be generated dynamically from the document content by the history collection means 2 of the
[0029]
For example, the computer divides text information into vocabulary units by morphological analysis processing that analyzes natural language by decomposing parts of speech in the document, counts the number of occurrences of each vocabulary in the document, and the number of appearances A method is used in which keywords having a large number of characters are used. In addition, if the target of the search operation is not the entire document but a part of the document such as a page, the keyword is extracted from the information contained in the target page instead of extracting the keyword from the entire document. The method is used. At this time, the peripheral keyword is not essential, and the processing may be omitted according to the system load.
[0030]
FIG. 3 is a diagram showing an example of the configuration and contents of the document information DB shown in FIG. That is, this figure shows the configuration and contents of the
In the “document” item column, an identifier (for example, c: ¥ abc.doc) of a document to be searched for document information is described. The description method of the information included in this field is the same as the information of the “document” item described in the configuration and contents of the
[0031]
In the “page” item column, the page number to be searched is recorded when the search target is not the whole document but one part in the document. If the search target is the entire document, this field is blank.
In the “access count” field, the number of accesses that have occurred for the document or part to be searched is recorded.
In the item column of “reference document / reference count”, a document (for example, def.doc) referred to when creating or updating a document or part to be searched is recorded. In order to distinguish frequently referred documents from other documents, the number of references is recorded together with the document name. For example, def. When doc is referenced three times, def. Record as doc / 3.
[0032]
In the item column of “derived document / referenced count”, a document (for example, cars.doc) created by referring to a document or part to be searched is recorded. In addition, when the derived document is created, the number of times that the search target document is referred is recorded.
In the item column of “simultaneous use document”, a document that is frequently used at the same time when a document or a part to be searched is accessed (for example, HYPERLINK “http://www.a-car.co”). .Jp " http: // www. a-car. co. jp ).
In the “keyword” item column, keyword information (for example, vehicle type A, vehicle type B, etc.) included in the document or part to be searched is recorded. The keyword information includes keyword information recorded in the peripheral keywords of the
[0033]
FIG. 4 is a diagram showing an example of the configuration and contents of the
[0034]
In the “document” item column, identification information (for example, c: ¥ abc.doc) of a document to be searched is recorded. In this example, the same information as the field information in the “document” item column included in the
In the “page” item column, the page number of the part is recorded when the search result is not the whole document but the part of the document.
In the “keyword” item column, a list of keywords included in the target document or part (for example, company A, car, car life, etc.) is recorded. When the
[0035]
In the “weight” item column, the weight (importance) for each keyword is recorded. A keyword having a larger weight value is recognized as a keyword that better represents the target document / part. For example, in “c: ¥ abc.doc” in the “document” item column, the weight of “car type A” is “10” and the weight of “car model B” is “3”. "Means that the importance of the keyword is much higher than" car type B ".
In the document search process using the
[0036]
Next, an operation sequence performed by the document search system of the present invention will be described in detail using a flowchart. FIG. 5 is a flowchart showing the flow of history collection processing performed by the client terminal in the document search system according to the present embodiment. First, the
[0037]
FIG. 6 is a flowchart showing a flow of processing from reception of operation history information to update of the index DB, which is performed by the
[0038]
First, when the
[0039]
That is, in the
[0040]
Furthermore, in this embodiment, keywords can be extracted and registered effectively by adding the following steps S15 to S18. That is, it is determined whether or not the document search system is set to perform history analysis (that is, whether or not the
[0041]
Next, when the
[0042]
FIG. 7 is a diagram illustrating an example of rules when the
[0043]
Hereinafter, the keyword extraction rules performed by the
In the “add creator” rule, the name of the creator who created the document is extracted as an additional keyword, and is registered in the
In the “add creation date” rule, the date and time when the document was created is extracted as an additional keyword and is registered in the
In the “add server name where document is located” rule, the server name of the server where the document is located is extracted as an additional keyword and registered in the
[0044]
In the “add contents of access to document” rule, operation contents performed by the user such as browsing, printing, deletion, transfer, transmission, etc. are extracted as additional keywords, and the index creating unit 9 stores them in the
In the “add destination” rule, when the document is transmitted by e-mail or the like, the user name of the destination (transmission destination) is extracted as an additional keyword, and is registered in the
In the “add access frequency” rule, additional keywords such as “high frequency” and “low frequency” are extracted according to the access frequency of the document, and are registered in the
That is, “high frequency” is registered in the
[0045]
In the “add access count” rule, additional keywords such as “popular” when the total access count is high and “unpopular” when the total access count is low are extracted according to the document access count. Then, the index creation unit 9 registers it in the
In the “add output destination” rule, when the document is printed out, the printer name of the output destination is extracted as an additional keyword, and is registered in the
That is, the device name of the data output destination is registered in the
[0046]
In the “add related document keyword” rule, keyword information included in the related document of the reference document, derived document, and simultaneous use document recorded in the
In the “add related document title” rule, keyword information included in the related document titles of the reference document, derivative document, and simultaneous use document recorded in the
[0047]
FIG. 8 is a diagram illustrating an example of rules when the
Note that the rules shown in FIG. 8 can be arbitrarily selected and used according to the configuration and load of the document search system, and it is not necessary to use all the rules. Also, a new rule can be added and used.
[0048]
As in the case of “the number of accesses of the document including the keyword> 10”, as a rule when the number of accesses to the related document is large, the weight of the keyword is increased when the keyword of the related document of the document is registered. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
As a rule when the number of accesses to the part of the related document is large, such as “the number of accesses of the part including the keyword> 10”, the keyword weight is increased when the keyword of the part of the document related document is registered. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
[0049]
As a rule when there is a history of printing a part including the keyword in the past, such as “number of output of the part including the keyword> 1,” the weight of the keyword is increased considering that the document / part is an important document. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
When registering a keyword for a reference document / part when a document is created or updated, such as “Keyword of related document with reference count of 2 or more”, when the reference number for the reference document / part is large, Increase keyword weights by assuming that keywords are highly relevant. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
[0050]
When registering a keyword of a derived document / part created by referring to a document as a rule of “derived keyword”, if the number of references from the derived document / part is large, the keyword is strongly related. Think and increase keyword weight. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
As a rule of “keyword of related document that has been printed”, among the keywords included in the related document, the weight of the keyword of the related document that has been subjected to specific high importance processing such as printing or transmission is increased. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
As a rule of “document created by a specific user”, the weight of a keyword included in a document created by a specific user is increased. That is, the index creation unit 9 increases the keyword weight by “1” and registers it in the
[0051]
The embodiment described above is an example for explaining the present invention, and the present invention is not limited to the above-described embodiment, and various modifications can be made within the scope of the gist of the invention. That is, in the above embodiment, the extracted keyword information is registered in the
[0052]
In the embodiment of the present invention, the function for carrying out the invention is recorded in advance in the apparatus. However, the present invention is not limited to this, and the same function may be downloaded from the network to the apparatus. Those having these functions stored in a recording medium may be installed in the apparatus. The recording medium may be in any form as long as it can store a program such as a CD-ROM and can be read by the apparatus. In addition, the function obtained by installing or downloading in advance may be realized in cooperation with an OS (operating system) inside the apparatus.
[0053]
【The invention's effect】
As described above, according to the present invention, since highly reliable keyword information based on a user's operation history is added to a document, search accuracy can be improved. Further, by using related document information, keywords that are not included in the document itself can be added, and search flexibility can be enhanced. In addition, even if the document to be searched is a document that does not contain text information such as images and sounds, keyword information is added using history information and related documents, and the search target by keyword is the same as for documents that contain text. can do.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a document search system in an embodiment of the present invention.
FIG. 2 is a diagram showing an example of the configuration and contents of a history DB shown in FIG.
3 is a diagram showing an example of the configuration and contents of a document information DB shown in FIG.
4 is a diagram showing an example of the configuration and contents of an index DB shown in FIG. 1. FIG.
FIG. 5 is a flowchart showing a flow of history collection processing performed by a client terminal in the document search system in the embodiment of the present invention.
FIG. 6 is a flowchart showing a flow of processing from operation history information reception to index DB update performed by the history server in the document search system according to the embodiment of the present invention.
FIG. 7 is a diagram illustrating an example of a rule when a keyword extraction unit of a history server extracts a keyword.
FIG. 8 is a diagram illustrating an example of rules when a keyword extraction unit weights keywords.
[Explanation of symbols]
DESCRIPTION OF
Claims (13)
前記ドキュメントを操作したときのアクセス履歴から得られる履歴情報を取得する履歴取得手段と、
前記履歴取得手段により取得された履歴情報に基づいて、該履歴情報から前記ドキュメント検索用のキーワードを抽出するキーワード抽出手段と、を備えてなる情報処理装置。An information processing apparatus for generating a keyword for searching a document,
History acquisition means for acquiring history information obtained from an access history when the document is operated;
An information processing apparatus comprising: keyword extraction means for extracting the document search keyword from the history information based on the history information acquired by the history acquisition means.
前記履歴取得手段により取得された履歴情報に基づいて、該履歴情報から前記キーワード抽出手段が抽出するキーワードは、前記ドキュメントに関する作成者、作成日時、作成場所、アクセス内容、及びアクセス時間のうちの少なくとも一つの情報に関するものであることを特徴とする情報処理装置。The information processing apparatus according to claim 1,
Based on the history information acquired by the history acquisition means, the keyword extracted by the keyword extraction means from the history information is at least one of the creator, creation date and time, creation location, access content, and access time related to the document. An information processing apparatus characterized by being related to one piece of information.
前記キーワード抽出手段は、該キーワード抽出手段により抽出されたキーワードに対して、前記履歴情報に基づいて、重み付け情報を付加する重み付け手段を備えることを特徴とする情報処理装置。The information processing apparatus according to claim 1,
The information processing apparatus according to claim 1, wherein the keyword extraction unit includes a weighting unit that adds weighting information to the keyword extracted by the keyword extraction unit based on the history information.
前記履歴取得手段により取得された履歴情報に基づいて該履歴情報の解析を行う履歴解析手段を備え、
前記キーワード抽出手段は、前記履歴情報と前記履歴解析手段の解析結果とを用いてキーワードを抽出することを特徴とする情報処理装置。The information processing apparatus according to claim 1,
A history analysis means for analyzing the history information based on the history information acquired by the history acquisition means,
The keyword extracting unit extracts a keyword using the history information and an analysis result of the history analyzing unit.
前記キーワード抽出手段により抽出されたキーワードを前記ドキュメントに付加するキーワード付加手段を備えたことを特徴とする情報処理装置。The information processing apparatus according to claim 1,
An information processing apparatus comprising keyword adding means for adding a keyword extracted by the keyword extracting means to the document.
前記キーワード抽出手段により抽出されたキーワードに基づいて前記ドキュメントを検索するためのインデックス情報を生成するインデックス情報生成手段と、を備えてなる情報処理装置。The information processing apparatus according to claim 1,
An information processing apparatus comprising: index information generating means for generating index information for searching the document based on the keyword extracted by the keyword extracting means.
前記インデックス情報生成手段により生成されたインデックス情報を記憶するインデックス情報記憶手段と、
前記インデックス情報記憶手段に記憶されたインデックス情報を用いてドキュメントの検索を行う検索手段と、を備えてなる情報処理装置。The information processing apparatus according to claim 6,
Index information storage means for storing index information generated by the index information generation means;
An information processing apparatus comprising: search means for searching for a document using index information stored in the index information storage means.
前記ドキュメントを操作したときのアクセス履歴から得られる履歴情報を取得する履歴取得機能と、
前記履歴取得ステップにより取得された履歴情報に基づいて、該履歴情報から前記ドキュメント検索用のキーワードを抽出するキーワード抽出機能と、をコンピュータに実行させる情報処理プログラム。An information processing program for causing a computer to execute processing for generating a keyword for searching for a document,
A history acquisition function for acquiring history information obtained from an access history when the document is operated;
An information processing program for causing a computer to execute a keyword extraction function for extracting a keyword for document search from the history information based on the history information acquired by the history acquisition step.
前記キーワード抽出機能により抽出されたキーワードに基づいて前記ドキュメントを検索するためのインデックス情報を生成するインデックス情報生成機能をコンピュータに実行させる情報処理プログラム。An information processing program according to claim 8,
An information processing program for causing a computer to execute an index information generation function for generating index information for searching the document based on a keyword extracted by the keyword extraction function.
前記インデックス情報生成機能により生成されたインデックス情報を記憶するインデックス情報記憶機能と、
前記インデックス情報記憶機能に記憶されたインデックス情報を用いてドキュメントの検索を行う検索機能と、をコンピュータに実行させる情報処理プログラム。An information processing program according to claim 9,
An index information storage function for storing the index information generated by the index information generation function;
An information processing program for causing a computer to execute a search function for searching for a document using index information stored in the index information storage function.
前記ドキュメントを操作したときのアクセス履歴から得られる履歴情報を取得する履歴取得ステップと、
前記履歴取得ステップにより取得された履歴情報に基づいて、該履歴情報から前記ドキュメント検索用のキーワードを抽出するキーワード抽出ステップと、を備えてなる情報処理方法。An information processing method for generating a keyword for searching a document,
A history acquisition step of acquiring history information obtained from an access history when the document is operated;
And a keyword extracting step of extracting the document search keyword from the history information based on the history information acquired by the history acquiring step.
前記キーワード抽出ステップにより抽出されたキーワードに基づいて前記ドキュメントを検索するためのインデックス情報を生成するインデックス情報生成ステップと、を備えてなる情報処理方法。An information processing method according to claim 11,
An index information generating step of generating index information for searching the document based on the keyword extracted by the keyword extracting step.
前記インデックス情報生成ステップにより生成されたインデックス情報を記憶するインデックス情報記憶ステップと、
前記インデックス情報記憶ステップに記憶されたインデックス情報を用いてドキュメントの検索を行う検索ステップと、を備えてなる情報処理方法。An information processing method according to claim 12,
An index information storage step for storing the index information generated by the index information generation step;
A search step for searching for a document using the index information stored in the index information storage step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003183975A JP2005018530A (en) | 2003-06-27 | 2003-06-27 | Information processor, information processing program, and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003183975A JP2005018530A (en) | 2003-06-27 | 2003-06-27 | Information processor, information processing program, and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005018530A true JP2005018530A (en) | 2005-01-20 |
Family
ID=34183884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003183975A Pending JP2005018530A (en) | 2003-06-27 | 2003-06-27 | Information processor, information processing program, and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005018530A (en) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122685A (en) * | 2005-09-30 | 2007-05-17 | Ricoh Co Ltd | Information processing apparatus, information processing method and information processing program |
JP2007328713A (en) * | 2006-06-09 | 2007-12-20 | Fuji Xerox Co Ltd | Related term display device, searching device, method thereof, and program thereof |
JP2008015790A (en) * | 2006-07-06 | 2008-01-24 | Fujitsu Ltd | File processor and file processing program |
JP2009500747A (en) * | 2005-06-29 | 2009-01-08 | マイクロソフト コーポレーション | Detect, store, index, and search means for leveraging data on user activity, attention, and interests |
EP2048024A1 (en) | 2007-10-11 | 2009-04-15 | TS Tech Co., Ltd | Seat, seat cushion and backrest thereof |
JP2009169924A (en) * | 2007-12-18 | 2009-07-30 | Nippon Telegr & Teleph Corp <Ntt> | Characteristic keyword detection device, characteristic keyword detecting method, program and recording medium |
JP2010061322A (en) * | 2008-09-03 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | Information retrieving device and information retrieval program |
JP2010129061A (en) * | 2008-12-01 | 2010-06-10 | Ntt Docomo Inc | Index creating system, information retrieval system, and index creating method |
JP2010231394A (en) * | 2009-03-26 | 2010-10-14 | Nec Corp | Information processing system, information restoration control method, information restoration program, history storing program, and information storing program |
JP2013012155A (en) * | 2011-06-30 | 2013-01-17 | Toshiba Corp | Information processing device, client management method and client management system |
JP2015528611A (en) * | 2012-09-13 | 2015-09-28 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Dynamic data acquisition method and system |
JP2018041337A (en) * | 2016-09-08 | 2018-03-15 | キヤノン株式会社 | File management system and control method |
JP2019528516A (en) * | 2016-07-27 | 2019-10-10 | グーグル エルエルシー | Trigger application information |
JP2021068082A (en) * | 2019-10-21 | 2021-04-30 | 富士通株式会社 | File recommendation system, file recommendation program, file recommendation method, and file recommendation device |
JPWO2021171546A1 (en) * | 2020-02-28 | 2021-09-02 |
-
2003
- 2003-06-27 JP JP2003183975A patent/JP2005018530A/en active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009500747A (en) * | 2005-06-29 | 2009-01-08 | マイクロソフト コーポレーション | Detect, store, index, and search means for leveraging data on user activity, attention, and interests |
JP2007122685A (en) * | 2005-09-30 | 2007-05-17 | Ricoh Co Ltd | Information processing apparatus, information processing method and information processing program |
JP2007328713A (en) * | 2006-06-09 | 2007-12-20 | Fuji Xerox Co Ltd | Related term display device, searching device, method thereof, and program thereof |
JP2008015790A (en) * | 2006-07-06 | 2008-01-24 | Fujitsu Ltd | File processor and file processing program |
EP2048024A1 (en) | 2007-10-11 | 2009-04-15 | TS Tech Co., Ltd | Seat, seat cushion and backrest thereof |
JP2009169924A (en) * | 2007-12-18 | 2009-07-30 | Nippon Telegr & Teleph Corp <Ntt> | Characteristic keyword detection device, characteristic keyword detecting method, program and recording medium |
JP2010061322A (en) * | 2008-09-03 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | Information retrieving device and information retrieval program |
US8285723B2 (en) | 2008-12-01 | 2012-10-09 | Ntt Docomo, Inc. | System and method for indexing documents and retrieving similar document based on link transition count distance calculations |
JP4633162B2 (en) * | 2008-12-01 | 2011-02-16 | 株式会社エヌ・ティ・ティ・ドコモ | Index generation system, information retrieval system, and index generation method |
JP2010129061A (en) * | 2008-12-01 | 2010-06-10 | Ntt Docomo Inc | Index creating system, information retrieval system, and index creating method |
JP2010231394A (en) * | 2009-03-26 | 2010-10-14 | Nec Corp | Information processing system, information restoration control method, information restoration program, history storing program, and information storing program |
JP2013012155A (en) * | 2011-06-30 | 2013-01-17 | Toshiba Corp | Information processing device, client management method and client management system |
US10025807B2 (en) | 2012-09-13 | 2018-07-17 | Alibaba Group Holding Limited | Dynamic data acquisition method and system |
JP2015528611A (en) * | 2012-09-13 | 2015-09-28 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | Dynamic data acquisition method and system |
JP2019528516A (en) * | 2016-07-27 | 2019-10-10 | グーグル エルエルシー | Trigger application information |
US11106707B2 (en) | 2016-07-27 | 2021-08-31 | Google Llc | Triggering application information |
JP2018041337A (en) * | 2016-09-08 | 2018-03-15 | キヤノン株式会社 | File management system and control method |
JP2021068082A (en) * | 2019-10-21 | 2021-04-30 | 富士通株式会社 | File recommendation system, file recommendation program, file recommendation method, and file recommendation device |
JP7294055B2 (en) | 2019-10-21 | 2023-06-20 | 富士通株式会社 | File recommendation system, file recommendation program, file recommendation method, and file recommendation device |
JPWO2021171546A1 (en) * | 2020-02-28 | 2021-09-02 | ||
WO2021171546A1 (en) * | 2020-02-28 | 2021-09-02 | 三菱電機株式会社 | Document search device, program, and method for adding new attribute value |
JP7106021B2 (en) | 2020-02-28 | 2022-07-25 | 三菱電機株式会社 | Document retrieval device, program and new attribute value addition method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11947513B2 (en) | Search phrase processing | |
US6976053B1 (en) | Method for using agents to create a computer index corresponding to the contents of networked computers | |
CN100462969C (en) | Method for providing and inquiry information for public by interconnection network | |
US7636714B1 (en) | Determining query term synonyms within query context | |
JP2009500719A (en) | Query search by image (query-by-imagesearch) and search system | |
US8595229B2 (en) | Search query generator apparatus | |
AU6509800A (en) | Indexing a network with agents | |
JP2005018530A (en) | Information processor, information processing program, and information processing method | |
JP2015525929A (en) | Weight-based stemming to improve search quality | |
KR20020075359A (en) | System and method for capturing and managing information from digital source | |
Jepsen et al. | Characteristics of scientific Web publications: Preliminary data gathering and analysis | |
JP2003271609A (en) | Information monitoring device and information monitoring method | |
WO2008016742A1 (en) | Cap-sensitive text search for documents | |
JP3664923B2 (en) | Information source observation apparatus, information source observation method, and computer-readable recording medium recording information source observation program | |
JP2011086156A (en) | System and program for tracking of leaked information | |
JP2003173351A (en) | Method, device, program and storage medium for analysis, collection and retrieval of information | |
JP7272540B2 (en) | Information provision system, information provision method, and data structure | |
JP2022114721A (en) | Information providing system and information providing method | |
JP2006146458A (en) | Document search device and document search program | |
JP2003030228A (en) | System and method for retrieving information, and program | |
Tolomei | Enhancing web search user experience: from document retrieval to task recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050615 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090331 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090528 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090803 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090804 |