JP5233233B2 - 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム - Google Patents

情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム Download PDF

Info

Publication number
JP5233233B2
JP5233233B2 JP2007262252A JP2007262252A JP5233233B2 JP 5233233 B2 JP5233233 B2 JP 5233233B2 JP 2007262252 A JP2007262252 A JP 2007262252A JP 2007262252 A JP2007262252 A JP 2007262252A JP 5233233 B2 JP5233233 B2 JP 5233233B2
Authority
JP
Japan
Prior art keywords
information
index
time
search
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007262252A
Other languages
English (en)
Other versions
JP2009093349A (ja
Inventor
真樹 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007262252A priority Critical patent/JP5233233B2/ja
Priority to US12/244,551 priority patent/US8452788B2/en
Publication of JP2009093349A publication Critical patent/JP2009093349A/ja
Priority to US13/862,983 priority patent/US20130232175A1/en
Application granted granted Critical
Publication of JP5233233B2 publication Critical patent/JP5233233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラムに関し、特に、情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラムに関する。
Google(登録商標)等に代表されるWeb検索システムの普及により全文検索システムが一般化してきており、多くのユーザにとって身近なものとなってきている。使い方にもよるが、既存のブラウザに備えられたブックマーク機能や、各種ポータルサイトを利用するよりも、検索システムを用いて情報を検索した方が鮮度の高い情報を得ることが可能となってきている。
この全文検索システムは、インデックス(索引)を予め作成しておき、このインデックスを用いて、高速に電子ファイルを検索する仕組みが主流となっている。
非特許文献1には上記インデックスとして最も一般的な転置ファイルの作成方法が記載されている。
これらの方式によって作成されたインデックスは、一般的に、非圧縮で、元文書の200〜300%の容量となり、大きな容量を必要とする。しかも、検索結果の鮮度を保つためには、検索対象データの状態に応じて動的に更新する必要がある。
例えば、1日前に作成されたインデックスの場合、それ以降に登録又は更新された検索対象データの状態は反映されていない。当然に、検索結果も1日前の時点のものとなり、新規に登録されたデータを見逃したり、削除されたデータへのアクセスを試みてしまうことが起こりうる。
このような事情の下、特許文献1には、新たに登録された文書ファイルに対応するインデックスを作成してメモリに格納しておき、文書検索部は、メモリに格納された新規文書データのインデックスデータと、ディスク装置に格納された既存の文書ファイルのインデックスデータの双方を用いて文書ファイルを検索する文書検索装置が開示されている。
また特許文献2には、新規文書をインデックスに登録する際に、主インデックスよりも小さな副インデックスに登録し、検索時には、各インデックスにアクセスして検索し、その結果を合わせて検索結果とする文書検索装置が開示されている。
また関連する技術としては、情報検索装置の一種である質問応答システムを開示する特許文献3や時系列データ処理装置を開示する特許文献4がある。前者の特許文献3には、相対的な表現が含まれる質問に対して、的確な回答を求めるために、質問から時間軸等の軸に対する相対表現を解析する相対表現解析手段と、抽出情報データの中からユーザの質問に対する回答を検索する回答検索手段とを備える質問応答装置が開示されている。
また、特許文献4には、時系列単位で分割されたデータベースユニットで構成され、センサ等により収集したデータを日付けに対応するデータベースユニットに格納し、検索時に参照するインデックスの局所化を図り、高速な検索を実現する時系列データ処理装置が開示されている。
特開平9−223152号公報 特開平7−146880号公報 特開2006−91993号公報 特開平7−325839号公報 北研二、津田和彦、獅々堀正幹著、「情報検索アルゴリズム」共立出版、2002年1月1日、pp.6、pp.160〜179
情報検索システムの付加価値を向上させる一つの試みとして、任意の時点、任意の時間範囲を指定した検索結果を表示できる機能(以下、「時系列検索機能」という)の実現が望まれるが、その前提として、上記用途に用いることのできる時間情報を持った情報検索用のインデックスを用意する必要がある。
特に、新規に時系列検索機能を備える情報検索システムを立ち上げるような場合には、上記したインデックスの準備作業ができていないため、時系列検索機能の効果を十分に得られないことが予想される。
いずれにしても、情報検索システムの検索対象データが如何なる時間情報を持つべきであり、どの時点において検索され、どの時点からは検索対象外となるべきかを判別することが、上記した時系列検索機能を備えた情報検索システムの性能に大きく影響すると考えられる。
本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、検索時点を指定する時系列検索機能の性能を向上することのできる情報検索用インデックスの登録装置、該装置を利用した情報検索システム、情報検索方法及びプログラムを提供することにある。
本発明の第1の視点によれば、情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、検索対象となる情報を取得する情報取得手段と、前記検索対象の情報について、該情報が持つ時間情報を特定する時間情報特定手段と、前記時間情報特定手段によって特定された時間情報を用いて前記インデックスを更新するインデックス更新手段と、を備え、情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する情報検索システムが提供される。また、別の視点によれば、前記情報検索において指定可能とする時間単位と前記インデックスの集合の時間方向の区分状態とが同一となるよう前記インデックスの集合の時間方向の区分状態に基づいて前記情報検索において指定可能とする時間単位を決定することもできる。
本発明の第2の視点によれば、情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録装置であって、検索対象となる情報を取得する情報取得手段と、前記検索対象の情報について、該情報が持つ時間情報を特定する時間情報特定手段と、前記インデックス中の、前記時間情報特定手段によって特定された時間情報に応じた部分を更新するインデックス更新手段と、を備え、情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更するインデックスの登録装置が提供される。
本発明の第3の視点によれば、情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録装置を構成するコンピュータに実行させるプログラムであって、検索対象となる情報を取得する処理と、前記検索対象の情報について、該情報が持つ時間情報を特定する処理と、前記インデックス中の、前記時間情報特定手段によって特定された時間情報に応じた部分を更新する処理と、情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する処理と、を前記コンピュータに実行させるプログラムが提供される。
本発明の第4の視点によれば、情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録方法であって、情報検索システムに接続されたインデックス登録手段が、検索対象となる情報を取得し、前記インデックス登録手段が、前記検索対象の情報について、該情報が持つ時間情報を特定し、前記インデックス登録手段が、前記時間情報特定手段によって特定された時間情報を用いて前記インデックスを更新し、さらに、情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更すること、を特徴とするインデックスの登録方法が提供される。
本発明によれば、時系列検索機能の出力結果の精度を向上させることが可能となる。その理由は、検索対象データの時間情報を特定し、該機能を実現する情報検索用のインデックス中の対応部分に反映させるためである。また、本発明によれば、時系列検索機能付き情報検索システムの導入・立ち上げも容易化される。その理由は、過去の時点には存在していた検索対象データや未来の時点に存在しているはずのデータについても、その時間情報を特定して、正しくインデックスに反映させるためである。
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る情報検索システムの構成を示す図である。図1を参照すると、本実施形態に係る情報検索システムは、情報格納部1と、インデックス登録手段2と、検索手段3と、検索条件入力手段4と、検索結果出力手段5と、インデックス格納部100とを備えている。
以下本実施形態において、本発明の理解をより容易にするため、インデックス格納部100は、予め定める基準に従い時系列に新設・保管(以下、この新設と保管によるインデックスの分割状態を「区分」と称する。)されたインデックスの集合を格納しているものとして説明する。これらのインデックスは、検索条件により直接又は間接的に指定される情報検索の基点に応じて選択的に参照され、恰も任意の時点で検索を行ったかのような検索結果を再現するのに使用される。なお、図1では、インデックス10〜14の5つに区分した構成を示しているが、区分の数に制限はなく、例えば、システムの運用開始からの時間の経過に従い新規のインデックスを追加していくものとしてもよい。区分されたインデックスの集合(図1のインデックス10〜14)の管理については後に詳述する。
上記したインデックス格納部100は、例えば、メモリや磁気ディスク装置等の記憶装置によって実現することができる。また、インデックス10〜14は、それぞれ異なる記憶装置に保存されてもよいし、同じ記憶装置に保存されてもよい。また、インデックス10〜14の物理的あるいは論理的な記憶位置や構成も情報検索システムの用途や規模によって適宜変更することができる。
図1の各手段はそれぞれ概略次のように動作する。
情報格納部1は、検索対象の情報を保持する機能を果たす。情報格納部1は、例えば、
・ユーザが保持するパーソナルコンピュータのハードディスク装置や、
・NAS(Network Attached Storage)等の外部装置、
・WWW(World Wide Web)、
・Intranet(企業内のWebページ群)、
・バックアップのための記憶装置および情報システム
等が挙げられる。
検索対象の情報(検索対象データ)とは、上記のような情報格納部内に存在するWebページやオフィス文書、画像、動画等の電子ファイル、データベース内の構造化された情報等がある。
インデックス登録手段2は、情報取得(受け入れ)手段21と、時間特定手段22と、インデックス更新手段23と、を含んで構成される。インデックス登録手段2を、パーソナルコンピュータ等の情報処理装置によって構成したインデックス登録装置により構成することもできる。
情報取得(受け入れ)手段21は、情報格納部1から検索インデックスに登録する情報を取得し(あるいは、情報格納部1から渡された情報を受け入れる)、時間特定手段22に対して渡す。
時間特定手段22は、情報取得手段21が受け取った検索対象の情報に対する時間情報を特定する。時間情報を特定する方法としては、検索対象の情報に付与されているメタ情報、検索対象の情報内に記録されている内容から識別する、外部の情報管理システムから該情報に関連する時間情報を取得する、等の方法が挙げられる。そして、情報特定手段22は特定した時間情報及び検索対象情報をインデックス更新手段23に対して渡す。
インデックス更新手段23は、情報特定手段22から時間情報及び検索対象情報を受け取る。そして、インデックス更新手段23は、受け取った時間情報を用いて、インデックス格納部100内のインデックス10〜14の中から、インデックスを登録又は更新すべきインデックスを特定する。登録又は更新すべきインデックスの特定後、インデックス更新手段23は、検索対象の情報のインデックス更新が必要ならば、該検索対象の情報の内容を解析しN−Gramなどの方法を用いてインデックスを更新する。
なお当然ながら、情報取得手段21が直接インデックス更新手段23に検索対象の情報を渡し、情報特定手段22が時間情報だけをインデックス更新手段23に対して渡すような構成であってもよい。
また、インデックス登録又は更新処理を行う時間やクロールを行った時間を、時間情報とするのならば、情報特定手段22は特別な処理を行うことなくインデックス更新手段23に対して渡すように動作すればよい。もちろん、検索対象の情報の種別に応じて、上記したメタ情報を用いる方法、検索対象の情報そのものから識別する方法や上記インデックス更新手段23で特定可能な時間情報を用いる方法等を選択するようにしても良いし、上記した各方法により得られた時間情報のうち予め定める優先順位に従い、複数の特定可能な時間情報の中から確度の高い時間情報を採用するようにしてもよい。
検索手段3は、検索条件入力手段4より指定された検索キーワードや検索する時点(いつの時点における文書群に対して検索するか)等の検索条件を受け取り、該検索条件に応じて、複数のインデックス10〜14を選択的に用いて検索処理を行う。検索手段3は、検索処理の結果を、検索結果出力手段5に渡す。検索手段3による検索処理の結果は、インデックス10〜14の状態にもよるが理論的には、インデックスの保管と選択的使用を行わない従来の情報検索システムにおいて任意の時点で情報検索を行った場合に得られる検索結果と等価となる。
検索条件入力手段4は、
・検索するための検索キーワードや、
・検索の基点となる情報、
等の検索条件を指定し、検索手段3に対して受け渡す機能を果たす。検索の基点となる情報は、例えば年月日、あるいは、時、分等の時間情報のほか、時間に関連したイベント等の契機情報であってもよい。
検索条件入力手段4の一例として、例えば、ユーザのWebブラウザ上から入力する検索キーワードの入力ボックス等を用いることができる。
検索結果出力手段5は、検索手段3が行った検索処理の結果を受け取り、ユーザに検索結果として出力する機能を果たす。検索結果出力手段5の一例として、例えば、ユーザのWebブラウザ上に検索結果の一覧を出力するソフトウェアが用いられる。
なお、インデックス登録手段2と、検索手段3と、検索条件入力手段4と、検索結果出力手段5は、コンピュータで動作するプログラム制御により、その機能及び処理が実現される。
図2は、インデックス格納部100におけるインデックスの管理の一例を説明するための模式図である。図2の例の場合、時系列に、1日1回の時間間隔で、インデックスが区分されている。
例えば、現在の日付が200X年Y月N日であり、情報格納部1から新しい情報(検索対象の情報)を取得してきた場合を考える。ここで、時間情報としてインデックス更新・登録の時間、即ち、200X年Y月N日を用いる場合には、200X年Y月N日に対応する最新のインデックス10に対して、当該検索対象の情報のインデックス登録を行う。
同様に、
・1日前のY月N−1日に、取得された検索対象の情報のインデックスは、右隣のインデックス11に保持され、
・2日前のY月N−2日に、取得された検索対象の情報のインデックスは、更に右隣のインデックス12に保持される。
また最新のインデックスは、インデックスの新規作成条件が成立する等の所定の契機で新規に作成される。その結果、それまで最新であったインデックス(例えば、図2のインデックス10)は、2番目に新しいインデックスとなる。
このように、過去の最新インデックスは、そのまま、インデックスとして、順次、保管されていく。この結果、時間の経過とともに、過去のインデックスが増加していくこととなる。
上記したインデックスの新規作成と保管の仕組みは、例えば、インデックス登録手段2の登録先への登録パスを変更することによって実現することができる。
または、最新のインデックス10のデータを複製して過去分のインデックスとし、最新のインデックス10を空にすることによって実現してもよい。
また、最新分のインデックスをその都度新規に作成する代わりに、予め未来及び過去分に渡って複数の未使用インデックスを事前に作成しておいてもよい。
また、所定の契機で最新分のインデックスを新規に作成する代わりに、インデックス登録手段2が行うインデックス登録処理において登録すべきインデックスが存在しない等の必要が生じた際に、新規にインデックスを作成するようにしてもよい。
続いて、図3のフローチャートを参照して、上記のような時系列に従い複数に区分されたインデックスを用いた情報検索システムの検索処理動作について詳細に説明する。
まず、ユーザは検索条件入力手段4を介して、検索条件を入力する(ステップS101)。
検索条件には、
・通常の検索クエリーの情報(検索のキーワード等)と、
・必要ならば、検索処理の基点となる日時の情報(「基点情報」という)
を入力する。
この基点情報は、過去又は将来の視点に基づく検索処理(任意の時点において検索を行った場合と仮定した検索結果の生成)を行う際に必要な情報である。
例えば、過去の視点に基づく検索処理とは、例えば3日前に行った検索処理と全く同等の結果を得たい場合に、3日前に利用可能なインデックスに基づく検索を行うことである。
次に、検索手段3は、基点情報が入力されているかどうか(検索時点の指定有無)を確認する(ステップS102)。
ここで、基点情報が入力されていない場合(ステップS102のNO分岐)、検索手段3は、すべてのインデックスを検索処理に用いるよう選択する(ステップS103)。
一方、基点情報が入力されている場合(ステップS102のYES分岐)、検索手段3は、指定された基点情報以前のインデックスを検索処理に用いるよう選択する(ステップS105)。
上記のとおり検索処理に用いるインデックスが確定すると、検索手段3は、選択したインデックスを用いて検索処理を実行する(ステップS104)。そして、検索手段3は、検索結果出力手段5に対して、検索結果を通知する。
ここで、上記ステップS103におけるインデックスの選択処理について、図4に示した例に即して詳細に説明する。
図4の例では、インデックス10〜17の8つのインデックスが設けられている。検索条件として基点情報が入力されていない場合(基点情報なし)、インデックス10からインデックス17までのすべてのインデックスを用いて検索処理を行う。
なお、本情報検索システムにおいては、同一文書に対してインデックスの区分を跨ぐ形で更新が行われるなどして、時間的に異なる複数のインデックスに、同一文書に対するインデックスデータが格納され、検索結果としてスコアの高い同一の文書が重複して検出されてしまうことが考えられる。この場合、検索手段3に、所定の優先基準により検索結果中の同一文書を整理させることができる。例えば、新しいインデックスで得られた検索結果を優先することで上記不都合を解消できる(図4においては、左側に存在するインデックスを優先する)。
一方、検索条件として基点情報が入力されている場合、例えば、2日前(200X/Y/N−2)における検索結果を再現したい検索要求が行われたとする。このとき、200X/Y/N−2のインデックス状態に基づいて検索処理を行うため、検索手段3は、200X/Y/N−2分のインデックス12以降のインデックスを選択する。
つまり、最新の更新分(200X/Y/N以降の情報)が登録されているインデックス10と、1日前(200X/Y/N−1)の分が登録されているインデックス11とは読み込まず、その他のインデックスを選択して検索処理を行う。
この場合も、基点情報が入力されていない場合と同様に、検索手段3に、所定の優先基準により検索結果中の同一文書を整理し、検索結果に反映させることができる。
以上、本情報検索システムにおける検索処理動作について概説したが、例えば、ステップS102の検索時点の指定において、基点情報だけでなく、時間の範囲を設定できるようにしてもよい。この場合、検索手段3は、指定された時間の範囲に対応するインデックスを検索対象として選択することになる。
例えば、200X/Y/N−1〜200X/Y/N−3と範囲指定された場合に、検索手段3は、インデックス11〜13を検索対象として選択するよう動作する。
上記のような時系列に従い複数に区分されたインデックスを用いた情報検索を行うためには、検索対象の情報のインデックス化の処理が必要である。続いて、そのための事前準備について説明する。
図5は、インデックス登録手段(インデックス登録装置)2による、検索対象の情報を取得し、インデックスに登録するまでの一連の動作を表したフローチャートである。以下、図5のフローチャートを参照して説明する。
最初に、情報取得手段21は、情報格納部1から、インデックスに登録する検索対象の情報(以降、「新規登録情報」と呼ぶ)を取得する(ステップS201)。また、情報格納部1が情報取得手段21に対して新規登録情報を送信する形であってもよい。
次に、時間特定手段22が、上記の新規登録情報の時間情報を特定する(ステップS202)。
新規登録情報の時間を特定する方法としては、次のような方法が挙げられる。
(A)新規登録情報に付属する時間に関するメタ情報を利用する。
(B)新規登録情報に関連付けられて情報格納部1あるいは他の情報管理システムに登録されている、時間に関するメタ情報を利用する。
(C)新規登録情報内に記述されている時間に関する情報を利用する。
(D)新規登録情報内に記述されている情報から推定する。
(E)情報取得手段21が情報格納部1から新規登録情報を取得した時間を利用する。
(F)実際にインデックスに対して登録処理を行う時間を時間情報とする。
時間特定手段22は、上記(A)〜(F)に例示した方法等を利用して特定した時間情報並びに新規登録情報をインデックス更新手段23に対して渡す。
次に、インデックス更新手段23は、インデックス格納部100内に、ステップS202で特定された時間情報に該当するインデックスが存在するかどうかを確認する(ステップS203)。
前記確認の結果、特定された時間情報に該当するインデックスが存在しなかった場合(ステップS203のNO分岐)、インデックス更新手段23は、この時間情報を担当するインデックスを作成し、そのインデックスをインデックス更新対象のインデックスとする(ステップS205)。
反対に、特定された時間情報に該当するインデックスがあった場合(ステップS203がYES分岐)、インデックス更新手段23は、そのインデックスを、新規登録情報の更新又は登録の対象とする(ステップS204)。
次に、インデックス更新手段23は、上記更新対象のインデックスに、当該新規登録情報を更新又は登録する必要があるかどうかを確認する(ステップS206)。
より具体的には、インデックス更新手段23は、まず、ステップS204で更新又は登録の対象としたインデックス内に、情報の種類を特定するための情報が該新規登録情報と一致している、インデックス登録済みの情報があるか否かを確認する。なお、情報の種類を特定するための情報とは、例えば、ファイルのパスやURI(Uniform Resource Identifier)を用いることができる。情報の種類を特定するための情報の他の例としては、別の情報システムが付与したファイルID等が挙げられる。
ここで、該新規登録情報と一致している情報がインデックス内に無ければ(ステップS206のYES分岐)、ステップS207以下の処理が行われる。また、該新規登録情報と一致している情報がインデックス内にある場合であっても登録済みの情報の時間情報と、新規登録情報の時間情報を比較して、新規登録情報が登録済みの情報の時間情報よりも新しければ(ステップS206のYES分岐)、ステップS207以下の処理が行われる。
一方、新規登録情報が登録済みの情報の時間情報よりも古ければ、ステップS207以下の処理を省略することができる(ステップS206のNO分岐)。なお、新規登録情報が登録済みの情報の時間情報よりも古い場合においても、インデックス内に複数の同一な情報を登録するよう、情報検索システムを運用する場合には、ステップS207以下の処理を行うようにしてもよい。この場合は、新規登録情報が登録済みの情報の時間情報と同時刻である場合にのみ、ステップS207以下の処理が省略される(ステップS206のNO分岐)。
次に、インデックス更新手段23は、インデックスに登録するための処理の事前処理を行う(ステップS207)。インデックス手法の一方式である、転置ファイル法により文書のインデックスを作成する例を挙げると、この事前処理は、以下の処理を含む。
・検索対象の文書を読み出してテキストを抽出し、そのテキストからインデックスに登録する索引語を抽出する。
・その索引語の出現位置、回数等を認識する。
・索引語が昇順に並ぶように転置ファイルを並び替える。
その他インデックス化方法の詳細は、非特許文献1等の文献に記載されているため、省略する。
最後に、インデックス更新手段23は、事前処理によって明らかになったインデックスに登録するための情報を、選択されたインデックスに対して更新又は登録する(ステップS208)。
より具体的には、インデックス更新手段23は、選択されたインデックス内に、該検索対象の文書の情報が存在しない場合には、新規追加の処理を行い、インデックス内に該検索対象の文書の情報が存在する場合には、更新の処理を行う。
なお、上記した説明では省略したが、予めインデックスに登録する時間情報の範囲を決めておくことも好ましい。例えば西暦3000年等の遠い未来や、古すぎる過去の時間がステップS202において時間情報として特定された場合に、ステップS205において新規にインデックスを作成せず、対象の情報をインデックスに登録せず、終了するような動作としてもよい。
もちろん、遠い未来や過去に対応するインデックスを作成し、インデックス登録する運用も可能であり、この場合は、基点情報なしの検索条件では検索できないようにした文書や古文書等のバックアップデータを効率よく検索することのできる情報検索システムを得ることができる。
続いて、本情報検索システムにおいて、通常の情報検索システムとは異なる取り扱いとすることもできる。検索対象の情報のインデックスからの削除について、図5を参照して説明する。
新規作成と更新については前述した通りであるが、削除については、削除のイベントに対して時間情報(削除時点)を特定し(ステップS202)、時間情報(削除時点)に該当するインデックスに当該情報が削除された旨の更新処理を行う。削除のイベントにおける時間情報の特定方法としては、情報格納部1からの通知時刻や、クロール時に情報が存在しないことを確認した時刻を時間情報として利用することができる。
より具体的には、削除のイベントの時間情報が、削除された情報が格納されているインデックスの時間担当範囲に含まれる場合には、前記インデックスに対して削除処理を行う。この時間情報が異なる他のインデックスに対しては、該当情報の削除を示す情報をインデックス内に登録することにより、削除処理を実現する。つまり、通常の情報検索システムにおいて行われているインデックスからの完全なる削除処理とは異なるものとなる。
以上、本実施形態の基本構成及びその動作について説明したが、情報検索システムの用途や規模に応じて、最適な実装方法を選択し、適当なその他の変形を加えることができる。例えば、情報格納部1とは別の情報格納部に含まれる情報を、情報検索システムの検索対象に追加することができる。この場合、図5に示したインデックス登録処理において、情報格納部1を他の情報格納部に入れ替えればよい。
また、本実施形態においては、各インデックスの担当する時間範囲は、インデックス格納部100あるいはインデックス更新手段23等の、本実施形態のいずれかの要素によって管理されるものとしたが、各インデックスが担当する時間範囲を管理するデータベース等を別途追加してもよい。
また、図2の例等では、一日単位でインデックスを区分するものとして説明したが、現在から1週間前までは1日単位、それより以前は1ヶ月単位等、個々のインデックスが担当する時間範囲が異なってもよい。また、固定的な時間範囲でなく、インデックスのサイズにより時間範囲を決定してもよい。例えば、登録処理時点において最新のインデックスが既定のサイズを超えた際に、より新しいインデックスを作成する等の運用が考えられる。
なお、インデックスの区分処理(新設)は、上記のインデックス登録処理のフローの中で行ってもよいが、他の何らかの手段からの通知により、イベントとして区分処理を実行するようにしてもよい。
例えば、毎日0時にインデックスを区分する場合、毎日0時に、インデックスの区分処理を要求するための通知を送る手段を別途用意し、その通知を、区分処理担当の手段に対して通知する。これにより、0時以前の昨日のインデックス(例えば、図2のインデックス10)が、過去のインデックス(例えば、図2のインデックス11)となり、新たなインデックス10を新規に作成する。
また、上記インデックスの作成処理は、インデックス更新手段23が行わなければならないということは無く、インデックスの区分処理のみを別に行う手段を別途用意してもよい。
以上のように、本実施形態によれば、時系列に従い複数に区分されたインデックスを選択的に用いる時系列検索機能を、インデックス登録処理完了直後から利用することが可能となる。換言すれば、時系列検索機能を備えた情報検索システムの新規導入や、既存の情報検索システムに新しい情報格納部を追加した際の立ち上げも容易化される。
[第2の実施形態]
次に、バックアップデータのインデックス更新・登録機能を備えた本発明の第2の発明に係る情報検索システムについて図面を参照して詳細に説明する。
図6は、本発明の第2の実施形態に係る情報検索システムの構成を示す図である。図6を参照すると、本実施形態に係る情報検索システムは、情報格納部1と、インデックス登録手段2と、検索手段3と、検索条件入力手段4と、検索結果出力手段5と、バックアップ情報格納部6と、バックアップ管理手段7と、インデックス管理手段8と、インデックス格納部100とを備えている。
上記情報格納部1、検索手段3、検索条件入力手段4、検索結果出力手段5及びインデックス格納部100は、第1の実施形態と同一であるため、説明を省略する。
インデックス登録手段2は、第1の実施形態のインデックス登録手段2における情報取得(受け入れ)手段21、時間特定手段22、インデックス更新手段23に、バックアップからの追加手段24を加えたものである。
バックアップからの追加手段24は、インデックスに登録すべき情報を取得するという点では情報取得(受け入れ)手段21と共通するが、バックアップ管理手段7からインデックスに登録すべき情報を取得し、インデックス更新手段23に対してインデックス更新を依頼する役割を果たす点で異なっている。
バックアップからの追加手段24が、どのインデックスに対して更新を依頼するかは、インデックス管理手段8から得られるインデックスの区分情報(分割状態)と、バックアップ管理手段7から得られる情報の時間情報により決定される。バックアップ管理手段7から得る(検索対象として登録する)情報の時間情報はバックアップ管理手段7や情報に付属する時間情報をそのまま利用することを前提とするが、図6中に点線で表したように、時間特定手段22が時間情報を特定し、バックアップからの追加手段24に返す構成とすることもできる。
バックアップ情報格納部6は、バックアップ管理手段7によって作成されるバックアップデータの格納先となる記録媒体並びに記録装置、システムである。具体的にはメモリや磁気ディスク、磁気テープ、光学ディスク等により構成される。
バックアップ管理手段7は、任意のデータの状態の保存用のデータ(バックアップデータ)を作成及び管理、復元を行う機能を持つ。バックアップデータの作成元となるデータは、図6の情報格納部1内に保持されるデータであってもよいし、別の情報システムのデータであってもよい。
バックアップ管理手段7の具体的な例としては、CVS(Concurrent Versions System)等のバージョン管理ソフトウェア、CDP(Continuous Data Protection)というデータが更新されるたびに変更内容を時系列に保存していく機能を備えたソフトウェアあるいは装置、過去のWebページの状態を保存しているInternet Archive(http://web.archive.org/)というシステム、磁気テープにバックアップデータを書き込む役割を果たすソフトウェア、その他の商用の各種バックアップソフトウェア、NAS(Network Attached Storage)等で実現されているスナップショット、ジャーナルログを備えたデータベース管理ソフトウェアやファイルシステム等があげられる。
インデックス管理手段8は、概略、次のように動作する。インデックス管理手段8は、インデックス格納部100のインデックスのうち単数あるいは複数にアクセスし、インデックスをマージして、1つのインデックスにするという機能を果たす。
また、インデックス管理手段8は、インデックスの区分状態を適切な状態とするために、新たな時間範囲を担当するインデックスを新しく作成したり、時間経過によりインデックスのマージを行ったり、といった機能を果たす。
更に、インデックス管理手段8は、バックアップからの追加手段24に対して、インデックスの区分状態等の情報を渡す機能も持つ。
また更に、インデックス管理手段8は、バックアップ管理手段7が復元できる情報空間の状態に従って、インデックスを新規に作成する、といった機能を果たす。例えば、バックアップ管理手段7が1週間毎に、バックアップを作成し、保持しているとした時、インデックスの区分状態をバックアップデータの状態と統一して扱いたいケースがある。そのようなときに、バックアップ管理手段7から情報を取得して、それに合わせたインデックス管理を行う、という機能を果たす。
また、インデックスをマージするということは、転置ファイル法によるインデックス作成方式を例に挙げると、複数含まれている同一文書のインデックスを、新しい方を残して1つにして、複数の転置ファイルを1つの転置ファイルとすることとなる。
インデックスをマージする処理は、次のような条件で行うことが考えられる。
・区分されたインデックスの数が一定数を超えた時、
・区分されたインデックスの全体が一定容量を超えた時、
・区分されたインデックスが一定期間より古くなった時。
インデックス管理手段8により、インデックスをマージすることによって、検索処理性能を高速化することができる。
その理由は、インデックスをマージすることにより、同一文書のインデックスを複数検索しなければならない、検索処理の非効率性が改善されるためである。
本実施形態における検索処理及び情報格納部1からのインデックス更新/登録処理は、第1の実施形態と同一なため、説明を省略し、本実施形態において追加されたバックアップデータのインデックス追加・更新処理について説明する。
図7は、本実施形態に係る情報検索システムにおけるバックアップデータのインデックス登録処理の概要(前処理を含む。)を表したフローチャートである。
図7を参照すると、まず、バックアップからの追加手段24は、現在のインデックスの区分状態を変更する必要があるか否かについての確認が必要があるかどうかを判断する(ステップS301)。この判断は、例えば、情報検索システムの管理者により予め設定ファイル等に入力されている内容を参照することによって行ってもよいし、ステップS301の時点で、情報検索システムの管理者の入力を受けることによって行っても良い。
あるいは、上記判断を予め定めたルールによって行っても良い。例えば、以前にインデックス登録に利用したバックアップデータならば、多くの場合区分状態の変更を伴わないため、確認をしない(ステップS301のNO分岐)といったルールが考えられる。
ステップS301でNO分岐である場合は、バックアップデータのインデックス追加・更新処理へ進む(ステップS304)。このインデックス追加・更新処理については後述する。
ステップS301で、現在のインデックスの区分状態を変更する必要があるか否かの確認が必要とされた場合(ステップS301のYES分岐)、インデックス管理手段8は、実現すべき時系列検索機能の粒度を取得してインデックスの区分状態との比較によりインデックスの区分状態の変更が必要か否かを判断する(ステップS302)。
ステップS302における比較対象の一方であるインデックスの区分状態とは、図2を例に挙げると、現在(200X/Y/N)はインデックス10が担当し、200X/Y/N−1〜200X/Y/Nはインデックス11が担当する、といったことを示す情報である。
こうしたインデックスの区分状態は、インデックス管理手段8がインデックス格納部100を参照することによって取得することができる。また、インデックス管理手段8が、所定の記憶手段に、区分状態情報を保持しておき、ステップS302ではこれを参照する形としてもよい。
もう一方の実現すべき時系列検索機能の粒度とは、例えば、時系列検索機能によって指定可能な時間単位を指す。例えば、1日単位に遡る機能が必要であれば、1日単位でインデックスを区分しておく必要がある。
この実現すべき時系列検索機能の粒度は、ステップS302の時点においてシステム管理者等が入力することとしてもよいし、予め設定ファイル等に記録しておいた情報を利用しても良いし、バックアップ管理手段7が提供できる復元情報の粒度(バックアップ間隔)を用いて作成してもよい。
なお、バックアップ管理手段7の提供できる復元情報の粒度(バックアップ間隔等)を利用する場合には、インデックス管理手段8は、バックアップ管理手段7から該情報を得る。この場合更に、該情報の状態をそのまま検索のインデックスの区分状態に反映することや、復元情報の粒度(バックアップ間隔等)から時系列検索機能の粒度を決定することができる。
例えば、バックアップ管理手段7がフルバックアップと差分バックアップを組み合わせた運用をしている際には、フルバックアップのタイミングを復元情報の粒度として利用する、といったルールにより決定することができる。例えば、バックアップ管理手段7において1週間単位でフルバックアップを取る運用を行っていた場合には、時系列検索機能の粒度は1週間単位となる。
インデックス管理手段8は、インデックスの区分状態と、実現すべき時系列検索機能の粒度とを比較して、インデックスの区分が時系列検索機能の粒度より大きい場合には、基点を指定した検索を行った場合の精度が粗くなるため、インデックスをより細かく区分する必要があると判断する(ステップS302のYES分岐)。
一方、インデックスの区分状態が、実現すべき時系列検索機能の粒度を満たしている場合には、インデックス管理手段8は、変更の必要なしと判定し、ステップS304へ進む(ステップS302のNO分岐)。
なお、インデックスの区分状態と、実現すべき時系列検索機能の粒度との比較の結果、インデックスの区分が時系列検索機能の粒度より小さい場合には、インデックスの区分状態を変更する必要はない。しかしながら、バックアップデータを用いたインデックス追加処理を行う機会に、時系列検索機能の粒度とインデックスの区分状態とを合わせるよう設定されている場合にはこの限りではなく、インデックスをより粗い区分状態にするよう判定してもよい(ステップS302のYES分岐)。
例えば、インデックス格納部100において、本日分のインデックスと、運用開始から昨日まで(一週間を超える期間とする。)の2つのインデックスと、の2区分に区分されている状態である場合、バックアップデータを用いて1週間単位の時系列検索機能を実現するためには、上記運用開始から昨日まで(一週間を超える期間とする。)のインデックスを分割する必要があると判定する。
ステップS302において、インデックスの区分状態の変更が必要と判断された場合((ステップS302のYES分岐)、インデックス管理手段8は、インデックスのマージや新規作成を行うことにより、提供する時系列検索機能の粒度に合わせたインデックスの区分状態の変更を行う(ステップS303)。このインデックスの区分状態の変更処理については、別途詳細に説明する。
インデックスの区分変更を行った後、インデックス管理手段8は、バックアップデータのインデックスの追加・更新処理を行う(ステップS304)。このインデックスの追加・更新処理については、別途詳細に説明する。
[インデックスの区分状態の変更処理−ケース1(新規導入)]
まず、バックアップデータを用いて、新規にインデックスを導入する場合等の、導入時点でインデックスが適当に区分されていない場合を例に挙げて説明する。
このケースでは、インデックス管理手段8は、時系列検索機能の粒度と同じ粒度で区分されたインデックスを新規に作成すればよい。
図8は、導入時点でインデックスが適当に区分されていない状態からのインデックス管理手段8の動作を説明するための図である。
図8の上段の図は、元のインデックスの状態を示している。検索対象の時間軸をすべて1つのインデックス10で担当している状態である。
図8の中段の時間軸上のdate1、date2、date3、date4は、時系列検索機能で指定可能な時点を表している。時系列検索機能の粒度を、バックアップ管理手段7が提供できるバックアップデータのバックアップ間隔と同一にする場合には、date1、date2、date3、date4は、それぞれバックアップデータのバックアップ時間に相当する。
図8の下段の図は、インデックス10を、時系列検索機能の粒度に従って区分した結果である。インデックス10は最新状態からdate1までの時間を担当し、インデックス11はdate1からdate2の間の時間を担当するという具合に分割される。
なお、元のインデックス10が空の場合には、単純に空のインデックス11、12、13、14を作成すればよい。
インデックス10にインデックスデータが入っている場合には、元のインデックス10のインデックスデータをそのまま新しいインデックス10として、インデックス11〜14を新規に作成すればよい。この場合においては、インデックス10にdate1より古い(インデックス11〜14に格納すべき)検索対象の情報のインデックスが残り続けるが、基点を指定しない通常の検索には影響を与えない。
また、過去の時点に遡る時系列検索機能の場合、インデックス10の情報は利用しない上、バックアップ管理手段7におけるバックアップ間隔と、時系列検索機能の粒度が同一の場合で、バックアップ管理手段7及びバックアップ情報格納部6のバックアップ対象が情報格納部1であるならば、次のインデックスの追加・更新処理(ステップS304;後に詳述)においてインデックス10の担当時間外の検索対象の情報のインデックスはインデックス11〜14にそれぞれ適正に登録されるため、時系列検索処理に影響しない。
また、インデックス10の担当時間帯に検索範囲を特定した検索を行う際には、インデックス10に格納されている古い情報が検索結果に含まれてしまう。第1の対策としては、検索処理時に検索手段3側にて担当時間外の情報を取り除く処理を行うことが挙げられる。
また、第2の対策としては、ステップS303のインデックスの区分状態の変更処理において、インデックス管理手段8が、インデックス10内の担当時間外の情報を、それぞれに付与される時間に関するメタ情報を用いて削除する処理を行うことによっても対応することができる。この削除処理を行うことによって、前記第1の対策を採った場合における検索処理時に担当時間外の情報を取り除く処理のオーバヘッドをなくすことができるので性能が向上する、という効果がある。また、インデックス10の容量を削減できる、という効果もある。
また、前記第2の対策を採る場合において、インデックス管理手段8が、インデックス10に格納されている検索対象の情報の、それぞれの時間情報に合わせて、インデックス10内の情報をそれぞれインデックス10〜14に振り分けてもよい。より具体的には、インデックス10内の検索対象情報を取り出し、それぞれに付属する時間に関するメタ情報を用いて、その時間を担当するインデックス10〜14に振り分ける。なお、時間特定手段22を介して時間情報を特定し、インデックス管理手段8が利用するようにしても良い。
但し、先にも述べたように、バックアップ管理手段7が提供できるバックアップデータのバックアップ間隔と、時系列検索機能の粒度が同一の場合で、バックアップ管理手段7及びバックアップ情報格納部6のバックアップ対象が情報格納部1である場合(つまりインデックス10に格納されている担当時間外の情報が、すべてバックアップ情報格納部6に存在する場合)は、インデックス11〜14に振り分けられるべきインデックス情報は、次のインデックスの追加・更新処理(ステップS304;後に詳述)で登録されるので、インデックス登録処理を行わず削除のみを行ってもよい。
反対に、上記条件が満たされるのであれば、次のインデックスの追加・更新処理(ステップS304;後に詳述)で登録処理を省くために、この時点でのインデックス登録処理を行うようにしてもよい。
[インデックスの区分状態の変更処理−ケース2(区分と粒度が同期)]
次に、インデックスの元の区分状態が、実現すべき時系列検索機能の粒度と同じではないが、同期している場合について述べる。
図9は、導入時点でインデックスが区分されているが、実現すべき時系列検索機能の粒度と同じではない状態からのインデックス管理手段8の動作を説明するための図である。
図9の上段の図は、元のインデックスの状態を示している。インデックス10は最新からdate1までの時間を担当し、インデックス11はdate1から残り全部の時間範囲を担当する。
図9の中段及び下段の図は、図8と同一である。この場合は、元のインデックス10はそのまま利用可能であるため、変更を行わない。元のインデックス11に対して、図8の元のインデックス10に対して行った処理と同等の処理を行う。つまり、インデックス11はそのまま担当時間だけを変更してインデックス11として利用し、インデックス12以降を新規に作成する。
なお、同様にインデックス11に格納されている検索対象の情報の、それぞれの時間情報に合わせて、インデックス11内の情報をそれぞれインデックス12〜14に振り分けてもよい。
また、図10に示すように、時系列検索機能の粒度より、インデックスの区分状態の方が細かい場合には、インデックス管理手段8のマージ機能によって複数のインデックスを1つにまとめても良い。このマージは行わなくても機能には問題ないが、性能が向上する、と言う効果がある。
[インデックスの区分状態の変更処理−ケース3(区分と粒度が非同期)]
次に、インデックスの元の区分状態が、実現すべき時系列検索機能の粒度と同じではなく、同期もしていない場合について述べる。
図11は、導入時点でインデックスが区分されているが、実現すべき時系列検索機能の粒度と同じではない状態からのインデックス管理手段8の動作を説明するための図である。
図11の上段の図は、元のインデックスの状態を示している。インデックス10は最新からdate0までの時間を担当し、インデックス11はdate0から残り全部の時間範囲を担当する。
図11の中段及び下段の図は、図8と同一である。この場合、ケース1と同じ考え方で、元のインデックス10を変更後のインデックス10としてそのまま使って、元のインデックス10内のインデックス情報のインデックス11への振り分けは行わないこととすることができる。また、あるいは、ケース1で述べた様に元のインデックス10内の検索対象の情報に付属する時間に関するメタ情報を用いて、インデックス10及び11にインデックス情報の振り分けを行ってもよい。
また、元のインデックス11は、そのまま変更後のインデックス11とし、変更後のインデックス12以降は新規に作成すればよい。また、インデックス11内の検索対象の情報に付属する時間に関するメタ情報を用いて、インデックス11及び12以降にインデックス情報の振り分けを行ってもよい。
なお、元のインデックス10のインデックス情報の振り分け処理を行った場合、同一文書の情報が重複して新しいインデックス11に存在することになる。この際、インデックス11で競合する同一文書の情報は、より新しいインデックス10が保有していたインデックス情報をインデックス11に残すようにすればよい。
また、修正後のインデックスの区分状態を図12に示すようにしてもよい。図12の例では、date1とdate2の間にdate0の分割基点が設けられ、インデックス10’とインデックス11とが別に用意されている。そして、元のインデックス10内のインデックス情報は変更後の新しいインデックス10および10’に振り分け、元のインデックス11のインデックス情報は、変更後の新しいインデックス11〜14に格納する。
また、図12のような構成をとることによって、date0を時系列検索の基点として利用することができる。また、上記の同一文書の情報が重複する際の処理を行わないで済む、という利点もある。
[インデックスの追加・更新処理]
次に、図7のステップS304のインデックス登録および更新処理を図面を参照して詳細に説明する。図13は、本実施形態に係る情報検索システムにおける、バックアップからのインデックス追加・更新処理の一例を示すフローチャートである。
図13を参照すると、まず、バックアップからの追加手段24は、インデックスの区分状態の情報を取得する(ステップS401)。既に、バックアップからの追加手段24がインデックスの区分状態の情報を得ている場合には、本処理は省略可能である。
次に、バックアップからの追加手段24は、更新を行うべきインデックスを選択する(ステップS402)。この選択順序はランダムに選択する、新しい方から選択する、古い方から選択する、等が挙げられ、いずれを用いてもよい。
次に、バックアップ管理手段7は、バックアップからの追加手段24により選択されたインデックスの担当時間範囲で最新の時点の情報(群)を復元する(ステップS403)。
次に、インデックス更新手段23は、バックアップからの追加手段24を介して復元された情報(群)を、ステップS402において選択されたインデックスに登録あるいは更新する(ステップS404)。
ここで、選択されたインデックス内に、例えばファイルパスが同じである等の登録対象の情報と同一種類として判断される情報が既に存在していた場合には、上記した第1の実施で説明したように、インデックス内に格納されている情報の時間に関するメタ情報と、バックアップの時間情報(あるいはバックアップデータに付属する時間に関するメタ情報、あるいは時間情報特定手段22によって特定する時間情報)とを比較して、新しい方をインデックスに登録するといった優先基準を適用することができる。
また上記の判断は、無条件でバックアップからの復元データを優先する、インデックスに格納されているデータを優先する、などのルールを設定しておき、そのルールにより決定してもよい。
ステップS404において、復元された情報(群)のインデックス登録処理が完了したら、バックアップからの追加手段24は、すべてのインデックスの処理を終えたかどうかを判別する(ステップS405)。
すべてのインデックスの処理が完了していれば、インデックス更新処理は終了する(ステップS405のYES分岐)。すべてのインデックスの処理が完了していなければ、ステップS402に戻って、次の処理対象となるインデックスの選択を行う(ステップS405のNO分岐)。
このようにして、すべてのインデックスの選択を行い、S402〜S404の処理を繰り返すことで、バックアップ情報格納部6に格納されたバックアップデータの対応するインデックスへの登録が完了する。
以上、図13を参照して、バックアップデータのインデックス登録及び更新の基本手順を説明したが、バックアップの方式に応じて適宜、変更することができる。例えば、過去のある時点の情報から、差分の情報を適用して、復元対象の時点の情報を再現するようなバックアップ管理方式を用いている場合は、ステップS402のインデックスの選択において、古いインデックスから順番に選択した方がよい。その理由はステップS403のバックアップからの復元処理において、前回の復元済みデータに対して差分を適用する方法で、復元データを作成することができるためである。
また、インデックス登録および更新の手順として、処理対象とするインデックスを先に選択する図13に示した処理手順の代わりに、インデックス作成を行う情報を先に選択する図14の処理手順を採用することもできる。
以下、図14のフローチャートを参照して、バックアップからのインデックス追加・更新処理の別の例について説明する。
まず、バックアップからの追加手段24は、インデックスの区分状態の情報を取得する(ステップS501)。既に、バックアップからの追加手段24がインデックスの区分状態の情報を得ている場合には、本処理は省略可能である。
次に、バックアップからの追加手段24は、バックアップ管理手段7から検索対象としてインデックス登録を行う情報を選択する(ステップS502)。選択する情報の数は、任意でよく、バックアップ管理手段7あるいはバックアップからの追加手段24が扱いやすい形でよい。
次に、バックアップからの追加手段24は、更新を行うべきインデックスを選択する(ステップS503)。この選択順序はランダムに選択する、新しい方から選択する、古い方から選択する、等が挙げられ、いずれを用いてもよい。
次に、バックアップ管理手段7は、バックアップからの追加手段24により選択されたインデックスの担当時間範囲で、ステップS502で選択された情報の一番新しい状態の情報(群)を復元する(ステップS504)。
次に、インデックス更新手段23は、バックアップからの追加手段24を介して復元された情報(群)を、ステップS503において選択されたインデックスに登録あるいは更新する(ステップS505)。ここでの、同一種類の情報の扱いは、図13のステップS404と同一である。
ステップS505において、復元された情報(群)のインデックス登録処理が完了したら、バックアップからの追加手段24は、ステップS502で選択した情報について、すべてのインデックスの処理を終えたかどうかを判別する(ステップS506)。
すべてのインデックスの処理が完了していなければ、ステップS503に戻って、次の処理対象となるインデックスの選択、対応するバックアップデータの復元、インデックスへの登録・更新を繰り返す(ステップS506のNO分岐)。
一方、ステップS502で選択した情報について、すべてのインデックスの処理が完了していれば、バックアップからの追加手段24は、次に、バックアップ管理手段7が保持する情報から、インデックス登録すべき情報をすべて処理したかどうかを判断する(ステップS507)。すべての情報の処理が完了していれば、バックアップデータのインデックス登録は完了する(ステップS507のYES分岐)。
すべての情報の処理が完了していなければ、ステップS502に戻って、次の処理対象となる情報の選択、インデックスの選択、対応するバックアップデータの復元、インデックスへの登録・更新を繰り返す(ステップS507のNO分岐)。
また、図14に示した処理手順の応用として、次のように処理してもよい。例えば、ステップS502において、バックアップからの追加手段24は、インデックス登録を行う情報を選択した際に、バックアップ管理手段7からその情報のバックアップ間隔を取得する。
次に、バックアップからの追加手段24は、前記バックアップ間隔を担当範囲に含むインデックスを選択して、担当時間範囲で最も新しい状態を取り出し、各インデックスの更新を行う。このような方法を用いたほうが扱いやすいバックアップ管理方式として、ファイルやディレクトリ等の単位でバージョン履歴を記録するシステムが挙げられる。
また、図14に示した処理手順の応用として、例えば、ステップS503、S504、S506の処理を取り除き、バックアップ管理手段7から得られる情報を順次処理していき、ステップS505の時点で、インデックスに登録する情報の時間情報を特定した後に、更新・登録すべきインデックスを選択して、対象のインデックスに対して登録又は更新処理を行うことが考えられる。
以上のインデックス登録及び更新処理の手順としては、図12及び図13に例示した方式のほかこれらに類した手順が考えられるが、バックアップ管理手段7及びバックアップ情報格納部6のバックアップ方式によって最適な方法は異なる。
本実施形態に係る情報検索システムの変形例として、バックアップ管理手段7の種類によって、適切な方法を選択して動作するような仕組みを備えてもよい。
[新規導入時の動作]
次に、本実施形態に係る情報検索システムを新規に導入する際の具体的な手順について説明する。情報格納部1に格納される情報をインデックスに登録する方法は大きく2つある。1つ目は、第1の実施形態にて説明した方法であり、もう1つは任意の1つのインデックス(時間軸以外の軸で分割されていてもよい)に、情報格納部1の検索対象の情報を登録する方法である。
上記のいずれの方法を用いた場合においても、情報格納部1内の検索対象情報のインデックス登録処理が終わった後に、第2の発明の実施形態で示した手順でバックアップデータのインデックス登録処理を行えばよい。
また、情報格納部1に格納されている検索対象情報を登録する段階で、インデックスを区分しておき、情報格納部1の検索対象の情報をインデックスに登録する処理を行う際に、該検索対象情報と同一情報として扱われる(時間情報は異なる)情報をバックアップデータから探索・取得し、バックアップデータから得られた情報を、該当するインデックスに登録するよう動作してもよい。
以上説明したように、本発明の第2の実施形態によれば、上記第1の実施形態の効果に加えて、時系列情報検索システム導入以前のデータを、バックアップデータを用いて、情報検索システムのインデックスに登録することが可能である。
また、バックアップデータのインデックス登録においては、古いデータから順次復元して、古い順にインデックスを作成・更新していくといった必要が無いため、高速にインデックス登録処理を行うことができる。
また、実現すべき時系列情報検索機能の粒度にもよるが、基本的にはバックアップから復元するデータを少なくすることが出来るため、高速にインデックス登録を行うことができるほか、バックアップ情報格納部6へのアクセス負荷を減少させることができる。
本発明は、World Wide Webに存在する情報の時系列情報検索機能を備えた情報検索システムに適用できる。また、本発明は、組織内の情報(イントラネットのWebや、組織における情報システム、データベース、ストレージ等が保有する情報)、バックアップデータの時系列情報検索機能を備えた情報検索システムにも適用できる。また、そのインデックス登録手段(インデックス登録装置)は、上記各情報検索システムの導入時や導入後における検索対象の情報を追加する際に利用できる。また、本発明は、検索エンジン等に代表される情報検索システムに限らず、データベース等のデータを時系列に区分して管理して、過去の情報を格納するシステム一般に適用可能である。
本発明の第1の実施形態に係る情報検索システムの構成を示す図である。 図1のインデックス格納部におけるインデックスの管理の一例を説明するための模式図である。 本発明の第1の実施形態に係る情報検索システムの検索処理動作を表したフローチャートである。 本発明の第1の実施形態に係る情報検索システムにおけるインデックスの選択処理について説明するための図である。 図1のインデックス登録手段の検索対象の情報をインデックスに登録する一連の動作を表したフローチャートである。 本発明の第2の実施形態に係る情報検索システムの構成を示す図である。 本発明の第2の実施形態に係る情報検索システムにおけるバックアップデータのインデックス登録処理の概要(前処理を含む。)を表したフローチャートである。 本発明の第2の実施形態に係る情報検索システムのインデックス管理手段の動作を説明するための図である(ケース1)。 本発明の第2の実施形態に係る情報検索システムのインデックス管理手段の動作を説明するための図である(ケース2)。 本発明の第2の実施形態に係る情報検索システムのインデックス管理手段の動作を説明するための別の図である(ケース2)。 本発明の第2の実施形態に係る情報検索システムのインデックス管理手段の動作を説明するための図である(ケース3)。 本発明の第2の実施形態に係る情報検索システムのインデックス管理手段の別の動作を説明するための図である(ケース3)。 本発明の第2の実施形態に係る情報検索システムにおける、バックアップからのインデックス追加・更新処理を示すフローチャートである。 本発明の第2の実施形態に係る情報検索システムにおける、バックアップからのインデックス追加・更新処理を示す別のフローチャートである。
符号の説明
1 情報格納部
2 インデックス登録手段(インデック登録装置)
3 検索手段
4 検索条件入力手段
5 検索結果出力手段
6 バックアップ情報格納部
7 バックアップ管理手段
8 インデックス管理手段
10〜17 インデックス
21 情報取得(受け入れ)手段
22 時間特定手段
23 インデックス更新手段
24 バックアップからの追加手段
100 インデックス格納部

Claims (18)

  1. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、
    検索対象となる情報を取得する情報取得手段と、
    前記検索対象の情報について、該情報が持つ時間情報を特定する時間情報特定手段と、
    前記時間情報特定手段によって特定された時間情報を用いて前記インデックスを更新するインデックス更新手段と、
    を備え、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する情報検索システム。
  2. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、
    検索対象となる情報を取得する情報取得手段と、
    前記検索対象の情報について、該情報が持つ時間情報を特定する時間情報特定手段と、
    前記時間情報特定手段によって特定された時間情報を用いて前記インデックスを更新するインデックス更新手段と、
    を備え、
    前記情報検索において指定可能とする時間単位と前記インデックスの集合の時間方向の区分状態とが同一となるよう前記インデックスの集合の時間方向の区分状態に基づいて前記情報検索において指定可能とする時間単位を決定する情報検索システム。
  3. 前記インデックス更新手段は、前記時間情報特定手段によって特定された時間情報を担当するインデックスが無い場合には、当該時間を担当するインデックスを生成し、検索対象となる情報を登録する請求項1又は2に記載の情報検索システム。
  4. 前記インデックス更新手段は、前記検索対象となる情報が、既存のインデックスに登録されている場合には、前記既存のインデックスに登録されている時間情報と、前記特定された時間情報とを比較し、所定の優先基準により、インデックスの更新を行う請求項1乃至3いずれか一に記載の情報検索システム。
  5. 更に、前記インデックスの集合の時間方向の構成を変更するインデックス管理手段を備える請求項3又は4に記載の情報検索システム。
  6. 前記検索基点に最も近い過去のインデックスデータから、より古いインデックスデータを順次参照することにより検索結果を提示する請求項1乃至5いずれか一に記載の情報検索システム。
  7. 更に、バックアップデータを取得し、前記インデックス更新手段に渡すバックアップからの追加手段を備える請求項1乃至6いずれか一に記載の情報検索システム。
  8. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、
    一定時間の経過により新設され、過去分が保管されるインデックスの集合の情報を取得する手段と、
    前記インデックスの集合から、任意のインデックスを選択する手段と、
    バックアップデータを管理するバックアップ管理手段から、前記選択したインデックスが担当する時間範囲のバックアップデータを取得する手段と、
    前記選択したインデックスに対し、前記取得したバックアップデータによるインデックスの更新を行う手段と、
    を備え、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する情報検索システム。
  9. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、
    一定時間の経過により新設され、過去分が保管されるインデックスの集合の情報を取得する手段と、
    前記インデックスの集合から、任意のインデックスを選択する手段と、
    バックアップデータを管理するバックアップ管理手段から、前記選択したインデックスが担当する時間範囲のバックアップデータを取得する手段と、
    前記選択したインデックスに対し、前記取得したバックアップデータによるインデックスの更新を行う手段と、
    を備え、
    前記情報検索において指定可能とする時間単位と前記インデックスの集合の時間方向の区分状態とが同一となるよう前記インデックスの集合の時間方向の区分状態に基づいて前記情報検索において指定可能とする時間単位を決定する情報検索システム。
  10. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、
    バックアップデータを管理するバックアップ管理手段と、
    一定時間の経過により新設され、過去分が保管されるインデックスの集合の情報を取得する手段と、
    前記バックアップ管理手段からインデックスに登録すべき情報を選択する手段と、
    前記バックアップ管理手段から、前記インデックスの集合に含まれる各インデックスが担当する時間範囲において、前記選択した情報の最新のバックアップデータを取得する手段と、
    前記インデックスの集合に含まれる各インデックスに対し、前記各インデックスが担当する時間範囲において、前記選択した情報の最新のバックアップデータによるインデックスの更新を行う手段と、
    を備え、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する情報検索システム。
  11. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムであって、
    バックアップデータを管理するバックアップ管理手段と、
    一定時間の経過により新設され、過去分が保管されるインデックスの集合の情報を取得する手段と、
    前記バックアップ管理手段からインデックスに登録すべき情報を選択する手段と、
    前記バックアップ管理手段から、前記インデックスの集合に含まれる各インデックスが担当する時間範囲において、前記選択した情報の最新のバックアップデータを取得する手段と、
    前記インデックスの集合に含まれる各インデックスに対し、前記各インデックスが担当する時間範囲において、前記選択した情報の最新のバックアップデータによるインデックスの更新を行う手段と、
    を備え、
    前記情報検索において指定可能とする時間単位と前記インデックスの集合の時間方向の区分状態とが同一となるよう前記インデックスの集合の時間方向の区分状態に基づいて前記情報検索において指定可能とする時間単位を決定する情報検索システム。
  12. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録装置であって、
    検索対象となる情報を取得する情報取得手段と、
    前記検索対象の情報について、該情報が持つ時間情報を特定する時間情報特定手段と、
    前記インデックス中の、前記時間情報特定手段によって特定された時間情報に応じた部分を更新するインデックス更新手段と、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する手段と、
    を備えることを特徴とするインデックスの登録装置。
  13. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録装置を構成するコンピュータに実行させるプログラムであって、
    検索対象となる情報を取得する処理と、
    前記検索対象の情報について、該情報が持つ時間情報を特定する処理と、
    前記インデックス中の、前記時間情報特定手段によって特定された時間情報に応じた部分を更新する処理と、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する処理と、
    を前記コンピュータに実行させるプログラム。
  14. 一定時間の経過により新設され、過去分が保管されるインデックスの集合により構成された情報検索用のインデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録装置を構成するコンピュータに実行させるプログラムであって、
    前記インデックスの集合情報を取得する処理と、
    前記インデックスの集合から、任意のインデックスを選択する処理と、
    バックアップデータを管理するバックアップ管理手段から、前記選択したインデックスが担当する時間範囲のバックアップデータを取得する処理と、
    前記選択したインデックスに対し、前記取得したバックアップデータのインデックス情報を登録又は更新する処理と、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する処理と、
    を前記コンピュータに実行させるプログラム。
  15. 一定時間の経過により新設され、過去分が保管されるインデックスの集合により構成された情報検索用のインデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録装置を構成するコンピュータに実行させるプログラムであって、
    前記インデックスの集合情報を取得する処理と、
    バックアップデータを管理するバックアップ管理手段からインデックスに登録すべき情報を選択する処理と、
    前記バックアップ管理手段から、前記インデックスの集合に含まれる各インデックスが担当する時間範囲において、前記選択した情報の最新のバックアップデータを取得する処理と、
    前記各インデックスに対し、前記取得したバックアップデータのインデックス情報を登録又は更新する処理と、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更する処理と、
    を前記コンピュータに実行させるプログラム。
  16. 情報検索用のインデックスに時間情報を持たせて、前記インデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録方法であって、
    情報検索システムに接続されたインデックス登録手段が、検索対象となる情報を取得し、
    前記インデックス登録手段が、前記検索対象の情報について、該情報が持つ時間情報を特定し、
    前記インデックス登録手段が、前記時間情報特定手段によって特定された時間情報を用いて前記インデックスを更新し、さらに、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更すること、
    を特徴とするインデックスの登録方法。
  17. 一定時間の経過により新設され、過去分が保管されるインデックスの集合により構成された情報検索用のインデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録方法であって、
    情報検索システムに接続されたインデックス登録手段が、前記インデックスの集合情報を取得し、
    前記インデックス登録手段が、前記複数のインデックスの中から、任意のインデックスを選択し、
    前記インデックス登録手段が、バックアップデータを管理するバックアップ管理手段から、前記選択したインデックスが担当する時間範囲のバックアップデータを取得し、
    前記インデックス登録手段が、前記選択したインデックスに対し、前記取得したバックアップデータのインデックス情報を登録又は更新し、さらに、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更すること、
    を特徴とするインデックスの登録方法。
  18. 一定時間の経過により新設され、過去分が保管されるインデックスの集合により構成された情報検索用のインデックスのうち、検索時に指定された検索基点に適合するデータを用いることで、任意の時点の検索結果を再現できるようにした情報検索機能を提供する情報検索システムで用いる前記インデックスの登録方法であって、
    情報検索システムに接続されたインデックス登録手段が、前記インデックスの集合情報を取得し、
    前記インデックス登録手段が、バックアップデータを管理するバックアップ管理手段からインデックスに登録すべき情報を選択し、
    前記インデックス登録手段が、前記バックアップ管理手段から、前記インデックスの集合に含まれる各インデックスが担当する時間範囲において、前記選択した情報の最新のバックアップデータを取得し、
    前記インデックス登録手段が、前記各インデックスに対し、前記取得したバックアップデータのインデックス情報を登録又は更新し、さらに、
    情報検索において指定可能とする時間単位に応じて、前記インデックスの集合の時間方向の区分状態を変更すること、
    を特徴とするインデックスの登録方法。
JP2007262252A 2007-10-05 2007-10-05 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム Active JP5233233B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007262252A JP5233233B2 (ja) 2007-10-05 2007-10-05 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
US12/244,551 US8452788B2 (en) 2007-10-05 2008-10-02 Information retrieval system, registration apparatus for indexes for information retrieval, information retrieval method and program
US13/862,983 US20130232175A1 (en) 2007-10-05 2013-04-15 Information retrieval system, registration apparatus for indexes for information retrieval, information retrieval method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007262252A JP5233233B2 (ja) 2007-10-05 2007-10-05 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009093349A JP2009093349A (ja) 2009-04-30
JP5233233B2 true JP5233233B2 (ja) 2013-07-10

Family

ID=40524135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007262252A Active JP5233233B2 (ja) 2007-10-05 2007-10-05 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム

Country Status (2)

Country Link
US (2) US8452788B2 (ja)
JP (1) JP5233233B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200673B2 (en) * 2009-06-29 2012-06-12 Sap Ag System and method for on-demand indexing
US20110093439A1 (en) * 2009-10-16 2011-04-21 Fanglu Guo De-duplication Storage System with Multiple Indices for Efficient File Storage
US8392376B2 (en) * 2010-09-03 2013-03-05 Symantec Corporation System and method for scalable reference management in a deduplication based storage system
KR20130086005A (ko) * 2012-01-20 2013-07-30 삼성전자주식회사 다수의 장치들에서 데이터 검색 방법 및 장치
JP5774513B2 (ja) * 2012-02-07 2015-09-09 株式会社日立ソリューションズ ファイルリスト生成方法及びシステム並びにプログラム、ファイルリスト生成装置
CN103324642B (zh) 2012-03-23 2016-12-14 日电(中国)有限公司 为数据建立索引的系统和方法以及数据查询方法
US10275397B2 (en) 2013-02-22 2019-04-30 Veritas Technologies Llc Deduplication storage system with efficient reference updating and space reclamation
CN103870592B (zh) * 2014-03-28 2017-04-12 山东大学 综合语义和时效性意图对检索结果进行多样化的方法
CN104008171A (zh) * 2014-06-03 2014-08-27 中国科学院计算技术研究所 一种法律数据库构建方法及法律检索服务方法
US9785712B1 (en) * 2014-06-20 2017-10-10 Amazon Technologies, Inc. Multi-index search engines
US11250001B2 (en) * 2014-08-01 2022-02-15 International Business Machines Corporation Accurate partition sizing for memory efficient reduction operations
CN104794177B (zh) * 2015-04-02 2016-10-12 广州神马移动信息科技有限公司 一种数据存储方法及装置
CN105045684B (zh) * 2015-07-16 2018-06-15 北京京东尚科信息技术有限公司 索引切换和索引控制的方法及装置
CN110569217A (zh) * 2018-05-16 2019-12-13 杭州海康威视系统技术有限公司 流式文件系统中的索引数据更新方法、装置
CN114036107B (zh) * 2021-11-08 2023-03-14 上海柯林布瑞信息技术有限公司 基于hudi快照的医疗数据查询方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428365A (en) 1987-07-24 1989-01-30 Hitachi Ltd Continuous liquid metal supplying device
JPH07146880A (ja) 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置及び方法
JPH07325839A (ja) 1994-06-02 1995-12-12 Mitsubishi Electric Corp 時系列データ処理装置
US5727197A (en) * 1995-11-01 1998-03-10 Filetek, Inc. Method and apparatus for segmenting a database
JPH09223152A (ja) 1996-02-16 1997-08-26 Toshiba Corp 文書検索装置
JP3711177B2 (ja) * 1996-07-11 2005-10-26 多摩川精機株式会社 レゾルバ及びレゾルバ付モータ
JP3699267B2 (ja) * 1998-01-05 2005-09-28 株式会社ニューズウオッチ 検索方法及び検索装置並びにデータベース方法及びデータベース装置
JP4208326B2 (ja) * 1999-03-05 2009-01-14 株式会社リコー 情報索引装置
JP2001045424A (ja) * 1999-08-03 2001-02-16 Canon Inc 動画像処理装置、動画像処理方法および記憶媒体
JP2001331510A (ja) * 2000-05-22 2001-11-30 Hitachi Ltd データベースの検索方法
JP2006091993A (ja) 2004-09-21 2006-04-06 Toshiba Corp 質問応答装置および方法、質問応答プログラム
US20080228695A1 (en) * 2005-08-01 2008-09-18 Technorati, Inc. Techniques for analyzing and presenting information in an event-based data aggregation system
CN102831214B (zh) * 2006-10-05 2017-05-10 斯普兰克公司 时间序列搜索引擎
US20080091744A1 (en) * 2006-10-11 2008-04-17 Hidehisa Shitomi Method and apparatus for indexing and searching data in a storage system

Also Published As

Publication number Publication date
US8452788B2 (en) 2013-05-28
US20090094186A1 (en) 2009-04-09
JP2009093349A (ja) 2009-04-30
US20130232175A1 (en) 2013-09-05

Similar Documents

Publication Publication Date Title
JP5233233B2 (ja) 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
JP5218060B2 (ja) 情報検索システムと情報検索方法ならびにプログラム
US20220197954A1 (en) System and methods for metadata management in content addressable storage
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
US7487138B2 (en) System and method for chunk-based indexing of file system content
US10936547B2 (en) Filesystem replication using a minimal filesystem metadata changelog
US8527556B2 (en) Systems and methods to update a content store associated with a search index
EP2324440B1 (en) Providing data structures for determining whether keys of an index are present in a storage system
US20060059204A1 (en) System and method for selectively indexing file system content
US20050165718A1 (en) Pipelined architecture for global analysis and index building
EP3333730A1 (en) Data processing device, data processing program and data processing method
CN103460197A (zh) 计算机系统、文件管理方法以及元数据服务器
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
US20100058023A1 (en) Efficiently managing modular data storage systems
US9405828B2 (en) System and method for phonetic searching of data
US8880478B2 (en) Scan-free archiving
JP5374881B2 (ja) 情報検索システム、情報検索方法およびプログラム
JP4825504B2 (ja) データ登録・検索システムおよびデータ登録・検索方法
KR101082024B1 (ko) 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법
JP2002163271A (ja) 特許管理システム
JP2004272307A (ja) 文書群管理装置、文書群管理方法、文書群管理プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130311

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5233233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3