JP2008269408A - データ検索システム - Google Patents

データ検索システム Download PDF

Info

Publication number
JP2008269408A
JP2008269408A JP2007113110A JP2007113110A JP2008269408A JP 2008269408 A JP2008269408 A JP 2008269408A JP 2007113110 A JP2007113110 A JP 2007113110A JP 2007113110 A JP2007113110 A JP 2007113110A JP 2008269408 A JP2008269408 A JP 2008269408A
Authority
JP
Japan
Prior art keywords
data
database
past
search
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007113110A
Other languages
English (en)
Inventor
Nobuyuki Shigee
伸之 重枝
Masashi Takada
昌史 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007113110A priority Critical patent/JP2008269408A/ja
Publication of JP2008269408A publication Critical patent/JP2008269408A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 大容量データを扱うデータベース検索システムに対して、1つのデータベースでデータの検索を1度に行えるようにする。
【解決手段】 データ領域管理手段は、現在データ領域と過去データ領域を1つのデータベース内で持つことができるようにする。これにより、現在データサーバに蓄積されたデータの他に、システム外に退避してある過去のデータを同じデータベースシステム内にリストアし、現在データと同列に管理することができる。
【選択図】 図1

Description

本発明は、毎日オンラインで即時に大容量のデータが登録される、大容量のデータ検索システムに関し、特に保存期間内の通常検索可能なデータと保存期間が過ぎた過去データを検索できるデータ検索システムに関するものである。
従来、この種のデータ検索システムは、大容量のデータが登録されるため、データ容量が大きくなり長期間に渡って蓄積することができないという問題点があった。大容量のデータとは例えば画像データのことである。
データサイズが大きなデータを大量にデータベースに蓄積するためには、蓄積量に比例してディスク容量が必要となる。データ容量が小さいデータ検索システムでは、データが蓄積できなくなり検索も行えなくなるといった問題はなかった。しかし、データ容量が大きいデータが登録されるデータ検索システムは、検索できるデータは蓄積できる期間のみとなり、データ容量が小さいデータ検索システムに比べると検索できる期間は少なくなってしまう。検索期間の短縮しないようにするため、ディスクを増設しデータベースのストレージ容量を増やすことも考えられるが、ハードウエア増設に伴うコストアップとなるため容易ではない。
例えば、データベースサーバの最大ディスク容量が30GBの場合を考える。1日のデータ合計容量が10MBの場合、データベースに蓄積することができる日数は3000日となる。しかし1日のデータ合計容量が1GBの場合はデータベースに蓄積することができる日数は30日となりデータ容量が小さい場合とくらべ少ないことがわかる。またこの場合、30日分しかデータベースに蓄積することができず、31日目になると1日目に登録されたデータは削除していた。そして検索が行えるのもデータベースに蓄積された30日分に限られ、削除されたデータを同時に検索することはできなかった。
ディスク容量によってデータを保存できる期間は決まる。そのため保存期間を過ぎたデータは削除する必要がある。削除されたデータ(システムの外に追い出されたデータ)を検索するためには、データベースをもうひとつ用意する必要があった。そして削除されたデータを、用意したデータベースにリストアすることによって削除されたデータを検索することが可能であった。
例えば1日のデータ合計容量が1GB、蓄積できる容量が30GBのデータベースA、蓄積できる容量が30GBのデータベースBがある場合を考える。初めはデータベースAに対してデータを蓄積していき、30日が経過すると1日目に格納されたデータはデータベースAから削除されてシステムの外にバックアップデータCとして保存される。バックアップデータCを検索する場合はデータベースBにリストアを行い、データベースBに対して検索を実行しなければならない。データベースAには空き容量がないのでバックアップデータCをリストアすることができないからである。
ここでデータベースAに蓄積されたデータとデータベースBに蓄積されたデータを同時に参照することはできない問題がある。データベースAとデータベースBは物理的に分かれているため、検索する場合も、データベースAを検索し次にデータベースBを検索する必要があるためである。
ところで特許文献1によると、保存期間を変更して不要なデータを自動的に削除する技術はあった。しかし、当該先行例は通常データを格納するための通常検索データ領域を確保する目的であり、システム外に追い出されたデータをリストアして同時に検索することはできなかった。
特開2003−6007号公報
この種の従来の大容量のデータ検索システムは、次のような問題点があった。
大容量のデータが登録されるため、データ容量が大きくなり長期間に渡って蓄積することができない。蓄積できる期間を過ぎたデータについてはシステム外に追い出されてしまう。そのためデータを蓄積できる期間が限定され、検索できる期間は蓄積されたデータのみになる。
削除されたデータ(システムの外に追い出されたデータ)を検索するためには、削除されたデータを新しいデータベースにリストアして検索する必要があった。よってシステム外に追い出されたデータを検索するためにはデータベースを2つ用意しなければならない問題がある。加えて、このことによりシステム外に追い出されたデータとデータベースに格納されているデータを一度の検索クエリーを指定する処理で探すことができなかった。
上記課題を解決するため本発明にかかる過去データ及び現在データの複合検索を行えるデータ検索システムは次の構成を有している。すなわち、
大容量データの累積を行うデータサーバと、保存期間の過ぎたデータを長期間に渡り蓄積するバックアップサーバを有し、保存期間が過ぎたデータをバックアップデータとして退避するバックアップ手段と、前記バックアップしたデータを検索するために、データベースに戻すリストア手段と、
データサーバに累積されたデータを検索するための通常検索可能データ領域、並びに前記リストア手段によってデータサーバにリストアするデータを格納する過去データ領域とを管理するデータ領域管理手段と、
データサーバに累積されたデータと保存期間が過ぎたデータを同時に検索するために、前記通常検索可能データ領域と前記過去データ領域を結合するデータ領域結合手段で構成される。
(発明の作用)
以上のように構成されたデータ検索システムにおいて、データ領域管理手段は、現在データ領域と過去データ領域を1つのデータベース内で持つことができるようになる。これにより、現在データサーバに蓄積されたデータの他に、システム外に退避してある過去のデータを同じデータベースシステム内にリストアし、現在データと同列に管理することができるようになる。
データ結合手段は、仮想表を構成し管理することができるので現在データと過去データ(システムから追い出されたデータ)をデータベースの外部に対して一つのデータとして見せることができる。よって仮想表に対する一度の検索処理を実行することで、現在データと過去データを一度に検索の対象とすることができる。
以上説明したように、本発明にかかる過去データ及び現在データの複合検索を行えるデータ検索システムによれば、現在蓄積してあるデータに加えて、システム外に退避してある過去データを一つのデータベースシステムに格納することができる。
現在データと過去データを一度の検索クエリーで検索処理することが可能となり、ユーザは検索処理を複数実行する必要がなくなり利便性の向上が期待できる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、ネットワーク構成を示す図である。ネットワーク構成として、検索サーバ11、データベースサーバ12、バックアップサーバ13の3つにより成り立っている。データベースサーバ12にデータを蓄積していく。扱うデータはイメージデータでJPEG圧縮されたPDF画像データである。イメージデータはデータ容量が大きいため、蓄積できる容量(期間)は通常のデータベースシステムに比べると限定される。蓄積できる容量の例として、蓄積できる期間が30日(蓄積できる容量がイメージデータ30日分)だった場合、31日目になると1日目に登録されたデータは削除される。削除されたデータはシステムの外に追い出される。そのため日単位で蓄積されていったデータをバックアップサーバにバックアップする。バックアップされたデータは外部記憶媒体14に保存される。そして検索サーバ11によってデータベースサーバ12上にあるイメージデータの検索を行う。データの検索はデータベースサーバ12に蓄積された期間のみ行え、システム外に追い出されたデータについてはバックアップサーバ13よりリストアすることによって検索が可能となる。
図2はデータベースサーバH/W構成を示す図である。データベース20はコントローラ21とSCSI27で接続された外部メモリ(HDD)26で成り立っている。CPU22がROM24にあるデータベースプログラムをRAM23に展開して外部メモリ26にデータの更新を行う。外部メモリに登録されているデータを検索サーバ11が検索し、バックアップサーバ13がバックアップを行う場合はとネットワーク28によって通信する。
図3はデータベースソフトウェアモジュール構成を示す図である。データ操作モジュール31によってデータ登録、データ検索、データ削除、データ更新が行われる。データ検索は検索サーバ11より検索要求がきた場合に動作し、データの検索を行う。データ登録は登録要求のあった場合に動作しデータの登録を行う。データ削除は蓄積できる期間(保存期間)が過ぎた場合にデータの削除要求があり動作し、データの削除を行う。データの更新は表管理情報(図5)の処理基準日51と表の番号52のデータを更新する際に動作し、データの更新を行う。表管理情報(図5)については後述説明する。データ領域管理モジュール32は、通常検索可能データ領域と過去データ領域を所定の期間を単位としてデータを管理する。ジョブ管理モジュール33は日単位で実行される、バックアップモジュール35の管理を行っている。バックアップ対象となる表、実行時間がジョブとして管理されている。データベース基本制御モジュール34は、データベースの基本的な処理、排他処理、トランザクション管理を行っている。バックアップモジュール35は蓄積されたデータをバックアップする際に動作する。リストアモジュール36は、システム外に追い出されたデータを再びデータベースサーバに戻す際に動作する。データ領域結合モジュール37は仮想表の定義が動作する。ここで定義された仮想表を使って、検索サーバ11はデータ検索を行う。仮想表の定義については後述説明する。
図4はデータベース領域構成を示す図である。本発明ではデータを格納する際に通常用領域41と過去データ用領域42に対して行う。通常のデータ登録は通常用領域41に対して行われ、システム外に追い出された過去データのリストアは過去データ用表領域に対して行われる。それぞれの領域のA0001からA0003はイメージデータを日単位で格納しているデータベースの表である。前述の通り、イメージデータは容量が大きいため、1つの表で管理するとデータを削除する際に断片化の問題が発生する。そこで表を日単位で分割して、1日分のデータが書きこまれる表を1つにする。例を挙げるとA0001が当日分のデータが格納され、A0002は翌日分のデータが格納される。そしてA0003は3日目のデータを表す。この1日分の表を図5の表番号管理情報によって管理している。表番号管理情報(図5)については後述説明する。データの登録先が日によって変化するため、データ検索を行う際に、複数の表から検索を行う必要がある。これを解決するために通常データ仮想表A43を作成し、データ検索は通常データ仮想表A43から行うものとする。通常データ仮想表Aは蓄積可能な期間(保存期間)分の表を結合したものである。図4を例にすると、今保存期間が3日としてA0001からA0003の3つの表を1つの仮想表として定義し、データ検索は仮想表に対して行う。すると3日分のデータを検索が可能となる。過去データ用領域42については通常用領域にある表と同じ構造をもつ表が存在する。表A0001に対して表A´0001は同一の表定義である。理由としてリストアを行いやすくするためとなる、通常データ領域41の表A0001をバックアップして、過去データ領域42にリストアする際に表A0001のデータを全て表A´0001にリストアするためリストアの手間がかからない。
図5はデータベース表番号管理情報を示す図である。表番号管理情報は、データ登録処理を考えた際に日単位でデータ格納先の表が変わり、当日どの表にデータを格納するかを決定するために必要な情報である。処理基準日51は、データを登録する際に基準となる日付である。登録されたデータがどの日のデータかを判断する。表の番号52は、データを登録する際にデータ格納対象である表の番号を表す。図3のジョブ管理モジュール33によって、処理基準日51を日単位で変化させ、表の番号52もそれに伴い変化させる。例えば今、処理基準日51が20061107(2006年11月7日)として、表の番号52が0005とすると、データ登録先は表A0005となる。翌日になると処理基準日51が20061108(2006年11月8日)に更新され、表の番号52が0006更新され、データ登録先の表はA0006となる。また保存期間53によってデータを蓄積できる期間が決定する。図5の例より保存期間について説明すると、保存期間53が5なので5日分データが蓄積できる。このときデータが格納されている表はA0001からA0005となる。保存期間53は、図3のデータ領域管理モジュール32によって管理されており、ユーザーの指定によって運用中に任意に変更することができる。また図3のデータ操作モジュール31のデータ削除処理によって保存期間を減らすことで、ディスクの空き容量を増加させ、過去データ領域の容量を増加させることができる。
図6はデータベース制御フローを示す図である。図6を参照して、データベース制御フローに関して詳細に説明する。初めに1日分通常データの格納、データ登録処理工程S61が行われる。この処理は1日単位を区切りとして行われる。データ登録処理工程S61は、通常データ領域の表に対して行われる。この表に関しては前述した通り、表番号管理情報より決定される。ここでデータ登録処理工程S61とバックアップ処理工程S62の間で日付をまたぐこととする。バックアップ処理工程S62ではデータ登録処理工程S61で登録された1日分のデータが過去データとしてバックアップされる。バックアップ処理工程S62については後述詳細に説明する。次に表番号管理情報更新処理工程S63が行われる。表番号管理情報更新処理工程S63では、図5の表番号管理情報の処理基準日51を当日の日付に更新し、表の番号52も次の番号に更新する。例えばデータ登録処理工程S61を行っていた日付(処理基準日51)を20061121として、表の番号52が0008だった場合を考える。表番号情報更新処理工程S63によって、日付(処理基準日51)は20061122と更新され、表の番号52は0009と更新される。通常データ仮想表作成処理工程S64では、通常データが検索サーバよりデータが検索可能な状態にするために、仮想表を作成する。例えば蓄積できる期間が5日で、日付(処理基準日51)が20061122、表の番号52が0009だった場合、仮想表は表A0005からA0009によって構成される。この場合検索できる日付としては2006年11月22日から2006年11月22日までとなる。仮想表の作成は仮想表定義処理(図10)を参照する。仮想表定義処理(図10)については後述説明する。次のステップで過去データをリストアしない場合の工程S65は、以上で通常データ検索可能工程S69となる。過去データをリストアする場合は、リストア処理工程S66を実行する。リストア処理工程S66については後述詳細に説明する。過去データのリストア処理工程S66が完了すると通常過去仮想表作成処理工程S67が実行され、通常データ領域と過去データ領域の表を結合して、通常データと過去データ、両方のデータを検索可能工程S68となる。過去データと通常データを結合した仮想表についてはデータベースデータ結合仮想表(図9)を参照する。データベースデータ結合仮想表(図9)については後述説明する。
図7はデータベースバックアップ処理フローを示す図である。バックアップ処理工程S62の詳細を表している。初めに表番号管理情報より処理基準日51と表番号52を取得して、バックアップ対象の確定工程S71を行う。次にバックアップ対象となった表をバックアップ処理工程S72する。例えば、データ登録処理工程S61を行った際の処理基準日51が20061121で、表の番号が0008の場合、バックアップ対象は表A0008となる。さらにバックアップデータのファイル名を確定する。例えば処理基準日51が20061121で表番号52が0008の場合、バックアップファイル名は「20061121_0008.DMP」となる。最後に保存期間外のデータ削除処理工程S73を行う。保存期間が過ぎた表Aの対象の番号を、表全体で削除する。例えば、保存期間が3日で現在の表の番号が0008だった場合、表A0006、A0007、A0008の3つが保存期間内で仮想表として定義され、検索データとして検索可能となる。表A0005は保存期間外のデータとなり、表ごと(表の定義は残ったまま)削除される。
図8はデータベースリストア処理フローを示す図である。リストア処理工程S66の詳細を表している。初めにデータベースサーバのディスクの容量が不足しているか判定工程S81を行う。不足している場合は過去データが既にデータベースに存在しているか確認工程S82する。存在する場合は過去データの削除工程S83を行ってディスクの空き容量を増やす。存在しない場合は通常データの保存期間を変更工程S84して不要データ削除処理工程S85を実施してディスクの空き容量を増やす。ディスクに空き容量ができたところで、過去データ領域にデータを格納できるスペースが確保さる。そしてバックアップデータが保存期間内か判定S86する。この際図7で説明したバックアップデータのバックアップファイルと表番号管理情報(図5)の処理基準日51、表番号52、保存期間53とを比較する。そして過去データ領域にリストアするか、通常データ領域にリストアするか判定する。バックアップデータが保存期間53の範囲内にある場合は通常データ領域にリストア処理工程S87によって、通常データ領域にバックアップデータがリストアされる。またバックアップデータが保存期間53の範囲外にある場合は過去データ領域にリストア処理工程S88によって、過去データ領域にバックアップデータがリストアされる。例えば、バックアップファイル名が20061121_0008.DMP、処理基準日51が20061125、表番号52が0012、保存期間53が3の場合を考える。バックアップファイルは、処理基準日51と表番号52から計算すると5日前のデータとわかる。ここで保存期間53は3日なので、5日前のデータは過去データとなる。よって過去データ領域にリストアされる。
図9はデータベースデータ結合仮想表を示す図である。通常検索可能データの格納された表91と過去データの格納された表92がデータ領域結合モジュール37によって結合されて、通常過去仮想表93を構成している。通常過去仮想表93を定義する処理として仮想表定義処理(図10)を参照する。仮想表定義処理(図10)については後述説明する。データ領域結合モジュール37が行う過去データと通常データの結合について、図9を例にして説明する。通常検索可能データの格納された表91として表A0001からA0006の6つの表にそれぞれ通常データが格納され、過去データの格納された表92としてA0801、A0900、A0600の3つにリストアされた過去データがある。これら9つの表を全て結合してひとつの仮想表とする。検索サーバ11は図3のデータ操作モジュールのデータ検索処理によって、仮想表に検索を行うことで、現在と過去両方のデータを検索することができる。例えば図9についてデータ検索クエリ(SQL)で考える。仮想表を使用しない場合は、通常データ領域の表6つと過去データ領域の表3つ合計9つの表に対して検索を行う。仮想表を使用する場合は通常データ領域と過去データ領域をまとめた仮想表1つに対してだけ検索を行うこととなる。
図10は仮想表定義処理を示す図である。通常過去仮想表作成処理工程S67をSQL文で行った場合の実行例である。SQL文の集合演算(UNION)によって仮想表定義を行うことを表す。現在データの表と過去データの表をすべてUNIONで結合して仮想表定義を行う。この処理はリストア処理工程S66が実行される毎に再定義される。
本発明の一実施例における、ネットワーク構成を示す図である。 本発明の一実施例における、データベースサーバH/W構成を示す図である。 本発明の一実施例における、データベースソフトウェアモジュール構成を示す図である。 本発明の一実施例における、データベース領域構成を示す図である。 本発明の一実施例における、データベース表番号管理情報を示す図である。 本発明の一実施例における、データベース制御フローを示す図である。 本発明の一実施例における、データベースバックアップ処理フローを示す図である。 本発明の一実施例における、データベースリストア処理フローを示す図である。 本発明の一実施例における、データベースデータ結合仮想表を示す図である。 本発明の一実施例における、仮想表定義処理を示す図である。

Claims (3)

  1. 大容量データの累積を行うデータサーバと、保存期間の過ぎたデータを長期間に渡り蓄積するバックアップサーバを有し、
    保存期間が過ぎたデータをバックアップデータとして退避するバックアップ手段と、前記バックアップしたデータを検索するために、データベースに戻すリストア手段と、
    データサーバに累積されたデータを検索するための通常検索可能データ領域、並びに前記リストア手段によってデータサーバにリストアするデータを格納する過去データ領域とを管理するデータ領域管理手段と、
    データサーバに累積されたデータと保存期間が過ぎたデータを同時に検索するために、前記通常検索可能データ領域と前記過去データ領域を結合するデータ領域結合手段とをそれぞれ有して過去データ及び現在データの複合検索をすることを特徴とするデータ検索システム。
  2. 前記通常検索可能データ領域と前記過去データ領域は、同じデータ構造を持つことを特徴とする請求項1に記載のデータ検索システム。
  3. 前記データ領域管理手段は、1日又はそれ以上の予め定めた期間を単位としてデータを管理することを特徴とする請求項1に記載のデータ検索システム。
JP2007113110A 2007-04-23 2007-04-23 データ検索システム Pending JP2008269408A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007113110A JP2008269408A (ja) 2007-04-23 2007-04-23 データ検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007113110A JP2008269408A (ja) 2007-04-23 2007-04-23 データ検索システム

Publications (1)

Publication Number Publication Date
JP2008269408A true JP2008269408A (ja) 2008-11-06

Family

ID=40048796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007113110A Pending JP2008269408A (ja) 2007-04-23 2007-04-23 データ検索システム

Country Status (1)

Country Link
JP (1) JP2008269408A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070556A (ja) * 2009-09-28 2011-04-07 Fujitsu Frontech Ltd データ管理装置及びバックアップデータ参照方法
WO2020049746A1 (ja) * 2018-09-07 2020-03-12 株式会社東芝 データベース装置、プログラム、およびデータ処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070556A (ja) * 2009-09-28 2011-04-07 Fujitsu Frontech Ltd データ管理装置及びバックアップデータ参照方法
WO2020049746A1 (ja) * 2018-09-07 2020-03-12 株式会社東芝 データベース装置、プログラム、およびデータ処理方法
JPWO2020049746A1 (ja) * 2018-09-07 2021-05-13 株式会社東芝 データベース装置、プログラム、およびデータ処理方法
JP7106656B2 (ja) 2018-09-07 2022-07-26 株式会社東芝 データベース装置、プログラム、およびデータ処理方法

Similar Documents

Publication Publication Date Title
US9031911B2 (en) Preserving past states of file system nodes
US10248676B2 (en) Efficient B-Tree data serialization
US8972350B2 (en) Preserving a state using snapshots with selective tuple versioning
US9002777B1 (en) Systems and methods for handling data
CN101334797B (zh) 一种分布式文件系统及其数据块一致性管理的方法
EP2488949B1 (en) De-duplication storage system with multiple indices for efficient file storage
JP5722962B2 (ja) ストレージ性能の最適化
US7681001B2 (en) Storage system
EP2375347A2 (en) Systems and methods for classifying and transferring information in a storage network
JP2002108662A (ja) 情報管理方法
JP2005242403A (ja) 計算機システム
CN102142024A (zh) 在分布式数据库中使用递增捕捉来进行逻辑数据备份和回退
WO2018040167A1 (zh) 数据缓存方法及装置
WO2012083754A1 (zh) 处理脏数据的方法及装置
CN105573859A (zh) 一种数据库的数据恢复方法和设备
JP2017027326A (ja) ストレージシステムおよびストレージシステム用プログラム
CN114416677A (zh) 一种冷存储数据的更新方法、装置、设备及存储介质
WO2017156855A1 (en) Database systems with re-ordered replicas and methods of accessing and backing up databases
JP2008269408A (ja) データ検索システム
US9063656B2 (en) System and methods for digest-based storage
JP6292796B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN103353891A (zh) 数据库管理系统及其数据处理方法
JP4983045B2 (ja) データベースの正常性チェック方法、正常性チェックプログラム、および正常性チェック装置
CN116257531B (zh) 一种数据库空间回收方法
JP6891533B2 (ja) データベース装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201