JP6638821B2

JP6638821B2 - データベースのアーカイビング方法及び装置、アーカイビングされたデータベースの検索方法及び装置

Info

Publication number: JP6638821B2
Application number: JP2018543247A
Authority: JP
Inventors: キム，オクス
Original assignee: Armiq Co Ltd
Current assignee: Armiq Co Ltd
Priority date: 2016-02-26
Filing date: 2016-10-13
Publication date: 2020-01-29
Anticipated expiration: 2036-10-13
Also published as: US11030050B2; EP3422204A1; KR101663547B1; JP2019512125A; AU2016394743A1; US20190026189A1; EP3422204A4; CN108701134A; WO2017146337A1

Description

本発明は、データベースのアーカイビング方法及びその装置と、アーカイビングされたデータベースの検索方法及びその装置に関し、さらに具体的には、データ圧縮技術を利用したデータベースのアーカイビング方法及びその装置と圧縮してアーカイビングされたデータベースを検索する方法及びその装置に関する。

インターネットの普及の拡大、データ通信技術の発展などと共に、ＰＣ、ラップトップ及びスマートフォンのようなデータ生産及び消費手段が広く普及するにつれて、近日生産されて消費されるデータの量は、幾何級数的に増えている状況である。

このようなデータを効果的に分類して活用するために、データベースを利用してデータを管理する方法が各種の企業、団体及び学校などで広く利用されている。しかし、増えるデータの量が幾何級数的なだけに、データベースの容量も直ぐ限界に達し、データベースの容量を拡張し続けることも費用及び管理の側面で制約があるというのが現実である。

従って、データベースを効率的にアーカイビングして容量を節約することができる技術に対する関心が増加している。特に、データ圧縮技術を利用したデータベースのアーカイビング方法及びその装置と圧縮してアーカイビングされたデータベースを検索する方法及びその装置に対する関心が台頭している。

本発明は、データベースのレコードを所定の基準によって分類し、分類されたレコード別に圧縮してアーカイビングすることで、データベースの容量を節約することができるデータベースのアーカイビング方法及びその装置を提供する。

また、本発明は、上記のような方法でアーカイビングされたデータベースを並列に検索して、より効率的なデータベースの検索方法及びその装置を提供する。

上記目的を達成するために、本発明で提供するデータベースのアーカイビング方法は、データのアーカイビングをする原本テーブルにおいて、時間及びフィールド（ｆｉｅｌｄ）値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコード（ｒｅｃｏｒｄ）を含む少なくとも一つのレコードグループを選別する段階と、前記選別された少なくとも一つのレコードグループのそれぞれについて、前記レコードグループ別に圧縮して生成されたグループ圧縮データ及び前記グループ圧縮データに対応する前記選別情報を圧縮テーブルに格納する段階と、前記選別された少なくとも一つのレコードグループに含まれた複数のレコードを前記原本テーブルから削除する段階とを含む。

好ましくは、前記選別情報を圧縮テーブルに格納する段階は、前記選別された少なくとも一つのレコードグループのそれぞれについて、前記レコードグループに含まれた複数のレコードのデータをバッファに格納する段階と、前記バッファに格納されたデータを圧縮して前記グループ圧縮データを生成する段階と、前記生成されたグループ圧縮データに対応する前記選別情報を取得する段階と、前記グループ圧縮データを前記選別情報と前記圧縮テーブル上の同一のレコードに格納する段階とを含むことができる。

好ましくは、前記選別された少なくとも一つのレコードグループの中でレコードの個数が閾値を超える超過レコードグループが存在すると、前記超過レコードグループをレコードの個数が前記閾値以下である複数の前記レコードグループに分離する段階をさらに含み、前記選別情報を圧縮テーブルに格納する段階は、前記分離された複数のレコードグループのそれぞれに付与された一連番号を前記圧縮テーブルにさらに格納することができる。

また、上記目的を達成するために、本発明で提供するデータベースのアーカイビング装置は、データのアーカイビングをする原本テーブルにおいて、時間及びフィールド値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコードを含む少なくとも一つのレコードグループを選別するデータ選別部と、前記選別された少なくとも一つのレコードグループのそれぞれについて、前記レコードグループ別に圧縮してグループ圧縮データを生成するデータ圧縮部と、前記グループ圧縮データ及び前記グループ圧縮データに対応する前記選別情報を圧縮テーブルに格納し、前記選別された少なくとも一つのレコードグループに含まれた複数のレコードを前記原本テーブルから削除するＤＢ管理部とを含む。

好ましくは、前記データ圧縮部は、前記選別された少なくとも一つのレコードグループのそれぞれについて、前記レコードグループに含まれた複数のレコードのデータをバッファに格納し、前記バッファに格納されたデータを圧縮して前記グループ圧縮データを生成し、前記ＤＢ管理部は、前記生成されたグループ圧縮データに対応する前記選別情報を取得し、前記グループ圧縮データを前記選別情報と前記圧縮テーブル上の同一のレコードに格納することができる。

好ましくは、前記データ選別部は、前記選別された少なくとも一つのレコードグループの中でレコードの個数が閾値を超える超過レコードグループが存在すると、前記超過レコードグループをレコードの個数が前記閾値以下である複数の前記レコードグループにさらに分離し、前記ＤＢ管理部は、前記分離された複数のレコードグループのそれぞれに付与された一連番号を前記圧縮テーブルにさらに格納することができる。

また、上記目的を達成するために、本発明で提供するアーカイビングされたデータベースの検索方法は、時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及び前記選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する段階と、検索が行われるコンピュータの性能及び前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する段階と、前記決定されたＤＢ検索過程の個数に基づいて前記検索条件を満たすレコードの検索を並列に行う段階とを含む。

好ましくは、前記並列に処理するためのＤＢ検索過程の個数を決定する段階は、前記コンピュータに含まれたＣＰＵの個数、メモリーの容量及び格納装置の入出力速度のうち少なくともいずれか一つに対するコンピュータ性能情報を収集する段階と、前記圧縮テーブルに格納された前記グループ圧縮データの中で前記受信された検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数を決定する段階と、前記収集されたコンピュータ性能情報及び前記決定されたグループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する段階とを含むことができる。

好ましくは、前記検索条件を満たすレコードの検索を並列に行う段階は、前記決定された個数のＤＢ検索過程のそれぞれについて、前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて少なくとも一つの前記グループ圧縮データを割り当てる段階と、前記それぞれのＤＢ検索過程別に前記割り当てられた少なくとも一つのグループ圧縮データの圧縮解除及び前記検索条件を満たすレコードの検索を並列に行う段階とを含むことができる。

好ましくは、前記検索条件を満たすレコードの検索を並列に行う段階は、前記圧縮テーブルでアーカイビングした原本テーブルに含まれたフィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報にさらに基づくことができる。

好ましくは、前記ＤＢ検索過程は、前記それぞれのＤＢ検索過程別に割り当てられたプロセス（ｐｒｏｃｅｓｓ）またはスレッド（ｔｈｒｅａｄ）を利用して検索を行うことができる。

また、上記目的を達成するために、本発明で提供するアーカイビングされたデータベースの検索装置は、時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及び前記選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する受信部と、検索が行われるコンピュータの性能及び前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する検索準備部と、前記決定されたＤＢ検索過程の個数に基づいて前記検索条件を満たすレコードの検索を並列に行う並列検索部とを含む。

好ましくは、前記検索準備部は、前記コンピュータに含まれたＣＰＵの個数、メモリーの容量及び格納装置の入出力速度のうち少なくともいずれか一つに対するコンピュータ性能情報を収集し、前記圧縮テーブルに格納された前記グループ圧縮データの中で前記受信された検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数を決定し、前記収集されたコンピュータ性能情報及び前記決定されたグループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定することができる。

好ましくは、前記並列検索部は、前記決定された個数のＤＢ検索過程のそれぞれについて、前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数に基づいて少なくとも一つの前記グループ圧縮データを割り当て、前記それぞれのＤＢ検索過程別に前記割り当てられた少なくとも一つのグループ圧縮データの圧縮解除及び前記検索条件を満たすレコードの検索を並列に行うことができる。

好ましくは、前記並列検索部は、前記圧縮テーブルでアーカイビングした原本テーブルに含まれたフィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報にさらに基づくことができる。

好ましくは、前記ＤＢ検索過程は、前記それぞれのＤＢ検索過程別に割り当てられたプロセスまたはスレッドを利用して検索を行うことができる。

本発明は、データベースに格納されたデータを検索頻度、重要度などによって分類し、分類結果別に圧縮してアーカイビングすることで、データベースの使用容量を画期的に減らすことができ、アーカイビングされたデータの検索効率も極大化するという効果がある。

本発明の一実施例によるデータベースのアーカイビング方法を説明するために示したフローチャートである。本発明の一実施例による選別情報を圧縮テーブルに格納する方法を説明するために示したフローチャートである。本発明の一実施例によるアーカイビングされたデータベースの検索方法を説明するために示したフローチャートである。本発明の一実施例によるＤＢ検索過程の個数を決定する方法を説明するために示したフローチャートである。本発明の一実施例によるデータベースのアーカイビング装置を説明するために示した図面である。本発明の一実施例によるアーカイビングされたデータベースの検索装置を説明するために示した図面である。本発明の一実施例による圧縮テーブルを説明するために示した図面である。本発明の一実施例による圧縮テーブルを説明するために示した図面である。

本発明は、多様な変更を加えることができ、様々な実施例を有することができるため、特定の実施例を図面に例示し、詳細な説明に詳しく説明する。しかし、これは、本発明を特定した実施形態について限定するものではなく、本発明の思想及び技術範囲に含まれる全ての変更、均等物または代替物を含むと理解されるべきである。各図面を説明しながら類似な参照符号を類似した構成要素に対して使用した。

第１、第２、Ａ、Ｂなどの用語は、多様な構成要素を説明するのに使用することができるが、上記構成要素は、上記用語によって限定されてはならない。上記用語は、一つの構成要素を他の構成要素から区別する目的だけで使用される。例えば、本発明の権利範囲から逸脱せず、第１構成要素は第２構成要素と命名されることができ、同様に、第２構成要素も第１構成要素と命名されることができる。「及び／又は」という用語は、複数の関連記載の項目の組み合わせまたは複数の関連記載の項目のいずれかの項目を含む。

ある構成要素が他の構成要素に「連結されて」いるか「接続されて」いると言及された時は、その他の構成要素に直接的に連結されるかまたは接続されることもできるが、その間に他の構成要素が存在することもできると理解されるべきである。反面、ある構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いると言及された時は、中間に他の構成要素が存在しないと理解されるべきである。

本出願で使用した用語は、単に特定の実施例を説明するために使用されたもので、本発明を限定しようとする意図ではない。単数の表現は、文脈上明らかに異なる意味ではない限り、複数の表現を含む。本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定するためであり、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品またはこれらを組み合わせたものの存在または付加可能性を予め排除しないと理解されるべきである。

異なって定義しない限り、技術的であるか科学的な用語を含み、ここで使用される全ての用語は、本発明が属する技術分野で通常の知識を持った者によって一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されるような用語は、関連技術の文脈上で持つ意味と一致する意味を持つと解釈されるべきであり、本出願で明らかに定義しない限り、理想的であるか過度に形式的な意味で解釈されない。

以下で、本発明による好ましい実施例を添付の図面を参照して詳しく説明する。

図１は、本発明の一実施例によるデータベースのアーカイビング方法を説明するために示したフローチャートである。

段階Ｓ１１０では、データベースのアーカイビング装置がデータのアーカイビングをする原本テーブルにおいて、時間及びフィールド（ｆｉｅｌｄ）値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコード（ｒｅｃｏｒｄ）を含む少なくとも一つのレコードグループを選別する。

テーブルは、データベースでデータを格納する基本構造をなす単位であり、原本テーブルは、データベースに含まれた複数のテーブルの中で容量を節約するためにアーカイビングをするテーブルであることができる。

データベースのアーカイビング装置は、原本テーブルにおいて、所定の時間及びフィールド値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコードを含む少なくとも一つのレコードグループを選別することができる。

この時、選別情報は、時間に関する情報であっても、原本テーブルに含まれた特定のフィールド値に関する情報であってもよく、両方とも含む情報であってもよい。例えば、時間に関する選別情報は、原本テーブルに含まれた時間に対するフィールドを利用して毎月単位のレコードを選別する情報であることができる。また、フィールド値に関する選別情報は、原本テーブルに含まれた所定のフィールドを利用してそのフィールドのフィールド値によってレコードを選別する情報であることができる。また、時間及びフィールド値の両方に関する選別情報は、時間に対するフィールド及び所定のフィールドを共に利用して、レコードを選別する情報であることができる。

一方、選別情報に含まれるフィールド値は、原本テーブルにおいて、最も検索が頻繁に発生するフィールドのフィールド値で決定されることができる。この時、最も検索が頻繁なフィールドを利用してレコードを選別する理由は、アーカイビングされた後、該アーカイビングされたデータベースを検索する際に効率性を極大化することができるからである。

レコードグループは、原本テーブルに含まれた全体レコードの中で選別情報を利用して分類された複数のレコードで構成されたグループである。レコードグループは、選別基準によって少なくとも一つ以上生成されることができ、必要に応じて、原本テーブルの全体ではなく、一部のレコードだけを対象として限定してレコードグループを生成することができる。例えば、原本テーブルにおいて、２０１５年以前のレコードだけを対象としてアーカイビングするためにレコードグループを生成することができる。

一方、一つのレコードグループに含まれるレコードの個数は、原本テーブルに含まれた全体レコードの個数、データベースを検索するコンピュータの性能及びデータベースの検索条件パターンなどを総合的に分析及び検討して決定することができる。

他の実施例では、データベースのアーカイビング装置がその選別された少なくとも一つのレコードグループの中でレコードの個数が閾値を超える超過レコードグループが存在すると、その超過レコードグループをレコードの個数が閾値以下である複数のレコードグループに分離することができる。

例えば、一つのレコードグループが含むことができるレコードの個数である閾値が１０万個で設定されることができる。しかし、もし、選別されたレコードグループにその閾値を超えるレコードの個数を含む超過レコードグループが存在すると、これは、コンピュータの過負荷及び検索過程の非効率をもたらす可能性があり、問題の素地になり得る。

従って、一つのレコードグループが１０万個を超えるレコードを有する場合、これを１０万個単位に分離して、複数個のレコードグループを生成することができる。例えば、一つのレコードグループが２５万個のレコードの個数を有する場合、データベースのアーカイビング装置がこの超過レコードグループを１０万個ずつのレコードの個数を有する２個のレコードグループと、５万個のレコードの個数を有する１個のレコードグループとの計３個のレコードグループに分離することができる。

一方、上記のように分離された複数のレコードグループは、互いに同一の選別情報によって分類されたため、その複数のレコードグループを互いに区別する方法がない可能性がある。従って、その分離された複数のレコードグループのそれぞれに一連番号（例、１、２、３、４，…）を付与し、圧縮テーブルの一連番号フィールドにさらに格納することができる。この場合、アーカイビングされたデータベースを検索する際にも、レコードグループのそれぞれを区別して検索を行うことができる。これについては、図７に対する説明で具体的に後述する。

段階Ｓ１２０では、データベースのアーカイビング装置がその選別された少なくとも一つのレコードグループのそれぞれについて、レコードグループ別に圧縮して生成されたグループ圧縮データ及びそのグループ圧縮データに対応する選別情報を圧縮テーブルに格納する。

圧縮テーブルは、原本テーブルをレコードグループ単位に圧縮してアーカイビングしたデータが格納されるテーブルを意味する。また、圧縮テーブルは、レコードグループ別に圧縮して生成されたグループ圧縮データを格納するためのフィールドと、そのグループ圧縮データに対応する選別情報を格納するための少なくとも一つのフィールドとを含むことができる。

グループ圧縮データは、分類されたレコードグループのそれぞれを圧縮して生成したバイナリデータであることができ、グループ圧縮データを生成し圧縮テーブルに格納する具体的な過程は、図２、図７及び図８に対する説明で詳しく後述する。

最後に、段階Ｓ１３０では、データベースのアーカイビング装置がその選別された少なくとも一つのレコードグループに含まれた複数のレコードをその原本テーブルから削除する。

データベースを圧縮してアーカイビングする目的は、データベースの格納スペースを節約するためであり、アーカイビングされたレコードグループに含まれる複数のレコードを原本テーブルから削除することで、データベースの格納スペースを節約することができる。

このように、本発明の一実施例によるデータベースのアーカイビング方法は、圧縮する手続きを経てデータベースをアーカイビングすることで、データベースの容量を画期的に節約するという効果がある。また、データベースに含まれた原本テーブルを時間または頻繁に検索されるフィールド値に分類した後、アーカイビングすることで、追って該アーカイビングされたデータを検索する上で検索の効率性を極大化することができるという効果がある。

図２は、本発明の一実施例による選別情報を圧縮テーブルに格納する方法を説明するために示したフローチャートである。この時、選別情報を圧縮テーブルに格納する過程は、選別された少なくとも一つのレコードグループのそれぞれについて行うことができる。

段階Ｓ２１０では、データベースのアーカイビング装置がレコードグループに含まれた複数のレコードのデータをバッファに格納する。

複数のレコードのデータが格納されるバッファの大きさは、原本テーブルのテーブル構造（フィールドの個数、種類及び大きさ）及びレコードグループに含まれるレコードの閾値に基づいて決定されることができる。

例えば、原本テーブルがＤＡＴＥ（文字８字）、ＮＡＭＥ（文字３０字）及びＡＧＥ（整数４バイト）の計３個のフィールドを含み、レコードグループのレコードの個数に対する閾値が１０万個とすれば、文字１字を２バイトで計算すると、バッファの大きさは、少なくとも１０万＊（８＊２＋３０＊２＋４）＝８００万バイト（約８メガバイト）になることができる。

そして、データベースのアーカイビング装置がレコードグループに含まれたレコード及びそのレコードのフィールド値を順次に全て読み、バッファに順に格納することができる。

段階Ｓ２２０では、データベースのアーカイビング装置がそのバッファに格納されたデータを圧縮してグループ圧縮データを生成する。

グループ圧縮データは、バッファに格納されたレコードグループのデータを圧縮して生成されたバイナリ形態の結果物であることができる。この時、圧縮による損失が発生しないようにするために、無損失の圧縮アルゴリズムであるＺＩＰ、ＣＴＷ、ＬＺ７７またはＬＺＷなどが使用されることができる。

段階Ｓ２３０では、データベースのアーカイビング装置がその生成されたグループ圧縮データに対応する選別情報を取得する。

例えば、データベースのアーカイビング装置が時間に関する選別情報に基づいてレコードグループを分類し、そのレコードグループに対応するグループ圧縮データを生成した時、そのグループ圧縮データは、２０１５年２月に該当する選別情報を有する複数のレコードから生成されることができる。この時、グループ圧縮データに対応する選別情報は、２０１５年２月になることができる。

最後に、段階Ｓ２４０では、データベースのアーカイビング装置が生成されたグループ圧縮データを取得した選別情報と共に圧縮テーブル上の同一のレコードに格納する。

圧縮テーブルは、バイナリ形態であるグループ圧縮データを格納するためのフィールドと選別情報を格納するための少なくとも一つのフィールドとを含むことができる。つまり、生成されたグループ圧縮データは、圧縮されたバイナリデータを格納するためのフィールドに格納され、そのグループ圧縮データに対応する選別情報は、その少なくとも一つのフィールドに分散して格納することができる。

一方、図７及び図８は、圧縮テーブルを説明するために示した図面であり、圧縮テーブルの構造を説明すると、以下の通りである。

図７を参照すると、原本テーブル７１０は、時間に対するＤａｔｅフィールド７１４を含んでいる。この時、原本テーブル７１０を時間に関する選別情報であるＤａｔｅフィールド７１４のフィールド値に基づいて分類した後、各分類結果別にグループ圧縮データ７２６及びそのグループ圧縮データに対応する時間に関する選別情報７２２を圧縮テーブル７２０に格納することができる。この時、Ｄａｔｅフィールド７１４の値が２００２．０１であるレコードの個数がＤｏｃ．Ｎｏ．フィールド７１２のフィールド値を参照する時、１から１９０，０００まで１９万個存在して、レコードグループの閾値１０万個を超えている。すると、そのレコードグループは、それぞれ１０万個及び９万個のレコードを含む２個のレコードグループに分離されることができる。そして、その分離された２個のレコードグループに対応するグループ圧縮データがそれぞれ生成され、生成されたグループ圧縮データ７２６別に固有の一連番号７２４が１と２として付与されて、圧縮テーブル７２０に共に格納することができる。

図８を参照すると、原本テーブル８１０は、時間に対するＤａｔｅフィールド８１４と頻繁に検索されるフィールドであるＣｏｌ１フィールド８１６及びＣｏｌ２フィールド８１８を含んでいる。この時、原本テーブル８１０を時間及びフィールド値に関する選別情報であるＤａｔｅフィールド８１４、Ｃｏｌ１フィールド８１６及びＣｏｌ２フィールド８１８のフィールド値に基づいて分類した後、各分類結果別にグループ圧縮データ８２５及びそのグループ圧縮データに対応する選別情報８２１、８２２、８２３を圧縮テーブル８２０に格納することができる。つまり、Ｄａｔｅフィールド８１４の値が２００２．０１であり、Ｃｏｌ１フィールド８１６の値が１０００であり、Ｃｏｌ２フィールド８１８の値がＡのレコードは、Ｄｏｃ．Ｎｏ．フィールド８１２のフィールド値を参照すると、１から９０，０００までの９万個であるので、その９万個のレコードが一つのレコードグループとなり、グループ圧縮データ８２５で生成されて対応する選別情報８２１、８２２、８２３と共に格納することができる。同様に、Ｄａｔｅフィールド８１４の値が２００２．０１であり、Ｃｏｌ１フィールド８１６の値が１０００であり、Ｃｏｌ２フィールド８１８の値がＢのレコードは、Ｄｏｃ．Ｎｏ．フィールド８１２のフィールド値を参照すると、９０，００１から１５０，０００までの６万個であるので、その６万個のレコードが一つのレコードグループとなり、グループ圧縮データ８２５で生成されて対応する選別情報８２１、８２２、８２３と共に格納することができる。

このように、本発明の一実施例による選別情報を圧縮テーブルに格納する方法は、グループ圧縮データ及びそのグループ圧縮データに対応する選別情報を圧縮テーブルの同一のレコードに格納し、追って選別情報のみを利用して対応するグループ圧縮データをより効率的に見つけられるという効果がある。

図３は、本発明の一実施例によるアーカイビングされたデータベースの検索方法を説明するために示したフローチャートである。

段階Ｓ３１０では、データベースの検索装置が時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及びその選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する。

この時、受信された検索条件は、ＳＱＬ（ｓｔｒｕｃｔｕｒｅｄｑｕｅｒｙｌａｎｇｕａｇｅ）文の形態の検索条件であることができる。つまり、データベースの検索装置がグループ圧縮データとそのグループ圧縮データに対応する選別情報が格納された圧縮テーブルで使用者が所望のレコードを検索するための検索条件をＳＱＬ文の形式で受信することができる。

この時、使用者は、圧縮テーブルを検索するのか分からない状態で、原本テーブルでレコードを検索するための検索条件を生成することができ、データベースの検索装置がその生成された検索条件を受信することができる。

段階Ｓ３２０では、データベースの検索装置が検索が行われるコンピュータの性能及び検索条件を満たす選別情報に対応するグループ圧縮データの個数のうち少なくともいずれか一つに基づいて、レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する。

ＤＢ検索過程は、アーカイビングされたデータベースでレコードの検索を行う単一過程を意味する。従って、もしレコードの検索が並列に処理される場合は、ＤＢ検索過程が複数個存在し、同時に進行されると理解することができる。

一方、ＤＢ検索過程の個数がコンピュータの性能に基づいて決定されることは、各ＤＢ検索過程が圧縮されたグループ圧縮データからレコードを検索する過程がコンピュータに多くの負荷を与える可能性があるからである。また、ＤＢ検索過程の個数が検索条件を満たす選別情報に対応するグループ圧縮データの個数に基づいて決定されることは、そのグループ圧縮データの個数が、結局、検索の量または範囲と関連する可能性があるからである。

一方、レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する具体的な過程については、図４に対する説明で具体的に後述する。

最後に、段階Ｓ３３０では、データベースの検索装置がその決定されたＤＢ検索過程の個数に基づいて検索条件を満たすレコードの検索を並列に行う。

例えば、データベースの検索装置が先に決定された個数だけのＤＢ検索過程を準備し、各ＤＢ検索過程別に検索範囲を分担してレコードの検索を並列に行うことができる。

他の実施例では、データベースの検索装置がＤＢ検索過程のそれぞれについて少なくとも一つのグループ圧縮データを割り当てて、それに基づいてレコードの検索を並列に行うことができる。

例えば、検索条件を満たす選別情報に対応するグループ圧縮データの個数が６個であり、決定されたＤＢ検索過程の個数が４個とすれば、データベースの検索装置がＤＢ検索過程４個のうち２個には２個ずつのグループ圧縮データを割り当て、残りのＤＢ検索過程の２個には１個ずつのグループ圧縮データが割り当てられる。そして、その４個のＤＢ検索過程が割り当てられた１個または２個のグループ圧縮データに対するレコードの検索を並列に行うことができる。

この時、各ＤＢ検索過程は、割り当てられたグループ圧縮データの圧縮を解除してバッファに格納し、そのバッファに格納されたデータから検索条件を満たすレコードを検索する過程を通じて検索を行うことができる。

また他の実施例では、データベースの検索装置が圧縮テーブルでアーカイビングされた原本テーブルに含まれたフィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報にさらに基づいて検索条件を満たすレコードの検索を行うことができる。

グループ圧縮データの圧縮を解除してバッファに格納し、そのバッファに格納されたデータから検索条件を満たすレコードを検索する場合に、データベースの検索装置が原本テーブルに含まれた各フィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報が分かっていれば、そのテーブル構造情報に基づいて検索をより容易に行うことができる。

また他の実施例では、ＤＢ検索過程は、それぞれのＤＢ検索過程別に割り当てられたプロセス（ｐｒｏｃｅｓｓ）またはスレッド（ｔｈｒｅａｄ）を利用して検索を行うことができる。

各ＤＢ検索過程は、並列的にレコードの検索を行わなければならないため、このような並列的な特性を満たすために、子プロセス（ｃｈｉｌｄｐｒｏｃｅｓｓ）またはスレッドが各ＤＢ検索過程別に一つずつ割り当てられて検索を行うことができる。この時、各ＤＢ検索過程別に子プロセスが割り当てられるか或いはスレッドが割り当てられるかは、検索が行われるコンピュータのＣＰＵの種類及びＯＳの種類などによる支援の有無によって決定されることができる。

例えば、ＤＢ検索過程の個数が６個に決定された場合に、６個の子プロセスが各ＤＢ検索過程別に割り当てられ、６個の子プロセスのそれぞれがＤＢ検索過程に割り当てられたグループ圧縮データに対するレコードの検索を並列に行うことができる。

このように、本発明の一実施例によるアーカイビングされたデータベースの検索方法は、コンピュータの性能及びデータベース検索の範囲によって決定されたＤＢ検索過程の個数に基づいてレコードの検索を並列に行うことができるという効果がある。

図４は、本発明の一実施例によるＤＢ検索過程の個数を決定する方法を説明するために示したフローチャートである。

段階Ｓ４１０では、データベースの検索装置がコンピュータに含まれたＣＰＵの個数、メモリーの容量及び格納装置の入出力速度のうち少なくともいずれか一つに対するコンピュータ性能情報を収集する。

コンピュータの性能は、レコードの検索が行われるコンピュータに含まれたＣＰＵ、メモリー及び格納装置の性能によって決定されることができる。特に、ＣＰＵの場合、そのコンピュータに組み込まれたＣＰＵの個数、クロック周波数、キャッシュのサイズ及びＣＰＵ別コアの個数などによって性能が決定されることができる。また、メモリーは、容量及び動作クロック周波数などによって性能が決定されることができる。また、格納装置は、入出力速度によって性能が決定されることができる。

従って、データベースの検索装置がレコードの検索が行われるコンピュータのＣＰＵ、メモリー及び格納装置のうち少なくとも一つに対する情報を含むコンピュータ性能情報を収集することができる。

段階Ｓ４２０では、データベースの検索装置が圧縮テーブルに格納されたグループ圧縮データの中で受信された検索条件を満たす選別情報に対応するグループ圧縮データの個数を決定する。

例えば、圧縮テーブルに格納されている選別情報及びその選別情報に対応するグループ圧縮データについて、使用者が２０１５年１月から２０１５年１０月までの検索条件を伝送した場合に、この検索条件を満たす選別情報を全て見つければ、その選別情報に対応するグループ圧縮データの個数が決定されることができる。

最後に、段階Ｓ４３０では、データベースの検索装置がその収集されたコンピュータ性能情報及びその決定されたグループ圧縮データの個数のうち少なくともいずれか一つに基づいてレコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する。

例えば、データベースの検索装置は、収集されたコンピュータ性能情報とグループ圧縮データの個数を総合的に分析して、レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定することができる。

さらに具体的には、収集されたコンピュータ性能情報が優れなくとも決定されたグループ圧縮データの個数が多くない場合、ＤＢ検索過程の個数は、グループ圧縮データの個数に合わせて少ない数で決定されることができ、逆に収集されたコンピュータ性能情報が非常に優れた場合に決定されたグループ圧縮データの個数が多くても、ＤＢ検索過程の個数は、コンピュータ性能情報に合わせても少ない数で決定されることができる。

このように、本発明の一実施例によるＤＢ検索過程の個数を決定する方法は、検索が行われるコンピュータの性能に対する情報及び検索条件を満たす選別情報に対応するグループ圧縮データの個数によってＤＢ検索過程の個数を決定することで、レコードの並列検索をより効率的に行うという効果がある。

図５は、本発明の一実施例によるデータベースのアーカイビング装置を説明するために示した図面である。

図５をみると、データベースのアーカイビング装置５００は、データ選別部５１０、データ圧縮部５２０及びＤＢ管理部５３０を含む。この時、データベースのアーカイビング装置５００は、データベースが組み込まれたコンピュータに共に組み込まれるか、データベースとネットワークで連結されたコンピュータに組み込まれることができる。

データ選別部５１０は、データアーカイビングをする原本テーブルにおいて、時間及びフィールド値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコードを含む少なくとも一つのレコードグループを選別する。

データ圧縮部５２０は、その選別された少なくとも一つのレコードグループのそれぞれについて、レコードグループ別に圧縮してグループ圧縮データを生成する。

ＤＢ管理部５３０は、グループ圧縮データ及びそのグループ圧縮データに対応する選別情報を圧縮テーブルに格納し、選別された少なくとも一つのレコードグループに含まれた複数のレコードを原本テーブルから削除する。

他の実施例では、データ圧縮部５２０は、選別された少なくとも一つのレコードグループのそれぞれについて、そのレコードグループに含まれた複数のレコードのデータをバッファに格納し、そのバッファに格納されたデータを圧縮してグループ圧縮データを生成し、ＤＢ管理部５３０は、その生成されたグループ圧縮データに対応する選別情報を取得し、そのグループ圧縮データをその選別情報と圧縮テーブル上の同一のレコードに格納することができる。

また他の実施例では、データ選別部５１０は、その選別された少なくとも一つのレコードグループの中でレコードの個数が閾値を超える超過レコードグループが存在すると、その超過レコードグループをレコードの個数が閾値以下である複数のレコードグループにさらに分離し、ＤＢ管理部５３０は、その分離された複数のレコードグループのそれぞれに付与された一連番号を圧縮テーブルにさらに格納することができる。

図６は、本発明の一実施例によるアーカイビングされたデータベースの検索装置を説明するために示した図面である。

図６をみると、アーカイビングされたデータベースの検索装置６００は、受信部６１０、検索準備部６２０及び並列検索部６３０を含む。この時、アーカイビングされたデータベースの検索装置６００は、データベースが組み込まれたコンピュータに共に組み込まれるか、データベースとネットワークで連結されたコンピュータに組み込まれることができる。

受信部６１０は、時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及びその選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する。

検索準備部６２０は、検索が行われるコンピュータの性能及び受信された検索条件を満たす選別情報に対応するグループ圧縮データの個数のうち少なくともいずれか一つに基づいてレコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する。

他の実施例では、検索準備部６２０は、コンピュータに含まれたＣＰＵの個数、メモリーの容量及び格納装置の入出力速度のうち少なくともいずれか一つに対するコンピュータ性能情報を収集し、圧縮テーブルに格納されたグループ圧縮データの中で受信された検索条件を満たす選別情報に対応するグループ圧縮データの個数を決定することができる。

並列検索部６３０は、その決定されたＤＢ検索過程の個数に基づいて受信された検索条件を満たすレコードの検索を並列に行う。

他の実施例では、並列検索部６３０がその決定された個数のＤＢ検索過程のそれぞれについて、検索条件を満たす選別情報に対応するグループ圧縮データの個数に基づいて少なくとも一つのグループ圧縮データを割り当て、そのそれぞれのＤＢ検索過程別に割り当てられた少なくとも一つのグループ圧縮データの圧縮解除及び検索条件を満たすレコードの検索を並列に行うことができる。

また他の実施例では、並列検索部６３０は、圧縮テーブルでアーカイビングされた原本テーブルに含まれたフィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報にさらに基づくことができる。

また他の実施例では、ＤＢ検索過程は、それぞれのＤＢ検索過程別に割り当てられたプロセスまたはスレッドを利用して検索を行うことができる。

一方、上述した本発明の実施例は、コンピュータで実行することができるプログラムで作成可能であり、コンピュータで読み取れる記録媒体を利用して上記プログラムを動作させる汎用のデジタルコンピュータで実現することができる。

上記コンピュータで読み取れる記録媒体は、マグネチック格納媒体（例えば、ロム、フロッピーディスク、ハードディスクなど）、光学的読取媒体（例えば、シーディーロム、ディーブイディーなど）を含む。

これまで本発明についてその好ましい実施例を中心として説明した。本発明が属する技術分野で通常の知識を持った者は、本発明が本発明の本質的な特性から逸脱しない範囲で変形された形態で実現可能なことが理解できるであろう。従って、開示された実施例は限定的な観点ではなく、説明的な観点で考慮されるべきである。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等の範囲内にある全ての差異点は、本発明に含まれると解釈されるべきである。

Claims

データベースのアーカイビング装置によってデータのアーカイビングをする原本テーブルにおいて、時間及びフィールド（ｆｉｅｌｄ）値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコード（ｒｅｃｏｒｄ）を含む少なくとも一つのレコードグループを選別する段階と、
データベースのアーカイビング装置によって選別された少なくとも一つの前記レコードグループのそれぞれについて、前記レコードグループ別に圧縮して生成されたグループ圧縮データ及び前記グループ圧縮データに対応する前記選別情報を圧縮テーブルに格納する段階と、
データベースのアーカイビング装置によって選別された少なくとも一つの前記レコードグループに含まれた複数のレコードを前記原本テーブルから削除する段階と、
選別された少なくとも一つの前記レコードグループの中でレコードの個数が閾値を超える超過レコードグループが存在すると、前記超過レコードグループをレコードの個数が前記閾値以下である複数の前記レコードグループに分離する段階と、
を含み、
前記選別情報を圧縮テーブルに格納する段階は、
分離された複数の前記レコードグループのそれぞれに付与された一連番号を前記圧縮テーブルにさらに格納することを特徴とするデータベースのアーカイビング方法。
前記選別情報を圧縮テーブルに格納する段階は、
選別された少なくとも一つの前記レコードグループのそれぞれについて、
前記レコードグループに含まれた複数のレコードのデータをバッファに格納する段階と、
前記バッファに格納されたデータを圧縮して前記グループ圧縮データを生成する段階と、
生成された前記グループ圧縮データに対応する前記選別情報を取得する段階と、
前記グループ圧縮データを前記選別情報と前記圧縮テーブル上の同一のレコードに格納する段階と、
を含むことを特徴とする請求項１に記載のデータベースのアーカイビング方法。
データのアーカイビングをする原本テーブルにおいて、時間及びフィールド値のうち少なくともいずれか一つに対する選別情報に基づいて複数のレコードを含む少なくとも一つのレコードグループを選別するデータ選別部と、
選別された少なくとも一つの前記レコードグループのそれぞれについて、前記レコードグループ別に圧縮してグループ圧縮データを生成するデータ圧縮部と、
前記グループ圧縮データ及び前記グループ圧縮データに対応する前記選別情報を圧縮テーブルに格納し、選別された少なくとも一つの前記レコードグループに含まれた複数のレコードを前記原本テーブルから削除するＤＢ管理部と、
を含み、
前記データ選別部は、
選別された少なくとも一つの前記レコードグループの中でレコードの個数が閾値を超える超過レコードグループが存在すると、前記超過レコードグループをレコードの個数が前記閾値以下である複数の前記レコードグループにさらに分離し、
前記ＤＢ管理部は、
分離された複数の前記レコードグループのそれぞれに付与された一連番号を前記圧縮テーブルにさらに格納すること
を特徴とするデータベースのアーカイビング装置。
前記データ圧縮部は、
選別された少なくとも一つの前記レコードグループのそれぞれについて、
前記レコードグループに含まれた複数のレコードのデータをバッファに格納し、前記バッファに格納されたデータを圧縮して前記グループ圧縮データを生成し、
前記ＤＢ管理部は、
生成された前記グループ圧縮データに対応する前記選別情報を取得し、前記グループ圧縮データを前記選別情報と前記圧縮テーブル上の同一のレコードに格納することを特徴とする請求項３に記載のデータベースのアーカイビング装置。
時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及び前記選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する段階と、
検索が行われるコンピュータの性能及び前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する段階と、
決定された前記ＤＢ検索過程の個数に基づいて前記検索条件を満たすレコードの検索を並列に行う段階と、
を含み、
前記並列に処理するためのＤＢ検索過程の個数を決定する段階は、
前記コンピュータに含まれたＣＰＵの個数、メモリーの容量及び格納装置の入出力速度のうち少なくともいずれか一つに対するコンピュータ性能情報を収集する段階と、
前記圧縮テーブルに格納された前記グループ圧縮データの中で前記受信された検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数を決定する段階と、
収集された前記コンピュータ性能情報及び前記決定されたグループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する段階と、
を含むことを特徴とするアーカイビングされたデータベースの検索方法。
時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及び前記選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する段階と、
検索が行われるコンピュータの性能及び前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する段階と、
決定された前記ＤＢ検索過程の個数に基づいて前記検索条件を満たすレコードの検索を並列に行う段階と、
を含み、
前記検索条件を満たすレコードの検索を並列に行う段階は、
決定された個数の前記ＤＢ検索過程のそれぞれについて、前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数に基づいて少なくとも一つの前記グループ圧縮データを割り当てる段階と、
それぞれの前記ＤＢ検索過程別に前記割り当てられた少なくとも一つのグループ圧縮データの圧縮解除及び前記検索条件を満たすレコードの検索を並列に行う段階と、
を含むことを特徴とするアーカイビングされたデータベースの検索方法。
前記検索条件を満たすレコードの検索を並列に行う段階は、
前記圧縮テーブルでアーカイビングした原本テーブルに含まれたフィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報にさらに基づくことを特徴とする請求項５に記載のアーカイビングされたデータベースの検索方法。
前記ＤＢ検索過程は、
それぞれの前記ＤＢ検索過程別に割り当てられたプロセス（ｐｒｏｃｅｓｓ）またはスレッド（ｔｈｒｅａｄ）を利用して検索を行うことを特徴とする請求項５に記載のアーカイビングされたデータベースの検索方法。
時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及び前記選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する受信部と、
検索が行われるコンピュータの性能及び前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する検索準備部と、
決定された前記ＤＢ検索過程の個数に基づいて前記検索条件を満たすレコードの検索を並列に行う並列検索部と、
を含み、
前記検索準備部は、
前記コンピュータに含まれたＣＰＵの個数、メモリーの容量及び格納装置の入出力速度のうち少なくともいずれか一つに対するコンピュータ性能情報を収集し、
前記圧縮テーブルに格納された前記グループ圧縮データの中で前記受信された検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数を決定し、
収集された前記コンピュータ性能情報及び前記決定されたグループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定することを特徴とするアーカイビングされたデータベースの検索装置。
時間及びフィールド値のうち少なくともいずれか一つに対する選別情報及び前記選別情報に対応する複数のレコードを圧縮して生成されたグループ圧縮データを含む圧縮テーブルで使用者が所望のレコードを検索するための検索条件を受信する受信部と、
検索が行われるコンピュータの性能及び前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数のうち少なくともいずれか一つに基づいて前記レコードの検索を並列に処理するためのＤＢ検索過程の個数を決定する検索準備部と、
決定された前記ＤＢ検索過程の個数に基づいて前記検索条件を満たすレコードの検索を並列に行う並列検索部と、
を含み、
前記並列検索部は、
決定された前記個数のＤＢ検索過程のそれぞれについて、前記検索条件を満たす前記選別情報に対応する前記グループ圧縮データの個数に基づいて少なくとも一つの前記グループ圧縮データを割り当て、
それぞれの前記ＤＢ検索過程別に前記割り当てられた少なくとも一つのグループ圧縮データの圧縮解除及び前記検索条件を満たすレコードの検索を並列に行うことを特徴とするアーカイビングされたデータベースの検索装置。
前記並列検索部は、
前記圧縮テーブルでアーカイビングした原本テーブルに含まれたフィールドの種類、大きさ、順序及び名称に対する情報であるテーブル構造情報にさらに基づくことを特徴とする請求項９に記載のアーカイビングされたデータベースの検索装置。
前記ＤＢ検索過程は、
それぞれの前記ＤＢ検索過程別に割り当てられたプロセスまたはスレッドを利用して検索を行うことを特徴とする請求項９に記載のアーカイビングされたデータベースの検索装置。