JP5712851B2

JP5712851B2 - データ分割装置、データ分割方法およびデータ分割プログラム

Info

Publication number: JP5712851B2
Application number: JP2011167784A
Authority: JP
Inventors: 達哉浅井; 裕章森川; 多湖　真一郎; 真一郎多湖; 稲越　宏弥; 宏弥稲越; 湯上　伸弘; 伸弘湯上; 岡本　青史; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2015-05-07
Anticipated expiration: 2031-07-29
Also published as: JP2013033306A; US20130031048A1; US9235578B2

Description

本発明は、データ分割装置、データ分割方法およびデータ分割プログラムに関する。

近年、ネットワーク技術やセンサー技術の発達と普及に伴い、時々刻々と大量に発生するストリームデータを、リアルタイムに処理することを目的としたストリーム処理が注目されている。

ストリーム処理の利用例を挙げると、ストリームデータとしてＰＯＳ（Point of sale system）データを受信し、受信したＰＯＳデータを複数のグループに分割して、即時的な売り上げを集計することに利用されている。また、ストリームデータとしてプローブ交通情報を受信して、受信したプローブ交通情報を複数のグループに分割して、即時的な交通量を集計することに利用されている。

このようなストリーム処理としては、ストリームデータをレコードとして蓄積し、ユーザから指示があった場合に、蓄積されるレコードを分割する技術が知られている。一例を挙げると、連番などのレコードを特定する項目を持たないストリームデータを、ストリームデータ中の特定の項目でソートしながら蓄積する。なお、連番とは、例えばデータに対して上からまたは下から順番に割り当てる番号などである。そして、ユーザから分割要求を受け付けた場合に、ソートされて蓄積されるレコードを分割してユーザに出力する。

特開２００７−１１７８４号公報

しかしながら、従来技術では、連番などレコードを特定する項目が含まれないストリームデータをグループ分けするには時間がかかるという問題がある。

例えば、蓄積後にソートされたストリームデータをグループ分けする場合に、全体のデータ件数に対してどのレコードが分割位置になるかを特定する。そして、分割位置として特定されたレコードまで蓄積されたレコードを逐次読み込み、読み込んだレコードまでを１グループとして分割することになる。したがって、複数のグループに分割する場合には、１つのグループごとに、分割位置の特定、レコード読み込み、グループ化を繰り返すことになるので、全レコードを複数のグループを分けるのに時間がかかる。

なお、蓄積してソートされた後に、ストリームデータ各々に連番を与えることも考えられるが、ストリームデータを受信するたびにソートを実行して、ソート後に新たに連番を毎回与える処理を実行することは、処理負荷が大きく現実的ではない。

開示の技術は、上記に鑑みてなされたものであって、連番を持たせることなくグループ分けにかかる時間を短縮できるデータ分割装置、データ分割方法およびデータ分割プログラムを提供することを目的とする。

本願の開示するデータ分割装置、データ分割方法およびデータ分割プログラムは、一つの態様において、前後のデータを特定する前後情報を対応付けた複数のデータを記憶するデータ記憶部を有する。また、前記データ記憶部に記憶されるデータが予め定めたグループ数に分割されるグループごとに、当該グループ内の先頭に位置するデータを特定する先頭情報と当該グループ内の末尾に位置するデータを特定する末尾情報とを記憶する情報記憶部を有する。また、前記データ記憶部にデータを格納する場合に、当該データが有する項目に基づいて当該データの前後となるデータを特定し、当該前後のデータを特定する前後情報を対応付けて前記データ記憶部に格納する格納制御部を有する。また、前記格納制御部によってデータが挿入された場合に、前記各グループに属するデータ数の差が１つ以下となるように、前記情報記憶部に記憶される前記グループごとの先頭情報と末尾情報とを更新する更新部を有する。

本願の開示するデータ分割装置、データ分割方法およびデータ分割プログラムの一つの態様によれば、連番を持たせることなくグループ分けにかかる時間を短縮できるという効果を奏する。

図１は、実施例１に係るシステムの全体構成例を示す図である。図２は、実施例１に係るデータ分割装置の構成を示す機能ブロック図である。図３は、受信済みＤＢに記憶される情報の例を示す図である。図４は、受信済みＤＢの実装例を示す図である。図５は、バケットおよび分割境界を説明する図である。図６は、分割境界ＤＢに記憶される情報の例を示す図である。図７は、バケットの拡張例１を説明する図である。図８は、バケットの拡張例２を説明する図である。図９は、バケットの縮退例１を説明する図である。図１０は、バケットの縮退例２を説明する図である。図１１は、バケットのスライド例１を説明する図である。図１２は、バケットのスライド例２を説明する図である。図１３は、データ分割装置によるデータ分割から出力までの一連の流れを示すフローチャートである。図１４は、データ分割装置による分割境界更新処理の流れを示すフローチャートである。図１５は、分割境界更新処理のサブフロー１の流れを示すフローチャートである。図１６は、分割境界更新処理のサブフロー２の流れを示すフローチャートである。図１７は、具体例として取り上げるストリームデータの例を示す図である。図１８は、具体例として取り上げる分割境界の例を示す図である。図１９は、具体的な分割例を説明する図である。図２０は、具体的な分割例を説明する図である。図２１は、具体的な分割例を説明する図である。図２２は、具体的な分割例を説明する図である。図２３は、具体的な分割例を説明する図である。図２４は、具体的な分割例を説明する図である。図２５は、具体的な分割例を説明する図である。図２６は、具体的な分割例を説明する図である。図２７は、具体的な分割例を説明する図である。図２８は、具体的な分割例による処理結果を示す図である。図２９は、データ分割装置がデータ分割を実行した結果を示す図である。図３０は、具体的なデータ出力例を説明する図である。図３１は、具体的なデータ出力例を説明する図である。図３２は、具体的なデータ出力例を説明する図である。図３３は、データ分割プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に、本願の開示するデータ分割装置、データ分割方法およびデータ分割プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

実施例１では、データ分割装置を含むシステムの全体構成例、データ分割装置の構成を示す機能ブロック図、処理の流れ等について説明する。

［全体構成］
図１は、実施例１に係るシステムの全体構成例を示す図である。図１に示すように、このシステムは、ストリームデータ発生装置１とデータ分割装置１０とユーザ端末５とを有する。ストリームデータ発生装置１とデータ分割装置１０とはネットワークを介して接続され、同様に、ユーザ端末５とデータ分割装置１０とはネットワークを介して接続される。

ストリームデータ発生装置１は、ストリームデータを発生させた順番でデータ分割装置１０に送信する装置である。例えば、ストリームデータ発生装置１は、ＰＯＳデータやプローブ交通情報をストリームデータとしてデータ分割装置１０に送信する。なお、実施例１では、ストリームデータとしてＰＯＳデータを用いた例で説明する。

ユーザ端末５は、ストリームデータ発生装置１が発生させるストリームデータを管理したり、解析したりするユーザが利用する装置である。このユーザ端末５は、データ分割装置１０から所望のストリームデータを取得する。ユーザは、ユーザ端末５を用いて取得したストリームデータを解析して、即時的な売り上げを集計したり、即時的な交通量を集計したりする。

データ分割装置１０は、ストリームデータ発生装置１からストリームデータを受信し、前後のデータを特定する前後情報を対応付けた複数のデータを記憶する。そして、データ分割装置１０は、記憶されるデータが予め定めたグループ数に分割されるグループごとに、当該グループ内の先頭に位置するデータを特定する先頭情報と当該グループ内の末尾に位置するデータを特定する末尾情報とを記憶する。その後、データ分割装置１０は、新たにデータを格納する場合に、当該データが有する項目に基づいて当該データの前後となるデータを特定し、当該前後のデータを特定する前後情報を対応付けて格納する。そして、データ分割装置１０は、データが格納された場合に、各グループに属するデータ数の差が１つ以下となるように、グループごとの先頭情報と末尾情報とを更新する。

このように、データ分割装置１０は、ストリームデータを１件受信するごとに、分割の境界である先頭情報と末尾情報とを逐次更新し、受信済みのストリームデータを均等に分割することができる。したがって、データ分割装置１０は、連番を持たせることなくグループ分けすることができるので、データの分割にかかる時間を短縮できる。

［データ分割装置の構成］
図２は、実施例１に係るデータ分割装置の構成を示す機能ブロック図である。図２に示すように、このデータ分割装置１０は、通信制御Ｉ／Ｆ（Inter Face）部１１と、記憶部１２と、制御部１３とを有する。なお、記憶部１２は、半導体メモリ素子やハードディスクなどの記憶装置である。制御部１３は、ＦＰＧＡ（Field-Programmable Gate Array）などの集積回路やＣＰＵ（Central Processing Unit）などの電子回路である。データ分割装置１０が有する処理部等はあくまで例示でありこれに限定されるものではなく、例えば、マウスなどの入力装置やディスプレイなどの表示装置を有していてもよい。

通信制御Ｉ／Ｆ部１１は、他の装置との通信を制御するインタフェースであり、例えばネットワークインタフェースカードなどである。例えば、通信制御Ｉ／Ｆ部１１は、ストリームデータ発生装置１からストリームデータを受信して制御部１３に出力する。また、通信制御Ｉ／Ｆ部１１は、ユーザ端末５からデータ取得要求を受信して制御部１３に出力し、制御部１３から出力されたデータをユーザ端末５に送信する。

記憶部１２は、制御部１３が実行するプログラムやデータを記憶するとともに、受信済みＤＢ１２ａと分割境界ＤＢ１２ｂとを有する。なお、記憶部１２は、制御部１３が有する各種処理部が処理を実行する際にデータを一時的に格納する作業領域等も有する。

受信済みＤＢ１２ａは、前後のデータを特定する前後情報を対応付けた複数のデータを記憶するデータベースである。つまり、受信済みＤＢ１２ａは、所定の順序で整列させたストリームデータを記憶するデータベースである。図３は、受信済みＤＢに記憶される情報の例を示す図である。図３に示すように、受信済みＤＢ１２ａは、「時刻、名前、年齢、年収（万円）、支払（円）」を１レコードとして記憶する。ここで記憶される「時刻」は、当該ストリームデータを受信した時刻であり、「名前」は、ＰＯＳデータとして通知されたユーザの名前である。「年齢」は、ユーザの年齢であり、「年収」は、ユーザの年収であり、「支払」は、ユーザが支払った金額である。なお、ここで示した情報はあくまで例示であり、これに限定されるものではなく、任意に設定変更することができる。

実施例１では、図３に示すように、受信済みＤＢ１２ａは、年収で昇順にソートされた情報を記憶するが、これに限定されるものではなく、任意にソート対象等を変更できる。図３の場合には、時刻「９」に受信された年収「１２００万円」の「Ｉｒｉｓ」を先頭にして、「Ｄｉｃｋ」、「Ｅｒｉｋ」、「Ｈｅｎｒｙ」、「Ｇｅｏｒｇｅ」、「Ｂｏｂ」、「Ａｌｉｃｅ」、「Ｃａｒｅｎ」、「Ｆｒａｎｋ」の順番で記憶する。

次に、受信済みＤＢ１２ａがデータを記憶する実装例を説明する。図４は、受信済みＤＢの実装例を示す図である。図４に示すように、受信済みＤＢ１２ａは、データに当該データの前後のデータを特定するポインタを対応付けて記憶する。具体的には、時刻９のＩｒｉｓには、前データのポインタとしてＮＵＬＬが対応付けられているとともに、後ろデータのポインタとして時刻４のＤｉｃｋが対応付けられている。同様に、時刻４のＤｉｃｋには、前データのポインタとして時刻９のＩｒｉｓが対応付けられているとともに、後ろデータのポインタとして時刻５のＥｒｉｋが対応付けられている。同様に、時刻５のＥｒｉｋには、前データのポインタとして時刻４のＤｉｃｋが対応付けられているとともに、後ろデータのポインタとして時刻８のＨｅｎｒｙが対応付けられている。同様に、時刻８のＨｅｎｒｙには、前データのポインタとして時刻５のＥｒｉｋが対応付けられているとともに、後ろデータのポインタとしてＮＵＬＬが対応付けられている。なお、実装例はあくまで例であり、これに限定されるものではない。

ここで、実施例１の説明に用いる用語について説明する。実施例１では、ソート後に均等分割された個々のデータ集合を「バケット」と呼ぶ。また、各バケットの境を「分割境界」と呼ぶ。また、「均等分割」とは、データ数Ｎが分割数Ｍで割り切れない場合に、各バケットの大きさの差がたかだか１となるように分割することを言う。つまり、データ数が１０で分割数が３の場合には、「２」、「３」、「５」などのように分割されたデータ数の差が２以上になるように分割することではなく、「３」、「３」、「４」などのように分割されたデータ数の差が１以下に分割することをいう。なお、属するデータ数が多いバケットを「大バケット」と呼び、小さい方のバケットを「小バケット」と呼ぶ。また、データ数Ｎが分割数Ｍで割り切れる場合は、全バケットの大きさが等しくなるよう均等分割を行い、このときは、便宜上、全バケットを「小バケット」とみなす。

続いて、上記用語の具体例を説明する。図５は、バケットおよび分割境界を説明する図である。図５に示す例は、時刻１から９までのストリームデータを年収でソートして昇順に並べた例である。この例では、データ数が９個であることより、各バケットに属するデータ数が３個となる。具体的には、データ分割装置１０は、時刻９、時刻４、時刻５をバケット（Ｄ_１）、時刻８、時刻７、時刻２をバケット（Ｄ_２）、時刻１、時刻６、時刻３をバケット（Ｄ_３）に分割する。また、バケット（Ｄ_１）とバケット（Ｄ_２）との境界およびバケット（Ｄ_２）とバケット（Ｄ_３）との境界各々が分割境界となる。

図２に戻り、分割境界ＤＢ１２ｂは、分割境界を特定する情報を記憶するデータベースである。図６は、分割境界ＤＢに記憶される情報の例を示す図である。図６に示すように、分割境界ＤＢ１２ｂは、「バケット名、データ数（サイズ）、先頭情報、末尾情報」を対応付けて記憶する。ここで記憶される「バケット名」は、バケットを識別する識別子であり、例えばバケットの名称などである。「データ数（サイズ）」は、バケットに属するデータの数であり、データ数が３個の場合にはサイズが３である。「先頭情報」は、バケットに属するデータの先頭を示すポインタであり、例えば「時刻」などデータを識別できる任意の項目や、該当データの論理アドレスなどで指定できる。「末尾情報」は、バケットに属するデータの末尾を示すポインタであり、例えば「時刻」などデータを識別できる任意の項目や、該当データの論理アドレスなどで指定できる。実施例１では、「先頭情報」および「末尾情報」として「時刻」を用いることとする。

なお、サイズ０およびサイズ１のバケットの情報は、便宜上、以下を満たすように分割境界ＤＢ１２ｂに格納することを仮定する。サイズ０のバケットに対応する「先頭情報」と「末尾情報」は、共に「ＮＵＬＬ」とする。分割境界ＤＢにおいて「先頭情報」および「末尾情報」として格納される「ＮＵＬＬ」は、便宜上、受信済みＤＢ１２ａの最終データの１つ下にある仮想的な末端データを表わしているとみなす。また、サイズ１のバケットに対応する「先頭情報」と「末尾情報」には、共に、そのバケットに唯一含まれるデータが格納される。

図６の例は、バケット（Ｄ_１）には、時刻９のデータから時刻５のデータまでの３つのデータが属することを示す。バケット（Ｄ_２）には、時刻８のデータから時刻２のデータまでの３つのデータが属することを示す。バケット（Ｄ_３）には、時刻１のデータから時刻６のデータまでの３つのデータが属することを示す。なお、図６に示したデータベースの例はあくまで例示であり、これに限定されるものではなく、例えば図３と同様の実装形式を用いることもでき、他のデータ形式を用いることもできる。同様に、ソート済みのストリームデータ群についても任意のデータ形式を用いることができる。

制御部１３は、データ分割装置１０を全体的に制御する処理部であり、分割数設定部１４と分割処理部１５と出力部２１とを有する。分割数設定部１４は、ユーザ端末５等から分割数を受け付けて、分割処理部１５に通知する処理部である。例えば、分割数設定部１４は、ユーザ端末５から分割数「３」を受け付けると、受け付けた分割数を分割処理部１５に通知し、記憶部１２の作業領域等に格納する。また、分割数設定部１４は、ソート対象とするデータ項目をユーザ端末５等から分割数を受け付けて、分割処理部１５に通知する。

分割処理部１５は、受信部１６と位置特定部１７と格納制御部１８とバケット判定部１９と更新部２０とを有し、これらによって、受信済みのストリームデータを均等分割する処理部である。

受信部１６は、ストリームデータ発生装置１からストリームデータを受信する処理部である。受信部１６は、ストリームデータ発生装置１からストリームデータを受信し、受信したストリームデータを位置特定部１７に出力する。なお、受信部１６は、受信したストリームデータを受信順に記憶部１２の作業領域等に格納してもよい。

位置特定部１７は、受信部１６が受信したストリームデータに対して、受信済みＤＢ１２ａへの挿入位置を特定し、特定した結果を格納制御部１８に通知する処理部である。例えば、位置特定部１７は、受信されたストリームデータからソート対象のデータ項目を特定し、該当する値を抽出する。そして、位置特定部１７は、受信済みＤＢ１２ａに記憶されるストリームデータの各レコードにおけるソート対象のデータ項目を参照し、抽出した値の挿入位置を特定する。

具体的な例を挙げると、位置特定部１７は、図３に示したデータが受信済みＤＢ１２ａに記憶されている状態で、「時刻、名前、年齢、年収、支払」として「１０、Ｊａｎｅ、４５、９００、２３００」を受信したとする。この場合、位置特定部１７は、受信したストリームデータからソート対象の項目である「年収」を特定し、該当する値として「９００」を抽出する。その後、位置特定部１７は、受信済みＤＢ１２ａに記憶されるストリームデータの各レコードにおけるソート対象のデータ項目を参照し、年収「１０００」のレコードと年収「８００」のレコードの間が、抽出した「９００」の挿入位置であると特定する。

別例を挙げると、位置特定部１７は、受信されたストリームデータを記憶部１２の作業領域に格納し、この時点で受信済みデータをソートして並び替える。そして、位置特定部１７は、並び替えたデータと受信済みＤＢ１２ａに記憶されるストリームデータとを比較して、受信されたストリームデータの挿入位置を判定することもできる。

さらに別例を挙げると、位置特定部１７は、図３に示した受信済みＤＢ１２ａと図６に示した分割境界ＤＢ１２ｂが与えられた状態で、「時刻、名前、年齢、年収、支払」として「１０、Ｊａｎｅ、４５、９００、２３００」を受信したとする。この場合、位置特定部１７は、受信したストリームデータからソート対象の項目である「年収」を特定し、該当する値として「９００」を抽出する。その後、位置特定部１７は、分割境界ＤＢ１２ｂに登録された各バケットの「先頭情報」と「末尾情報」を参照し、さらに受信済みＤＢ１２ａを参照することにより、各バケットの先頭データと末尾データにおける年収を抽出し、挿入されるバケットをまずは特定する。具体的には、バケットＤ_１の先頭データと末尾データの年収は、それぞれ「１２００」と「８００」であるので、「９００」の挿入されるバケットはＤ_１であることを特定する。そして、受信済みＤＢ１２ａにおけるバケットＤ_１の先頭データから末尾データまでをさらに参照することで、年収「１０００」のレコードと年収「８００」のレコードの間が、抽出した「９００」の挿入位置であると特定する。また、受信したデータがどのバケットにも挿入されない場合として、隣接するバケットの境界に挿入される場合と、受信済みＤＢの先頭または末尾に挿入される場合があるが、いずれの場合も、分割境界ＤＢ１２ｂの「先頭情報」と「末尾情報」を用いて、データの挿入位置を特定することができる。

格納制御部１８は、受信済みＤＢ１２ａにデータを格納する場合に、当該データが有する項目に基づいて当該データの前後となるデータを特定し、当該前後のデータを特定する前後情報を対応付けて受信済みＤＢ１２ａに格納する処理部である。言い換えると、格納制御部１８は、位置特定部１７によって特定された挿入位置に、受信部１６によって受信されたストリームデータを挿入する処理部である。

上記例で説明すると、年収「１０００」のレコードと年収「８００」のレコードの間が挿入位置として特定されたとする。この場合、格納制御部１８は、受信された「１０、Ｊａｎｅ、４５、９００、２３００」を年収「１０００」のレコードと年収「８００」のレコードの間に挿入する。このとき、格納制御部１８は、年収「１０００」のレコードに対応付けられる前後情報のうち、後ろのポインタを「時刻５、Ｅｒｉｋ」から「時刻１０、Ｊａｎｅ」に変更する。また、格納制御部１８は、年収「８００」のレコードに対応付けられる前後情報のうち、前のポインタを「時刻４、Ｄｉｃｋ」から「時刻１０、Ｊａｎｅ」に変更する。そして、格納制御部１８は、データ「１０、Ｊａｎｅ、４５、９００、２３００」に対しては、前後情報として前のポインタを「時刻４Ｄｉｃｋ」、後ろのポインタを「時刻５、Ｅｒｉｋ」を格納する。このようにして、格納制御部１８は、受信済みＤＢ１２ａに新たなデータを格納する。なお、格納制御部１８は、新たなストリームデータを受信済みＤＢ１２ａに格納したことをバケット判定部１９に通知する。

バケット判定部１９は、受信済みＤＢ１２ａに記憶されるデータをグループ化する各バケットが小バケットか大バケットかを判定する処理部である。例えば、バケット判定部１９は、格納制御部１８によってデータが格納された場合に、各バケットに属するデータ数をスキャンするとともに、受信済みＤＢ１２ａや分割境界ＤＢ１２ｂを参照し、各バケットの大小を特定する。そして、バケット判定部１９は、特定した情報を更新部２０に通知する。

更新部２０は、拡張実行部２０ａと縮退実行部２０ｂとスライド実行部２０ｃとを有する。更新部２０は、これらの処理部によって、格納制御部１８によってデータが挿入された場合に、各グループに属するデータ数の差が１つ以下となるように、分割境界ＤＢ１２ｂに記憶されるグループごとの先頭情報と末尾情報とを更新する。

拡張実行部２０ａは、指定したバケットを上または下方向に拡張し、分割境界ＤＢ１２ｂを拡張させた後のバケット情報に更新する処理部である。図７は、バケットの拡張例１を説明する図である。図７に示すように、拡張実行部２０ａは、バケット判定部１９の判定結果に基づいてバケット（Ｄ_ｐ）を上方向に拡張させると判定する。この場合、拡張実行部２０ａは、バケット（Ｄ_ｐ）の先頭情報を１件上のデータに置き換えてデータ数を１つ増やして、バケット（Ｄ_ｐ）を上方向に拡張させる。このように、バケット（Ｄ_ｐ）を上方向に拡張させる方法をｕｐｅｘｐａｎｄ（ｐ）と呼ぶ。また、図７に示した空白はソートされたレコード（データ）を示す。なお、拡張実行部２０ａがバケットＤ_ｐを上方向に拡張させると判定する例については、フローの説明で詳細に説明する。

また、図８は、バケットの拡張例２を説明する図である。図８に示すように、拡張実行部２０ａは、バケット判定部１９の判定結果に基づいてバケット（Ｄ_ｐ）を下方向に拡張させると判定する。この場合、拡張実行部２０ａは、バケット（Ｄ_ｐ）の末尾情報を１件下のデータに置き換えてデータ数を１つ増やして、バケット（Ｄ_ｐ）を下方向に拡張させる。このように、バケット（Ｄ_ｐ）を下方向に拡張させる方法をｄｏｗｎｅｘｐａｎｄ（ｐ）と呼ぶ。また、図８に示した空白はソートされたレコード（データ）を示す。なお、拡張実行部２０ａがバケットＤ_ｐを下方向に拡張させると判定する例については、フローの説明で詳細に説明する。

縮退実行部２０ｂは、指定したバケットを上または下方向に縮退させ、分割境界ＤＢ１２ｂを縮退させた後のバケット情報に更新する処理部である。図９は、バケットの縮退例１を説明する図である。図９に示すように、縮退実行部２０ｂは、バケット判定部１９の判定結果に基づいてバケット（Ｄ_ｐ）を上方向に縮退させると判定する。この場合、縮退実行部２０ｂは、バケット（Ｄ_ｐ）の末尾情報を１件上のデータに置き換えてデータ数を１つ減らし、バケットＤ_ｐを上方向に縮退させる。このように、バケット（Ｄ_ｐ）を上方向に縮退させる方法をｕｐｓｈｒｉｎｋ（ｐ）と呼ぶ。また、図９に示した空白はソートされたレコード（データ）を示す。

また、図１０は、バケットの縮退例２を説明する図である。図１０に示すように、縮退実行部２０ｂは、バケット判定部１９の判定結果に基づいてバケット（Ｄ_ｐ）を下方向に縮退させると判定する。この場合、縮退実行部２０ｂは、バケット（Ｄ_ｐ）の先頭情報を１件下のデータに置き換えてデータ数を１つ減らしバケット（Ｄ_ｐ）を下方向に縮退させる。このように、バケットＤ_ｐを下方向に縮退させる方法をｄｏｗｎｓｈｒｉｎｋ（ｐ）と呼ぶ。また、図１０に示した空白はソートされたレコード（データ）を示す。なお、縮退実行部２０ｂがバケットＤ_ｐを上方向または下方向に縮退させると判定する例については、フローの説明で詳細に説明する。

スライド実行部２０ｃは、各バケットに属するデータ数を変えることなく、連続した複数のバケットを上方向または下方向に１ずつずらす処理部である。図１１は、バケットのスライド例１を説明する図である。図１１に示すように、スライド実行部２０ｃは、バケット判定部１９の判定結果に基づいてバケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）までを上にスライドさせると判定する。この場合、スライド実行部２０ｃは、バケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）に対して、各バケットの大きさを変えることなく、データを上へ１件ずつずらす操作を行う。すなわち、スライド実行部２０ｃは、対象となるバケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）各々の先頭および末尾情報を、それぞれ１件上のデータに置き換える。なお、ここではｐ＜ｑと仮定する。このように、バケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）を上方向にスライドさせる方法をｕｐｓｌｉｄｅ（ｐ、ｑ）と呼ぶ。また、図１１に示した空白はソートされたレコード（データ）を示す。

また、図１２は、バケットのスライド例２を説明する図である。図１２に示すように、スライド実行部２０ｃは、バケット判定部１９の判定結果に基づいてバケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）までを下にスライドさせると判定する。この場合、スライド実行部２０ｃは、バケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）に対して、各バケットの大きさを変えることなく、データを下へ１件ずつずらす操作を行う。すなわち、スライド実行部２０ｃは、対象となるバケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）各々の先頭および末尾情報を、それぞれ１件下のデータに置き換える。なお、ここではｐ＜ｑと仮定する。このように、バケット（Ｄ_ｐ）からバケット（Ｄ_ｑ）を下方向にスライドさせる方法をｄｏｗｎｓｌｉｄｅ（ｐ、ｑ）と呼ぶ。また、図１２に示した空白はソートされたレコード（データ）を示す。なお、スライド実行部２０ｃが各バケットを上方向または下方向にスライドさせると判定する例については、フローの説明で詳細に説明する。

出力部２１は、受信済みＤＢ１２ａに記憶されるデータが分割されるグループのうち、ユーザに指定されたグループの先頭情報と末尾情報とを分割境界ＤＢ１２ｂから読み出す。そして、出力部２１は、読み出した先頭情報に該当するデータから末尾情報に該当するデータまでのデータを受信済みＤＢ１２ａから読み出して、所定の装置に出力する処理部である。

例えば、出力部２１がユーザ端末５からバケット（Ｄ_１）からバケット（Ｄ_２）の出力依頼を受信したとする。この場合、出力部２１は、まず、バケット（Ｄ_１）の先頭情報と末尾情報を分割境界ＤＢ１２ｂから取得する。続いて、出力部２１は、取得した先頭情報によって特定されるレコードから、末尾情報によって特定されるレコードまでに位置する各レコードを読み出す。その後、出力部２１は、読み出した各レコードをバケット（Ｄ_１）のデータとしてユーザ端末５に送信する。

続いて、出力部２１は、バケット（Ｄ_２）の先頭情報と末尾情報を分割境界ＤＢ１２ｂから取得する。続いて、出力部２１は、取得した先頭情報によって特定されるレコードから、末尾情報によって特定されるレコードまでに位置する各レコードを読み出す。その後、出力部２１は、読み出した各レコードをバケット（Ｄ_２）のデータとしてユーザ端末５に送信する。

［処理の流れ］
次に、図１３から図１６を用いてデータ分割装置１０が実行する処理の流れを説明する。まず、全体的な処理の流れを説明し、次に、サブフローなどの各処理について説明する。

（全体的な処理の流れ）
図１３は、データ分割装置によるデータ分割から出力までの一連の流れを示すフローチャートである。なお、ここでは、受信部１６が、受信したストリームデータを順番に記憶部１２の作業領域等に格納している例で説明する。また、記憶されるストリームデータをＳ［ｉ］（ｉは自然数）とする。

図１３に示すように、格納制御部１８は、記憶されるストリームデータの先頭のデータであるＳ［１］を記憶部１２から読み出して受信済みＤＢ１２ａの先頭バケットに格納する（Ｓ１０１）。

続いて、位置特定部１７は、ｉをインクリメントしてｉ＝２とし（Ｓ１０２）、ストリームデータＳ［ｉ］が記憶部１２の作業領域等に格納されているか否かを判定する（Ｓ１０３）。そして、位置特定部１７は、ストリームデータＳ［ｉ］が存在しない場合は（Ｓ１０３否定）、処理を終了する。

一方、ストリームデータＳ［ｉ］が存在する場合は（Ｓ１０３肯定）、位置特定部１７は、ストリームデータＳ［ｉ］を作業領域等から読み込み（Ｓ１０４）、ソート対象の項目にしたがって、受信済みＤＢ１２ａにおける挿入位置（ｊ）を特定する。そして、格納制御部１８は、位置特定部１７が特定した挿入位置（ｊ）にストリームデータＳ［ｉ］を挿入する（Ｓ１０５）。つまり、格納制御部１８は、挿入したストリームデータＳ［ｉ］の前後情報と、挿入位置の前後のデータ各々の前後情報とを更新する。

その後、バケット判定部１９と更新部２０とは、分割境界更新処理を実行して、バケットの分割境界を更新する（Ｓ１０６）。当該処理が終了した後、現在の時刻ｉの時点で出力要求を受信した場合には（Ｓ１０７肯定）、出力部２１は、ユーザ端末５から指示されたバケットに該当するデータを受信済みＤＢ１２ａから読み出して、ユーザ端末５に出力する（Ｓ１０８）。

そして、位置特定部１７は、ｉをインクリメントした後（Ｓ１０９）、Ｓ１０３以降の処理を繰り返す。また、Ｓ１０７において出力要求を受信していない場合には（Ｓ１０７否定）、位置特定部１７は、Ｓ１０８を実行することなく、Ｓ１０９を実行する。

（分割境界更新処理の流れ）
図１４は、データ分割装置による分割境界更新処理の流れを示すフローチャートである。図１４に示すように、バケット判定部１９は、新たなデータ（以下、挿入データ（ｄ）と呼ぶ）がバケット（Ｄ_ｐ）の内部に挿入されたか否かを判定する（Ｓ２０１）。

例えば、バケット判定部１９は、挿入されたデータがどの時刻とどの時刻の間かを受信済みＤＢ１２ａを参照して特定する。続いて、バケット判定部１９は、受信済みＤＢ１２ａと分割境界ＤＢ１２ｂを参照して、特定した両時刻の位置がいずれかのバケットの内部か否かを判定する。

一例として、図４と図５に示したデータにおいて、時刻９と時刻４との間に時刻１０のデータが挿入されたとする。この場合、バケット判定部１９は、挿入された位置が時刻９と時刻４の間であることを、挿入前の受信済みＤＢ１２ａと挿入後の受信済みＤＢ１２ａとの比較によって特定する。続いて、バケット判定部１９は、図５を参照して、時刻９と時刻４のデータがバケット（Ｄ_１）に属することを特定し、バケット（Ｄ_１）には時刻９、時刻４、時刻５のデータが存在することを特定する。この結果、バケット判定部１９は、時刻４の後ろに時刻５のデータが存在することから、時刻１０のデータがバケット内部に挿入されたと判定する。

図１４に戻り、バケット判定部１９は、挿入データ（ｄ）がバケット（Ｄ_ｐ）の内部に挿入された場合（Ｓ２０１肯定）、データが挿入されたバケットが小バケットか否かを判定する（Ｓ２０２）。

一例を挙げると、図５に示したように、全バケットのデータ数が３である状態でバケット（Ｄ_１）にデータが挿入されたとする。この場合、バケット判定部１９は、バケット（Ｄ_１）のデータ数が４となり、他のバケットとのデータ数の差が１以上であることから、データが挿入されたバケットは大バケットと判定する。別の例としては、バケット（Ｄ_１）のデータ数が「３」、バケット（Ｄ_２）のデータ数が「３」、バケット（Ｄ_３）のデータ数が「２」の状態でバケット（Ｄ_３）にデータが挿入されたとする。この場合、バケット判定部１９は、バケット（Ｄ_３）のデータ数が３となり、他のバケットとのデータ数の差が１未満であることから、データが挿入されたバケットは小バケットと判定する。

図１４に戻り、バケット判定部１９がバケット（Ｄ_ｐ）を小バケットと判定すると（Ｓ２０２肯定）、更新部２０は、「処理１」を実行する（Ｓ２０３）。すなわち、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_ｐ）のデータ数を１増やす。その後、処理を終了する。

一方、バケット判定部１９がバケット（Ｄ_ｐ）を大バケットと判定すると（Ｓ２０２否定）、更新部２０は、「処理２」を実行し（Ｓ２０４）、処理を終了する。すなわち、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_ｐ）のデータ数を１増やし、バケット（Ｄ_ｐ）の一番近くにある小バケットをバケット（Ｄ_ｑ）とする。

ここで、ｐ＜ｑであるならば、つまり、バケット（Ｄ_ｐ）の方がバケット（Ｄ_ｑ）よりも上に存在する場合に、更新部２０は、ｕｐｓｌｉｄｅ（ｐ＋１、ｑ−１）、ｕｐｅｘｐａｎｄ（ｑ）、ｕｐｓｈｒｉｎｋ（ｐ）を実行する。具体的には、スライド実行部２０ｃは、バケット（Ｄ_ｐ）の１つ下のバケットであるバケット（Ｄ_ｐ＋１）から、バケット（Ｄ_ｑ）の１つ上のバケットであるバケット（Ｄ_ｑ−１）までの各バケットの先頭および末尾情報をそれぞれ１件上のデータに置き換える。そして、拡張実行部２０ａは、バケットＤ_ｑの先頭情報を１つ上のデータに置き換えてバケットサイズすなわち属するデータ数を１つ増やして、バケットＤ_ｑを上方向に拡張する。また、縮退実行部２０ｂは、バケットＤ_ｐの末尾情報を１つ上のデータに置き換えてバケットサイズすなわちデータ数を１つ減らし、バケットＤ_ｐを上方向に縮退させる。

一方、ｐ＞ｑであるならば、つまり、バケット（Ｄ_ｐ）の方がバケット（Ｄ_ｑ）よりも下に存在する場合に、更新部２０は、ｄｏｗｎｓｌｉｄｅ（ｑ＋１、ｐ−１）、ｄｏｗｎｅｘｐａｎｄ（ｑ）、ｄｏｗｎｓｈｒｉｎｋ（ｐ）を実行する。具体的には、スライド実行部２０ｃは、バケット（Ｄ_ｑ）の１つ下のバケットであるバケット（Ｄ_ｑ＋１）から、バケット（Ｄ_ｐ）の１つ上のバケットであるバケット（Ｄ_ｐ−１）までの各バケットの先頭情報および末尾情報をそれぞれ１件下のデータに置き換える。そして、拡張実行部２０ａは、バケットＤ_ｑの末尾情報を１つ下のデータに置き換えてデータ数を１つ増やして、バケットＤ_ｑを下方向に拡張させる。また、縮退実行部２０ｂは、バケットＤ_ｐの先頭情報を１つ下のデータに置き換えてデータ数を１つ減らし、バケットＤ_ｐを下方向に縮退させる。

図１４に戻り、バケット判定部１９は、挿入データ（ｄ）がバケット（Ｄ_ｐ）の内部に挿入されていないと判定した場合（Ｓ２０１否定）、挿入データ（ｄ）がバケット（Ｄ_ｐ）とバケット（Ｄ_ｐ＋１）の間に挿入されたか否かを判定する（Ｓ２０５）。

一例として、図４と図５に示したデータを用いて説明すると、バケット判定部１９は、時刻５と時刻８の間、または、時刻２と時刻１の間に新たなデータが挿入された場合に、挿入データ（ｄ）がバケットの間に挿入されたと判定する。具体的には、バケット判定部１９は、分割境界ＤＢ１２ｂを参照し、挿入データ（ｄ）の挿入位置がバケット（Ｄ_ｐ）の末尾情報とバケット（Ｄ_ｐ＋１）の先頭情報の間に位置する場合に、バケットの間に挿入されたと判定する。

図１４に戻り、更新部２０は、バケット判定部１９によって挿入データ（ｄ）がバケット（Ｄ_ｐ）とバケット（Ｄ_ｐ＋１）の間に挿入されたと判定された場合（Ｓ２０５肯定）、サブフロー１を実行する（Ｓ２０６）。一方、更新部２０は、バケット判定部１９によって挿入データ（ｄ）がバケット（Ｄ_ｐ）とバケット（Ｄ_ｐ＋１）の間に挿入されていないと判定された場合（Ｓ２０５否定）、サブフロー２を実行する（Ｓ２０７）。

（サブフロー１の流れ）
図１５は、分割境界更新処理のサブフロー１の流れを示すフローチャートである。図１５に示すように、バケット（Ｄ_ｐ）が小バケットであると、バケット判定部１９によって判定された場合（Ｓ３０１肯定）、更新部２０は、「処理３」を実行する（Ｓ３０２）。すなわち、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_ｐ）の末尾情報を挿入データ（ｄ）の情報に修正して、データ数を１増やす。

一方、バケット判定部１９は、バケット（Ｄ_ｐ）が小バケットでないと判定した場合（Ｓ３０１否定）、バケット（Ｄ_ｐ）とバケット（Ｄ_ｐ＋１）がともに大バケットであるか否かを判定する（Ｓ３０３）。そして、バケット（Ｄ_ｐ）とバケット（Ｄ_ｐ＋１）がともに大バケットであると、バケット判定部１９によって判定された場合（Ｓ３０３肯定）、更新部２０は、「処理４」を実行する（Ｓ３０４）。

すなわち、更新部２０は、バケット（Ｄ_ｐ）またはバケット（Ｄ_ｐ＋１）の一番近くに位置する小バケットをＤ_ｑとする。そして、ｐ＋１＜ｑであるならば、つまり、バケット（Ｄ_ｐ）の１つ下のバケット（Ｄ_ｐ＋１）の方がバケット（Ｄ_ｑ）よりも上に存在する場合に、更新部２０は、ｕｐｓｌｉｄｅ（ｐ＋１、ｑ−１）、ｕｐｅｘｐａｎｄ（ｑ）を実行する。具体的には、スライド実行部２０ｃは、バケット（Ｄ_ｐ）の１件下のバケットであるバケット（Ｄ_ｐ＋１）から、バケット（Ｄ_ｑ）の１件上のバケットであるバケット（Ｄ_ｑ−１）までの各バケットの先頭情報および末尾情報をそれぞれ１件上のデータに置き換える。さらに、拡張実行部２０ａは、バケット（Ｄ_ｑ）の先頭情報を１件上のデータに置き換えてデータ数を１つ増やし、バケット（Ｄ_ｑ）を上方向に拡張する。

また、ｐ＞ｑであるならば、つまり、バケット（Ｄ_ｐ）の方がバケット（Ｄ_ｑ）よりも下に存在する場合に、更新部２０は、ｄｏｗｎｓｌｉｄｅ（ｐ、ｑ＋１）、ｄｏｗｎｅｘｐａｎｄ（ｑ）を実行する。具体的には、スライド実行部２０ｃは、バケット（Ｄ_ｐ）から、バケット（Ｄ_ｑ）の１件下のバケットであるバケット（Ｄ_ｑ＋１）までの各バケットの先頭情報および末尾情報をそれぞれ１件下のデータに置き換える。さらに、拡張実行部２０ａは、バケット（Ｄ_ｑ）の先頭情報を１件下のデータに置き換えてデータ数を１つ増やし、バケット（Ｄ_ｑ）を下方向に拡張する。

図１５に戻り、バケット（Ｄ_ｐ＋１）が大バケットでないとバケット判定部１９によって判定された場合（Ｓ３０３否定）、更新部２０は、「処理５」を実行する（Ｓ３０５）。すなわち、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_ｐ＋１）の先頭情報を挿入データ（ｄ）の情報に修正して、データ数を１増やす。

（サブフロー２の流れ）
図１６は、分割境界更新処理のサブフロー２の流れを示すフローチャートである。図１６に示すように、バケット判定部１９は、受信済みＤＢ１２ａを参照して挿入データ（ｄ）の挿入位置が全データの先頭であると判定した場合（Ｓ４０１肯定）、先頭バケット（Ｄ_１）が大バケットであるか否かを判定する（Ｓ４０２）。

そして、バケット判定部１９が分割境界ＤＢ１２ｂ等を参照して先頭バケット（Ｄ_１）が大バケットであると判定した場合（Ｓ４０２肯定）、更新部２０は、「処理６」を実行する（Ｓ４０３）。

すなわち、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_１）の先頭情報を挿入データ（ｄ）に修正して、データ数を１増やし、バケット（Ｄ_１）の一番近くに位置する小バケットを（Ｄ_ｐ）とする。その後、更新部２０は、ｕｐｓｈｒｉｎｋ（１）とｕｐｓｌｉｄｅ（２、ｑ−１）とｕｐｅｘｐａｎｄ（ｑ）を実行する。具体的には、縮退実行部２０ｂは、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_１）の末尾情報を１件上のデータに置き換えて、データ数を１減らす。また、スライド実行部２０ｃは、分割境界ＤＢ１２ｂにおいてバケット（Ｄ_２）からバケット（Ｄ_ｑ−１）までの各バケットの先頭情報および末尾情報をそれぞれ１件上のデータに置き換える。また、拡張実行部２０ａは、分割境界ＤＢ１２ｂにおいてバケット（Ｄ_ｑ）の先頭情報を１件上のデータに置き換えて、データ数を１増やす。

一方、バケット判定部１９が分割境界ＤＢ１２ｂ等を参照して先頭バケット（Ｄ_１）が大バケットではないと判定した場合（Ｓ４０２否定）、更新部２０は、「処理７」を実行する（Ｓ４０４）。すなわち、更新部２０は、分割境界ＤＢ１２ｂにおいて、先頭バケット（Ｄ_１）の先頭情報を挿入データ（ｄ）の情報に修正して、データ数を１増やす。

また、Ｓ４０１において、バケット判定部１９は、受信済みＤＢ１２ａを参照して挿入データ（ｄ）の挿入位置が全データの先頭でないと判定した場合（Ｓ４０１否定）、末尾バケット（Ｄ_ｍ）が大バケットであるか否かを判定する（Ｓ４０５）。つまり、バケット判定部１９は、挿入データ（ｄ）の挿入位置が末尾であると判定した場合、末尾バケット（Ｄ_ｍ）が大バケットであるか否かを判定する。

そして、バケット判定部１９が分割境界ＤＢ１２ｂ等を参照して末尾バケット（Ｄ_ｍ）が大バケットであると判定した場合（Ｓ４０５肯定）、更新部２０は、「処理８」を実行する（Ｓ４０６）。すなわち、更新部２０は、分割境界ＤＢ１２ｂにおいて、末尾バケット（Ｄ_ｍ）の末尾情報を挿入データ（ｄ）の情報に修正して、データ数を１増やす。

一方、バケット判定部１９が分割境界ＤＢ１２ｂ等を参照して末尾バケット（Ｄ_ｍ）が大バケットでないと判定した場合（Ｓ４０５否定）、更新部２０は、「処理９」を実行する（Ｓ４０７）。

すなわち、更新部２０は、分割境界ＤＢ１２ｂに記憶される末尾バケット（Ｄ_ｍ）の末尾情報を挿入データ（ｄ）の情報に修正してデータ数を１増やし、末尾バケット（Ｄ_ｍ）の一番近くに位置する小バケットを（Ｄ_ｑ）とする。その後、更新部２０は、ｄｏｗｎｓｈｒｉｎｋ（ｍ）とｄｏｗｎｓｌｉｄｅ（ｑ＋１、ｍ−１）とｄｏｗｎｅｘｐａｎｄ（ｑ）を実行する。

具体的には、縮退実行部２０ｂは、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_ｍ）の先頭情報を１件下のデータに修正して、データ数を１減らす。また、スライド実行部２０ｃは、分割境界ＤＢ１２ｂにおいて、バケット（Ｄ_ｑ＋１）からバケット（Ｄ_ｍ−１）までの各バケットの先頭情報および末尾情報をそれぞれ１件下のデータに置き換える。また、拡張実行部２０ａは、分割境界ＤＢ１２ｂにおいて、バケット（Ｄ_ｑ）の末尾情報を１件下のデータに置き換えて、データ数を１増やす。

［データ分割の具体例］
次に、図１７から図２８を用いて、ストリームデータを受信して分割境界を更新する一連の処理の具体例を説明する。まず、具体例の説明に用いるデータ例等について説明する。図１７は、具体例として取り上げるストリームデータの例を示す図である。図１８は、具体例として取り上げる分割境界の例を示す図である。

ストリームデータ発生装置１は、図１７に示すストリームデータのうち時刻１から順にデータ分割装置１０に送信し、データ分割装置１０の受信部１６は、時刻１のストリームデータから順に受信する。ストリームデータは、「時刻、名前、年齢、年収（万円）、支払（円）」の項目を有する。なお、受信されたデータは、年収を降順でソートされるものとする。

また、データ分割装置１０の分割境界ＤＢ１２ｂは、図１８に示すように、バケットごとに、データ数と先頭情報と末尾情報とを対応付けて記憶する。ここで記憶されるデータ数は、バケットに属するデータの数である。先頭情報は、バケットの先頭に位置するデータであり、当該データの時刻が格納される。末尾情報は、バケットの末尾に位置するデータであり、当該データの時刻が格納される。なお、ここではバケット数を３として説明する。つまり、受信したデータを３つのグループに分割する例を説明する。

このような状態において、受信部１６が、「１、Ａｌｉｃｅ、２４、３００、１５００」とするストリームデータを受信したとする。すると、位置特定部１７は、受信済みＤＢ１２ａにデータが格納されていないことから、当該「Ａｌｉｃｅ」のデータの格納位置を受信済みＤＢ１２ａの先頭と特定する。そして、格納制御部１８は、「Ａｌｉｃｅ」のデータを受信済みＤＢ１２ａの先頭に格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図１９は、具体的な分割例を説明する図である。図１９に示すように、更新部２０は、先頭のバケットであるバケット（Ｄ_１）の先頭情報および末尾情報各々に「Ａｌｉｃｅ」のデータを特定する「時刻１」を格納し、バケット（Ｄ_１）のデータ数を１に更新する。

続いて、受信部１６が、「２、Ｂｏｂ、５５、４５０、２５００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済み「Ａｌｉｃｅ」の年収「３００」と受信した「Ｂｏｂ」の年収「１５００」を比較し、当該「Ｂｏｂ」のデータの格納位置を受信済みＤＢ１２ａの先頭と特定する。そして、格納制御部１８は、当該「Ｂｏｂ」のデータを受信済みＤＢ１２ａの先頭に格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図２０は、具体的な分割例を説明する図である。図２０に示すように、更新部２０は、先頭のバケットであるバケット（Ｄ_１）の先頭情報に「Ｂｏｂ」のデータを特定する「時刻２」を格納し、バケット（Ｄ_１）のデータ数を２に更新する。

ここで、バケット判定部１９は、分割境界ＤＢ１２ｂの各分割境界を参照し、バケット（Ｄ_１）のデータ数が他のバケットのデータ数よりも２以上多く、バケット（Ｄ_１）が大バケットであることを特定して、これらを更新部２０に通知する。すると、更新部２０は、新たなデータが挿入された位置が受信済みＤＢ１２ａの先頭であり、先頭であるバケット（Ｄ_１）が大バケットであることから、「処理６」を実行する。

すなわち、図２０に示すように、更新部２０は、バケット（Ｄ_１）に一番近い小バケットがバケット（Ｄ_２）であると特定する。つまり、ｑ＝２となる。そして、縮退実行部２０ｂは、ｕｐｓｈｒｉｎｋ（１）を実行し、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_１）の先頭情報および末尾情報を「Ｂｏｂ」のデータを特定する「時刻２」に修正し、データ数を１減らして１にする。また、拡張実行部２０ａは、分割境界ＤＢ１２ｂにおいて、バケット（Ｄ_２）の先頭情報を、仮想の末端データとみなされるＮＵＬＬに対して１件上の「Ａｌｉｃｅ」の「時刻１」に置き換えて、データ数を１増やす。サイズ１のバケットに関する仮定により、バケット（Ｄ_２）の末尾情報も「時刻１」に置き換える。このとき、２＞ｑ−１となるため、更新部２０は、ｕｐｓｌｉｄｅ（２、ｑ−１）を実行しない。

続いて、受信部１６が、「３、Ｃａｒｅｎ、６２、２００、３０００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済み各データの年収と受信した「Ｃａｒｅｎ」の年収「２００」を比較し、当該「Ｃａｒｅｎ」のデータの格納位置を受信済みＤＢ１２ａの末尾と特定する。そして、格納制御部１８は、当該「Ｃａｒｅｎ」のデータを受信済みＤＢ１２ａの末尾に格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図２１は、具体的な分割例を説明する図である。図２１に示すように、バケット判定部１９は、「Ｃａｒｅｎ」のデータの格納位置が末尾であり、格納対象の末尾のバケットが小バケットであると判定する。この結果、更新部２０は、「処理８」を実行する。すなわち、更新部２０は、分割境界ＤＢ１２ｂにおいて、末尾バケット（Ｄ_３）の末尾情報に「Ｃａｒｅｎ」のデータを特定する「時刻３」を格納して、データ数を１増やす。サイズ１のバケットに関する仮定により、バケット（Ｄ_３）の先頭情報にも「時刻３」を格納する。

続いて、受信部１６が、「４、Ｄｉｃｋ、５３、１０００、５５００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済み各データの年収と受信した「Ｄｉｃｋ」の年収「１０００」を比較し、当該「Ｄｉｃｋ」のデータの格納位置を受信済みＤＢ１２ａの先頭と特定する。そして、格納制御部１８は、当該「Ｄｉｃｋ」のデータを受信済みＤＢ１２ａの先頭に格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図２２は、具体的な分割例を説明する図である。図２２に示すように、バケット判定部１９は、「Ｄｉｃｋ」のデータの格納位置が先頭であり、格納対象の先頭のバケットが小バケットであると判定する。この結果、更新部２０は、「処理７」を実行する。すなわち、更新部２０は、分割境界ＤＢ１２ｂにおいて、先頭バケット（Ｄ_１）の先頭情報に「Ｄｉｃｋ」のデータを特定する「時刻４」を格納して、データ数を１増やして「２」にする。

続いて、受信部１６が、「５、Ｅｒｉｋ、３５、８００、１００００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済みの各データの年収と受信した「Ｅｒｉｋ」の年収「８００」を比較し、当該「Ｅｒｉｋ」のデータの格納位置を「Ｄｉｃｋ」と「Ｂｏｂ」の間と特定する。そして、格納制御部１８は、受信済みＤＢ１２ａにおける「Ｄｉｃｋ」と「Ｂｏｂ」の間に「Ｅｒｉｋ」のデータを格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図２３は、具体的な分割例を説明する図である。図２３に示すように、更新部２０は、先頭のバケットであるバケット（Ｄ_１）にデータが追加されたので、バケット（Ｄ_１）のデータ数を「３」に更新する。

ここで、バケット判定部１９は、分割境界ＤＢ１２ｂの各分割境界を参照し、バケット（Ｄ_１）のデータ数が他のバケットのデータ数よりも２以上となっていることと、バケット（Ｄ_１）が大バケットであることを特定して、更新部２０に通知する。すると、更新部２０は、新たなデータがバケット（Ｄ_１）の内部に格納され、バケット（Ｄ_１）が大バケットであることから、「処理２」を実行する。

すなわち、図２３に示すように、更新部２０は、バケット（Ｄ_１）に一番近い小バケットがバケット（Ｄ_２）であると特定する。つまり、ｑ＝２となり、ｐ＜ｑとなる。したがって、縮退実行部２０ｂは、ｕｐｓｈｒｉｎｋ（１）を実行し、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_１）の末尾情報を「Ｄｉｃｋ」のデータを特定する「時刻５」に修正してデータ数を１減らして「１」にする。また、拡張実行部２０ａは、ｕｐｅｘｐａｎｄ（２）を実行し、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_２）の先頭情報を１件上の「Ｂｏｂ」の「時刻２」に置き換えて、データ数を１増やして「２」にする。このとき、ｐ＋１＞ｑ−１となるため、更新部２０は、ｕｐｓｌｉｄｅ（ｐ＋１、ｑ−１）を実行しない。

続いて、受信部１６が、「６、Ｆｒａｎｋｌｉｎ、１９、２５０、３００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済みの各データの年収と受信した「Ｅｒｉｋ」の年収「２５０」を比較し、当該「Ｆｒａｎｋｌｉｎ」のデータの格納位置を「Ａｌｉｃｅ」と「Ｃａｒｅｎ」の間と特定する。そして、格納制御部１８は、受信済みＤＢ１２ａにおける「Ａｌｉｃｅ」と「Ｃａｒｅｎ」の間に「Ｆｒａｎｋｌｉｎ」のデータを格納する。

ここで、バケット判定部１９は、受信済みＤＢ１２ａや分割境界ＤＢ１２ｂを参照し、「Ｆｒａｎｋｌｉｎ」のデータの格納位置がバケット（Ｄ_２）とバケット（Ｄ_３）の間であり、バケット（Ｄ_２）が大バケットで、バケット（Ｄ_３）が小バケットであると判定する。この判定を受けて、更新部２０は、「処理５」を実行する。図２４は、具体的な分割例を説明する図である。図２４に示すように、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_３）の先頭情報を「Ｆｒａｎｋｌｉｎ」のデータを特定する「時刻６」に修正し、データ数を１増やして「２」に更新する。

続いて、受信部１６が、「７、Ｇｅｏｒｇｅ、２５、６００、１３００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済みの各データの年収と受信した「Ｇｅｏｒｇｅ」の年収「６００」を比較し、当該「Ｇｅｏｒｇｅ」のデータの格納位置を「Ｅｒｉｋ」と「Ｂｏｂ」の間と特定する。そして、格納制御部１８は、受信済みＤＢ１２ａにおける「Ｅｒｉｋ」と「Ｂｏｂ」の間に「Ｇｅｏｒｇｅ」のデータを格納する。

ここで、バケット判定部１９は、受信済みＤＢ１２ａや分割境界ＤＢ１２ｂを参照し、「Ｇｅｏｒｇｅ」のデータの格納位置がバケット（Ｄ_１）とバケット（Ｄ_２）の間であり、バケット（Ｄ_１）とバケット（Ｄ_２）とが共に小バケットであると判定する。この判定を受けて、更新部２０は、「処理３」を実行する。図２５は、具体的な分割例を説明する図である。図２５に示すように、更新部２０は、分割境界ＤＢ１２ｂに記憶されるバケットＤ_１の末尾情報を「Ｇｅｏｒｇｅ」のデータを特定する「時刻７」に修正し、データ数を１増やして「３」に更新する。

続いて、受信部１６が、「８、Ｈｅｎｒｙ、４７、７５０、８５００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済みの各データの年収と受信した「Ｈｅｎｒｙ」の年収「７５０」を比較し、当該「Ｈｅｎｒｙ」のデータの格納位置を「Ｅｒｉｋ」と「Ｇｅｏｒｇｅ」の間と特定する。そして、格納制御部１８は、受信済みＤＢ１２ａにおける「Ｅｒｉｋ」と「Ｇｅｏｒｇｅ」の間に「Ｈｅｎｒｙ」のデータを格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図２６は、具体的な分割例を説明する図である。図２６に示すように、更新部２０は、先頭のバケットであるバケットＤ_１にデータが追加されたので、バケットＤ_１のデータ数を４に更新する。

すなわち、図２６に示すように、更新部２０は、バケット（Ｄ_１）に一番近い小バケットがバケット（Ｄ_２）であると特定する。つまり、ｑ＝２となり、ｐ＜ｑとなる。したがって、縮退実行部２０ｂは、ｕｐｓｈｒｉｎｋ（１）を実行し、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_１）の末尾情報を「時刻７」から「Ｈｅｎｒｙ」のデータを特定する「時刻８」に修正してデータ数を１減らして「３」にする。また、拡張実行部２０ａは、ｕｐｅｘｐａｎｄ（２）を実行し、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_２）の先頭情報を「時刻２」から１件上の「Ｇｅｏｒｇｅ」の「時刻７」に置き換えて、データ数を１増やして「３」にする。このとき、ｐ＋１＞ｑ−１となるため、更新部２０は、ｕｐｓｌｉｄｅ（ｐ＋１、ｑ−１）を実行しない。

続いて、受信部１６が、「９、Ｉｒｉｓ、６１、１２００、７０００」とするストリームデータを受信したとする。すると、位置特定部１７は、格納済みの各データの年収と受信した「Ｉｒｉｓ」の年収「１２００」を比較し、当該「Ｉｒｉｓ」のデータの格納位置を受信済みＤＢ１２ａの先頭と特定する。そして、格納制御部１８は、「Ｉｒｉｓ」のデータを受信済みＤＢ１２ａの先頭に格納する。その後、更新部２０は、分割境界ＤＢ１２ｂを更新する。図２７は、具体的な分割例を説明する図である。図２７に示すように、更新部２０は、先頭のバケットであるバケット（Ｄ_１）の先頭情報に「Ｉｒｉｓ」のデータを特定する「時刻９」を格納し、バケット（Ｄ_１）のデータ数を４に更新する。

ここで、バケット判定部１９は、分割境界ＤＢ１２ｂの各分割境界を参照し、バケットＤ_１のデータ数が他のバケットのデータ数よりも２以上多く、バケット（Ｄ_１）が大バケットであることを特定して、更新部２０に通知する。すると、更新部２０は、新たなデータが挿入された位置が受信済みＤＢ１２ａの先頭であり、先頭であるバケット（Ｄ_１）が大バケットであることから、「処理６」を実行する。

すなわち、図２７に示すように、更新部は、バケット（Ｄ_１）に一番近い小バケットがバケット（Ｄ_２）であると特定する。つまり、ｑ＝２となる。そして、縮退実行部２０ｂは、ｕｐｓｈｒｉｎｋ（１）を実行し、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_１）の末尾情報を「時刻８」から１件上の「時刻５」に修正し、データ数を１減らして「３」にする。また、スライド実行部２０ｃは、ｕｐｓｌｉｄｅ（２、２）を実行し、バケット（Ｄ_２）の先頭情報を「時刻７」から１件上の「時刻８」に修正し、バケット（Ｄ_２）の末尾情報を「時刻１」から１件上の「時刻２」に修正する。さらに、拡張実行部２０ａは、ｕｐｅｘｐａｎｄ（３）を実行して、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_３）の先頭情報を「時刻６」から１件上の「時刻１」に置き換えて、データ数を１増やして「３」にする。

上述した図１９から図２７を実行することで、データ分割装置１０は、図２８に示す分割結果を得ることができる。図２８は、具体的な分割例による処理結果を示す図である。図２８に示すように、データ分割装置１０は、時刻１から時刻９までのデータを順次受信し、受信するたびにソートしながら蓄積する一方で、受信済みデータを均等分割することができる。図２８の例では、データ分割装置１０が、時刻９、時刻４、時刻５のデータをバケットＤ_１に分割し、時刻８、時刻７、時刻２のデータをバケットＤ_２に分割し、時刻１、時刻６、時刻３のデータをバケットＤ_３に分割した状態を示す。

［出力の具体例］
次に、図２９から図３２を用いて、データ出力の具体例を説明する。図２９は、データ分割装置がデータ分割を実行した結果を示す図である。図２９に示すように、データ分割装置１０が、時刻１から時刻１０までのデータを５つのバケットに均等分割したとする。具体的には、データ分割装置１０は、時刻９と時刻４のデータをバケット（Ｄ_１）に分割し、時刻５と時刻８のデータをバケット（Ｄ_２）に分割し、時刻７と時刻２のデータをバケット（Ｄ_３）に分割したとする。同様に、データ分割装置１０は、時刻１０と時刻１のデータをバケット（Ｄ_４）に分割し、時刻６と時刻３のデータをバケット（Ｄ_５）に分割したとする。

この状態において、データ分割装置１０の出力部２１は、ユーザ端末５からバケット（Ｄ_２）とバケット（Ｄ_３）とバケット（Ｄ_４）のデータ出力依頼を受信したとする。図３０から図３２は、具体的なデータ出力例を説明する図である。この場合、まず、出力部２１は、図３０に示すように、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_２）の先頭および末尾情報を参照する。そして、出力部２１は、受信済みＤＢ１２ａにソートされて記憶されるデータのうち「時刻５」から「時刻８」までの間に位置する２つのデータがバケット（Ｄ_２）に属するデータであると特定する。そして、出力部２１は、「時刻５」のレコードである「５、Ｅｒｉｋ、３５、８００、１００００」と「時刻８」のレコードである「８、Ｈｅｎｒｙ、４７、７５０、８５００」とを受信済みＤＢ１２ａから読み出して、ユーザ端末５に送信する。

次に、出力部２１は、図３１に示すように、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_３）の先頭および末尾情報を参照する。そして、出力部２１は、受信済みＤＢ１２ａにソートされて記憶されるデータのうち「時刻７」から「時刻２」までの間に位置する２つのデータがバケット（Ｄ_３）に属するデータであると特定する。そして、出力部２１は、「時刻７」のレコードである「７、Ｇｅｏｒｇｅ、２５、６００、１３００」と「時刻２」のレコードである「２、Ｂｏｂ、５５、４５０、２５００」とを受信済みＤＢ１２ａから読み出して、ユーザ端末５に送信する。

最後に、出力部２１は、図３２に示すように、分割境界ＤＢ１２ｂに記憶されるバケット（Ｄ_４）の先頭および末尾情報を参照する。そして、出力部２１は、受信済みＤＢ１２ａにソートされて記憶されるデータのうち「時刻１０」から「時刻１」までの間に位置する２つのデータがバケット（Ｄ_４）に属するデータであると特定する。そして、出力部２１は、「時刻１０」のレコードである「１０、Ｊａｍｅｓ、３７、４００、１７００」と「時刻１」のレコードである「１、Ａｌｉｃｅ、２４、３００、１５００」とを受信済みＤＢ１２ａから読み出して、ユーザ端末５に送信する。

このように、データ分割装置１０は、データ分割結果のうちユーザが指定するグループのデータを読み出して応答することができる。

［実施例による効果］
このように、実施例１に係るデータ分割装置１０は、バケット数を固定したまま１レコードごとに動的に分割境界を変更するような整列均等分割を実現することができる。つまり、データ分割装置１０は、ストリームデータを受信するたびにデータをソートして格納するとともに、データ分割を行うことができる。このとき、データ分割装置１０は、ソートした順序を示す連番をデータに割り振ることなく、グループ分けすることができるので、データの分割にかかる時間を短縮できる。つまり、実施例で示す「時刻」のように、レコードを識別する番号を示す「通番」は与えられているが、「連番」が与えられていないデータを、「連番」を与えることなく高速に分割することができる。

データ分割装置１０では、データ受信時にデータを分割することができるので、ユーザがデータ分割を要求してから分割するまでに時間がかからず、即時応答することができる。一方、従来技術の場合、均等分割された結果に対して、一部のバケットのみの出力が要求されるような場合には、全データをスキャンしなければならないので、時間がかかる。一方、実施例１に係るデータ分割装置１０は、ユーザが要求するバケット内のデータのみスキャンすればよいので、出力時間を短縮できる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。

（分割と出力）
実施例１では、データ分割とデータ出力とを１つのフローチャートで説明したが、これに限定されるものではない。例えば、データ分割とデータ出力とは全く別の契機で実行させることもできる。つまり、データ分割処理した後にデータ出力処理を実行するのではなく、全く別の処理として実行することができる。また、データ分割装置１０は、ユーザ端末５にデータを出力するだけでなく、例えばディスプレイなどの表示部に表示させることもでき、記憶媒体等に書き込むこともできる。

（ストリームデータ）
実施例１で説明したストリームデータやデータの構成はあくまで例であり、これに限定するものではない。また、データ分割装置１０は、ストリームデータに限ったものではなく、様々なデータに適用することができる。例えば、データ分割装置１０は、ストレージ等に格納されるデータや、記憶媒体等から読み出されたデータに対しても同様に分割することができる。

（システム）
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（ハードウェア構成）
ところで、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータシステムの一例を説明する。

図３３は、データ分割プログラムを実行するコンピュータのハードウェア構成の例を示す図である。図３３に示すように、コンピュータ１００は、ＣＰＵ１０２、入力装置１０３、出力装置１０４、通信インタフェース１０５、媒体読取装置１０６、ＨＤＤ（Hard Disk Drive）１０７、ＲＡＭ（Random Access Memory）１０８を有する。また、図３３に示した各部は、バス１０１で相互に接続される。

入力装置１０３は、マウスやキーボードであり、出力装置１０４は、ディスプレイなどであり、通信インタフェース１０５は、ＮＩＣ（Network Interface Card）などのインタフェースである。ＨＤＤ１０７は、データ分割プログラム１０７ａとともに、図２に示した各ＤＢ等を記憶する。記録媒体の例としてＨＤＤ１０７を例に挙げたが、ＲＯＭ（Read Only Memory）、ＲＡＭ、ＣＤ−ＲＯＭ、ＳＳＤ（Solid State Drive）等の他のコンピュータ読取可能な記録媒体に各種プログラムを格納しておき、コンピュータに読み取らせることとしてもよい。なお、記録媒体を遠隔地に配置し、コンピュータが、その記憶媒体にアクセスすることでプログラムを取得して利用してもよい。また、その際、取得したプログラムをそのコンピュータ自身の記録媒体に格納して用いてもよい。

ＣＰＵ１０２は、データ分割プログラム１０７ａを読み出してＲＡＭ１０８に展開することで、図２等で説明した各機能を実行するデータ分割プロセス１０８ａを動作させる。すなわち、データ分割プロセス１０８ａは、図２に記載した分割数設定部１４、分割処理部１５、出力部２１と同様の機能を実行する。このようにコンピュータ１００は、プログラムを読み出して実行することでデータ分割方法を実行する情報処理装置として動作する。

例えば、コンピュータ１００は、媒体読取装置１０６によって記録媒体からデータ分割プログラムを読み出し、読み出されたデータ分割プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、コンピュータ１００によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

１ストリームデータ発生装置
５ユーザ端末
１０データ分割装置
１１通信制御Ｉ／Ｆ部
１２記憶部
１２ａ受信済みＤＢ
１２ｂ分割境界ＤＢ
１３制御部
１４分割数設定部
１５分割処理部
１６受信部
１７位置特定部
１８格納制御部
１９バケット判定部
２０更新部
２０ａ拡張実行部
２０ｂ縮退実行部
２０ｃスライド実行部
２１出力部

Claims

特定の項目でソートした複数のデータを記憶するデータ記憶部と、
前記データ記憶部に記憶されるデータが予め定めたグループ数に分割されるグループごとに、当該グループ内の先頭に位置するデータを特定する先頭情報と当該グループ内の末尾に位置するデータを特定する末尾情報とを記憶する情報記憶部と、
前記データ記憶部にデータを格納する場合に、当該データが有する前記特定の項目に基づいて特定される位置に格納する格納制御部と、
前記格納制御部によって前記データが前記データ記憶部に格納された場合に、前記各グループに属するデータ数の差が１つ以下となるように、前記情報記憶部に記憶される前記グループごとの先頭情報と末尾情報とを更新する更新部と
を有することを特徴とするデータ分割装置。
前記更新部は、前記格納制御部によってデータが格納されたグループに属するデータ数と他のグループに属するデータ数との差分が所定値を超える場合に、前記データが格納されたグループについて、前記データが格納されたグループの先頭情報と末尾情報との間に位置するデータ数が１つ減るように、前記先頭情報または末尾情報を更新することを特徴とする請求項１に記載のデータ分割装置。
前記更新部は、前記格納制御部によってデータが格納されたグループに属するデータ数との差分が前記所定値を超える他のグループについて、当該他のグループの先頭情報と末尾情報との間に位置するデータ数が１つ増えるように、前記先頭情報または末尾情報を更新することを特徴とする請求項２に記載のデータ分割装置。
前記更新部は、前記格納制御部によってデータが格納されたグループに属するデータ数との差分が前記所定値を超える他のグループと、前記格納されたグループとの間に位置する各グループについて、前記先頭情報と末尾情報との間に位置するデータ数を変えることなく、当該各グループの先頭情報および末尾情報を前記格納したグループの方向に１つずつスライドさせたデータを特定する情報に更新することを特徴とする請求項３に記載のデータ分割装置。
前記データ記憶部に記憶されるデータが分割されるグループのうち、ユーザに指定されたグループの先頭情報と末尾情報とを前記情報記憶部から読み出し、読み出した先頭情報に該当するデータから末尾情報に該当するデータまでのデータを前記データ記憶部から読み出して、所定の装置に出力する出力部をさらに有することを特徴とする請求項１から４のいずれか一つに記載のデータ分割装置。
前記更新部は、前記格納制御部によってデータが前記データ記憶部に格納されるのに伴って、前記データが追加されたグループ内のデータ数を１増加させた後、前記データが格納されたグループに属するデータ数と他のグループに属するデータ数との差分が所定値を超える場合に、前記データが格納されたグループの先頭情報と末尾情報との間に位置するデータ数を１つ減らして各グループに属するデータ数の差が１つ以下となるように、前記データが格納されたグループに対応付けられる先頭情報または末尾情報を更新する請求項１に記載のデータ分割装置。
コンピュータが、
特定の項目でソートした複数のデータを記憶するデータ記憶部にデータを格納する場合に、当該データが有する前記特定の項目に基づいて特定される位置に格納し、
前記データが前記データ記憶部に格納された場合に、前記データ記憶部に記憶される前記データが予め定めたグループ数に分割される各グループに属するデータ数の差が１つ以下となるように、前記グループごとに当該グループ内の先頭に位置するデータを特定する先頭情報と当該グループ内の末尾に位置するデータを特定する末尾情報とを記憶する情報記憶部における前記グループごとの先頭情報と末尾情報とを更新する
処理を含んだことを特徴とするデータ分割方法。
コンピュータに、
特定の項目でソートした複数のデータを記憶するデータ記憶部にデータを格納する場合に、当該データが有する前記特定の項目に基づいて特定される位置に格納し、
前記データが前記データ記憶部に格納された場合に、前記データ記憶部に記憶される前記データが予め定めたグループ数に分割される各グループに属するデータ数の差が１つ以下となるように、前記グループごとに当該グループ内の先頭に位置するデータを特定する先頭情報と当該グループ内の末尾に位置するデータを特定する末尾情報とを記憶する情報記憶部における前記グループごとの先頭情報と末尾情報とを更新する
処理を実行させることを特徴とするデータ分割プログラム。