JP2024058778A

JP2024058778A - データ処理システム、データ処理プログラム、およびデータ処理方法

Info

Publication number: JP2024058778A
Application number: JP2022166085A
Authority: JP
Inventors: 耕太郎新庄; 信夫田口; 隆之鈴木
Original assignee: Kousokuya Inc
Current assignee: Kousokuya Inc
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2024-04-30

Abstract

【課題】データを高速にソートすること。【解決手段】データ処理システムは少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数のカラムおよび複数のレコードを含む元ファイルを取得し、元ファイルを複数のレコードグループに分割し、複数のレコードグループのそれぞれについて、複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートし、ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じソートキーを含むレコードに所定の印を設定し、ソートされた複数のレコードグループと、印とに基づいて、ソートキーに基づいてソートされた複数のレコードを含む結果ファイルを生成する。【選択図】図２

Description

本開示の一側面はデータ処理システム、データ処理プログラム、およびデータ処理方法に関する。

データのソートに関する様々な技術が知られている。例えば、特許文献１には、ソートされた複数のリストをマージして１個のソートされたリストとするマージソート処理を、複数のプロセッサを用いて処理する並列ソート処理方法が記載されている。

特開平９－１９０３３７号公報

データを高速にソートするための仕組みが望まれる。

本開示の一側面に係るデータ処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数のカラムおよび複数のレコードを含む元ファイルを取得し、元ファイルを複数のレコードグループに分割し、複数のレコードグループのそれぞれについて、複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートし、ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じソートキーを含むレコードに所定の印を設定し、ソートされた複数のレコードグループと、印とに基づいて、ソートキーに基づいてソートされた複数のレコードを含む結果ファイルを生成する。

このような側面においては、ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じソートキーを含むレコードに所定の印が設定される。そして、ソートされた複数のレコードグループと印とに基づいて、全レコードがソートされた結果ファイルが生成される。その印を参照することで、結果ファイルを生成するときに一つ前のレコードと同じソートキーを含むレコードをソートする負荷を軽減することができる。したがって、データを高速にソートすることができる。

本開示の一側面によれば、データを高速にソートすることができる。

図１は元ファイルから結果ファイルを生成する例を示す図である。図２はデータ処理システムの機能構成の一例を示す図である。図３はデータ処理システムに用いられるコンピュータのハードウェア構成の一例を示す図である。図４はデータ処理システムによる一連のデータ処理を示すフローチャートである。図５は元ファイルを複数のレコードグループに分割する処理を示すフローチャートである。図６はレコードグループのソートおよび一時ファイルの生成を示すフローチャートである。図７は一時ファイルの生成の詳細を示すフローチャートである。図８は結果ファイルを生成する処理を示すフローチャートである。図９は一つのレコードグループから一つの一時ファイルを生成する例を示す図である。図１０は複数の一時ファイルの例を示す図である。図１１は図１０に示す複数の一時ファイルから生成される結果ファイルの例を示す図である。

以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

［システムの概要］
本開示に係るデータ処理システムは、データテーブルを処理するためのコンピュータシステムである。データ処理システムは、元ファイルによって示されるデータテーブルを所与のソートキーに基づいてソートし、そのソート結果を示す結果ファイルを生成する。

元ファイルはデータ処理システムによって処理されるデータファイルである。元ファイルは、ファイルシステム上で管理されるデータファイルであってもよいし、データベース管理システム上で管理されるテーブルによって表現されてもよい。元ファイルは、例えば、ＣＳＶファイルである。元ファイルは複数のカラムおよび複数のレコードによって表されるデータテーブルを含む。

図１は、元ファイル２０から結果ファイル２３を生成する例を示す図である。一例では、データ処理システムは元ファイル２０を複数のレコードグループ２１に分割する。それぞれのレコードグループ２１は２以上のレコードによって構成される。それぞれのレコードグループ２１は元ファイル２０と同じカラム群を含んでもよいし、該カラム群のうちの一部のカラムのみを含んでもよい。一例では、データ処理システムは複数のレコードグループ２１のそれぞれについて、該レコードグループ２１をソートキーに基づいてソートし、そのソート結果を示す一時ファイル２２を生成する。ソートキーはデータを並べ替える際の順序の基準となる要素である。ソートキーは複数のカラムのうちの少なくとも一つによって設定される。データ処理システムはレコードグループ２１のカラム群（すなわち、元ファイル２０のカラム群）のうちの１以上のカラムを一時ファイル２２に含める。一時ファイル２２は、レコードグループ２１のカラム群の一部のカラムによって構成されてもよいし、レコードグループ２１と同じカラム群によって構成されてもよい。データ処理システムは、複数の一時ファイル２２の全体をソートキーに基づいてソートしつつ該複数の一時ファイル２２を統合して、結果ファイル２３を生成する。この結果、元ファイルの全レコードがソートされた結果ファイル２３が得られる。

［システムの構成］
図２は一例に係るデータ処理システム１の機能構成を示す図である。この例では、データ処理システム１は機能要素として取得部１１、分割部１２、ソート部１３、マーキング部１４、マージ部１５、および出力部１６を備える。取得部１１は、元ファイル２０を取得する機能要素である。分割部１２は、元ファイル２０を分割して複数のレコードグループ２１を生成する機能要素である。ソート部１３は、複数のレコードグループ２１のそれぞれについて、該レコードグループ２１をソートキーに基づいてソートする機能要素である。マーキング部１４は、ソートされたそれぞれのレコードグループ２１について、所定の条件を見たすレコードに対して印を付与しつつ一時ファイル２２を生成する機能要素である。マージ部１５は、複数の一時ファイル２２を統合して結果ファイル２３を生成する機能要素である。出力部１６は、結果ファイル２３を出力する機能要素である。一例では、ソート部１３およびマーキング部１４はそれぞれのスレッド１０１ａ上で実現される。

図３はデータ処理システム１に用いられるコンピュータ１００のハードウェア構成の一例を示す図である。コンピュータ１００は、一つまたは複数のプロセッサ１０１、メモリ１０２、ストレージ１０３、通信制御装置１０４、入力装置１０５、および出力装置１０６を有する。

プロセッサ１０１はオペレーティングシステムおよびアプリケーションプログラムを実行する。プロセッサ１０１は複数のスレッド１０１ａを有する。スレッド１０１ａはプロセッサ１０１における最小の処理単位である。ストレージ１０３は、ハードディスク、不揮発性の半導体メモリ、取り出し可能な媒体（例えば、磁気ディスク、光ディスク）などの記憶媒体で構成され、オペレーティングシステムおよびアプリケーションプログラムを記憶する。メモリ１０２は、ストレージ１０３からロードされたプログラム、またはプロセッサ１０１による演算結果を一時的に記憶する。通信制御装置１０４は、プロセッサ１０１からの指令に従って、他の装置との間でデータ通信を行う。入力装置１０５は、ユーザ入力を受け付ける装置であり、例えばキーボードおよびマウスなどで構成される。出力装置１０６はデータを出力する装置であり、例えば、モニタなどで構成される。

コンピュータをデータ処理システム１として機能させるためのプログラムは、該コンピュータを取得部１１、分割部１２、ソート部１３、マーキング部１４、マージ部１５、および出力部１６として機能させるためのプログラムコードを含む。プログラムの少なくとも一部は、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリなどの非一時的な記録媒体に記録された上で提供されてもよい。あるいは、プログラムの少なくとも一部は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。提供されたプログラムはストレージ１０３に記憶される。プロセッサ１０１がメモリ１０２と協働してそのプログラムを実行することで、該プログラムに対応する機能要素が実現する。

データ処理システム１は、一つまたは複数のコンピュータにより構成され得る。複数のコンピュータが用いられる場合には、通信ネットワークを介してこれらのコンピュータが互いに接続されることでデータ処理システム１が構成される。

［システムの動作］
図４～図８を参照しながら、データ処理システム１の動作、すなわち、本実施形態に係るデータ処理方法について説明する。図４は、データ処理システム１による一連のデータ処理を処理フローＳ１として示すフローチャートである。図５は、元ファイル２０を複数のレコードグループ２１に分割する処理を示すフローチャートである。図６は、レコードグループ２１のソートおよび一時ファイル２２の生成を示すフローチャートである。図７は、一時ファイル２２の生成の詳細を示すフローチャートである。図８は、結果ファイル２３を生成する処理を示すフローチャートである。

ステップＳ１１では、取得部１１が元ファイル２０および処理条件を取得する。取得部１１はユーザ操作によって選択された元ファイル２０または処理条件を取得してもよいし、所定のプログラムまたはバッチ処理によって指定された元ファイル２０または処理条件を取得してもよい。一例では、処理条件はキー項目および指定カラムを示す。キー項目は、元ファイル２０で示される複数のカラムのうち、ソートキーを設定するために用いられる１以上のカラムと、該１以上のカラムのそれぞれについての並び順の指定とを示す情報をいう。並び順の指定は昇順および降順のいずれか一方である。キー項目が２以上のカラムを示す場合には、キー項目はソートにおけるそれぞれのカラムの優先順位を更に示してもよい。指定カラムは、元ファイル２０で示される複数のカラムのうち、結果ファイル２３に書き出される１以上のカラムをいう。指定カラムは、元ファイル２０上の全カラムかもしれないし、元ファイル２０上のカラム群のうちの一部かもしれない。

ステップＳ１２では、分割部１２が元ファイル２０を複数のレコードグループ２１に分割する。図５を参照しながらステップＳ１２の詳細を説明する。

ステップＳ１２１では、分割部１２はメモリ１０２中に複数の被分割領域を設定する。被分割領域はレコードグループ２１を格納するための領域である。被分割領域とレコードグループ２１との対応関係は１対１である。分割部１２はそれぞれの被分割領域の状態を「未使用」に初期化する。

ステップＳ１２２では、分割部１２は一つの未使用の被分割領域を選択し、元ファイル２０中の一部のレコード群をレコードグループ２１として該被分割領域に格納する。そのレコード群は、元ファイル２０中で連続して並ぶ２以上のレコードの集合である。最初の被分割領域を選択した場合には、分割部１２は元ファイル２０の先頭から２以上のレコードを読み出してこれらのレコードをレコードグループ２１として該最初の被分割領域に格納する。分割部１２は、レコードグループ２１が格納された被分割領域の状態を「使用中」に更新する。

ステップＳ１２３では、分割部１２は選択された被分割領域を未使用のスレッド１０１ａに割り当てる。被分割領域とスレッド１０１ａとの対応関係は１対１であり、したがって、レコードグループ２１とスレッド１０１ａとの対応関係も１対１である。割り当てられたスレッド１０１ａはその被分割領域上のレコードグループ２１を処理することになる。

ステップＳ１２４では、分割部１２は元ファイル２０の全てのレコードを読み出したか否かを判定する。読み出されていないレコードが存在する場合には（ステップＳ１２４においてＮＯ）、処理はステップＳ１２２に戻る。繰り返されるステップＳ１２２では、分割部１２は別の未使用の被分割領域を選択し、元ファイル２０の中で未だ読み出されていないレコード群の先頭から２以上のレコードを読み出して、これらのレコードをレコードグループ２１として該被分割領域に格納する。繰り返されるステップＳ１２３では、分割部１２はその被分割領域を別の未使用のスレッド１０１ａに割り当てる。全てのレコードが処理された場合には（ステップＳ１２４においてＹＥＳ）、ステップＳ１２が終了する。

図４に戻って、ステップＳ１３では、それぞれのスレッド１０１ａにおいて、ソート部１３がレコードグループ２１をソートし、マーキング部１４が一時ファイル２２を生成する。すなわち、ステップＳ１３はそれぞれのスレッド１０１ａにおいて実行される。図６を参照しながらステップＳ１３の詳細を説明する。図６は一つのスレッド１０１ａにおける処理を示す。

ステップＳ１３１では、ソート部１３はレコードグループ２１から１レコードを選択し、取得されたキー項目に基づいて該レコードのソートキーを生成する。一例では、ソート部１３は、キー項目によるソートを、ソートキーによって昇順にソートすることで実現できるように、ソートキーを生成する。具体的には、ソート部１３は、キー項目で示される１以上のカラムのそれぞれに対応する値を必要に応じて変換し、１以上のカラムに対応する１以上の値を結合してソートキーを生成する。キー項目の或る一つのカラムについて昇順が指定されたとする。そのカラムのデータ型が整数型または実数（ｆｌｏａｔ）型である場合には、ソート部１３は符号ビットを反転させ、値をビックエンディアンに変換する。そのカラムのデータ型が日付型または時刻型である場合には、ソート部１３は値をビックエンディアンに変換する。そのカラムのデータ型が文字列である場合には、ソート部１３は値をそのまま用いる。一方、キー項目の或る一つのカラムについて降順が指定されたとする。そのカラムのデータ型が整数型または実数型である場合には、ソート部１３は値の補数をビックエンディアンに変換する。そのカラムのデータ型が日付型または時刻型である場合には、ソート部１３は値の補数をビックエンディアンに変換する。そのカラムのデータ型が文字列である場合には、ソート部１３は１バイト毎に補数を設定し、その補数を出現順に配置する。ソート部１３はこのように必要に応じて変換された１以上の値を結合してソートキーを生成する。

ステップＳ１３２では、ソート部１３は選択されたレコードにソートキーを関連付ける。一例では、ソート部１３は指定カラムで指定されるデータ項目の集合をレコードデータ部としてそのレコードから抽出し、そのレコードデータ部にソートキーを関連付ける。

ステップＳ１３３では、ソート部１３はレコードグループ２１の全てのレコードを処理したか否かを判定する。処理されていないレコードが存在する場合には（ステップＳ１３３においてＮＯ）、処理はステップＳ１３１に戻る。ソート部１３は未処理の１レコードを選択し、該レコードについてステップＳ１３１，Ｓ１３２の処理を実行する。全てのレコードが処理された場合には（ステップＳ１３３においてＹＥＳ）、処理はステップＳ１３４に進む。

ステップＳ１３４では、ソート部１３はソートキーに基づいてレコードグループ２１をソートする。一例では、ソートされるレコードグループ２１は、レコードデータ部の集合である。上述したように、ソートキーによって昇順にソートすることでキー項目によるソートを実現する場合には、ソート部１３はその昇順のソートをレコードグループ２１に対して実行する。

ステップＳ１３５では、マーキング部１４がソートされたレコードグループ２１に基づいて一時ファイル２２を生成する。この処理において、マーキング部１４はそのレコードグループ２１について、一つ前のレコードと同じソートキーを含むレコードに所定の印を設定する。図７を参照しながらステップＳ１３５の詳細を説明する。

ステップＳ１３５１では、マーキング部１４はソートキーに現れない特殊な数値をキーチェック変数に設定する。キーチェック変数は、連続する２レコードの間でソートキーが等しいか否かを比較するための変数であり、ソートキーと同じバイト数によって表される。例えば、マーキング部１４は各バイトの値が１６進数で「ＦＦ」である値をキーチェック変数に設定する。

ステップＳ１３５２では、マーキング部１４はソート順に従ってレコードグループ２１から１レコードを選択し、そのレコードのソートキーを取得する。

ステップＳ１３５３では、マーキング部１４はそのソートキーがキーチェック変数と等しいか否かを判定する。

ソートキーがキーチェック変数と等しくない場合には（ステップＳ１３５３においてＮＯ）、処理はステップＳ１３５４に進む。最初に選択されたレコードのソートキーはキーチェック変数と異なるので、処理はステップＳ１３５４に進む。ステップＳ１３５４では、マーキング部１４は選択されたレコードにキーチェックフラグを関連付け、このキーチェックフラグに０を設定する。キーチェックフラグは、一つ前のレコードとの間でソートキーが等しいか否かを示すカラムである。キーチェックフラグは、一つ前のレコードとの間でソートキーが異なることを示す第１のフラグ値（例えば０）と、一つ前のレコードとの間でソートキーが等しいことを示す第２のフラグ値（例えば１）という二値で表される。キーチェックフラグは、一つ前のレコードと同じソートキーを含むレコードに設定される印の一例である。

ステップＳ１３５５では、マーキング部１４はキーチェックフラグ、ソートキー、およびレコードデータ部を含む一時レコードを生成する。

ステップＳ１３５６では、マーキング部１４はキーチェック変数にソートキーを代入してキーチェック変数を更新する。

ソートキーがキーチェック変数と等しい場合には（ステップＳ１３５３においてＹＥＳ）、処理はステップＳ１３５７に進む。ステップＳ１３５７では、マーキング部１４は選択されたレコードにキーチェックフラグを関連付け、このキーチェックフラグに１を設定する。

ステップＳ１３５８では、マーキング部１４は、キーチェックフラグおよびレコードデータ部を含み、ソートキーを含まない一時レコードを生成する。すなわち、マーキング部１４はその一時レコードを生成する際にソートキーを削除する。ソートキーの削除、すなわち、一時レコードにおけるソートキーの欠落は、印の一例である。

ステップＳ１３５９では、マーキング部１４は一時レコードを一時ファイル２２に書き出す。マーキング部１４は一時ファイル２２の末尾にその一時レコードを追加する。

ステップＳ１３６０では、マーキング部１４はレコードグループ２１の全てのレコードを処理したか否かを判定する。未処理のレコードが存在する場合には（ステップＳ１３６０においてＮＯ）、処理はステップＳ１３５２に戻る。この場合、マーキング部１４はステップＳ１３５２においてソート順に従って次の１レコードを選択し、該レコードについてステップＳ１３５２～Ｓ１３５９の処理を実行する。全てのレコードが処理された場合には（ステップＳ１３６０においてＹＥＳ）、処理はステップＳ１３６１に進む。ステップＳ１３６１では、マーキング部１４はレコードグループ２１を記憶しているメモリ１０２の被分割領域の状態を「未使用」に更新して該被分割領域を解放する。

図４に戻って、ステップＳ１４では、マージ部１５が複数の一時ファイル２２に基づいて結果ファイル２３を生成する。マージ部１５は、ソートされた複数のレコードグループ２１と印とに基づいて、ソートキーに基づいてソートされた複数のレコードを含む結果ファイル２３を生成する。図８を参照しながらステップＳ１４の詳細を説明する。

ステップＳ１４１では、マージ部１５はソート順に従って複数の一時ファイル２２のそれぞれから１レコード（一つの一時レコード）を候補レコードとして選択する。

ステップＳ１４２では、マージ部１５は複数の候補レコードのうち、最小のソートキーに対応するレコードを対象レコードとして結果ファイル２３に書き出す。マージ部１５は対象レコードのレコードデータ部を結果ファイル２３に書き出す。

ステップＳ１４３では、マージ部１５は対象レコードが書き出された一時ファイル２２から次のレコードを選択する。すなわち、マージ部１５は対象レコードに対応するレコードグループ２１から、対象レコードの次のレコードを選択する。

ステップＳ１４４では、マージ部１５は選択されたレコードのキーチェックフラグが１であるか否かを判定する。キーチェックフラグが１である場合には（ステップＳ１４４においてＹＥＳ）、処理はステップＳ１４５に進む。

ステップＳ１４５では、マージ部１５は選択されたレコードを、他の一時ファイル２２から選択されている１以上の候補レコートとの間でソートキーを比較することなく、結果ファイル２３に書き出す。マージ部１５は選択されたレコードのレコードデータ部を結果ファイル２３に書き出す。マージ部１５はステップＳ１４２における対象レコードの書き出しに続けて、選択されたレコードを結果ファイル２３に書き出す。すなわち、マージ部１５は印が設定されたレコードを一つ前のレコードと共に結果ファイル２３に書き出す。２以上のレコードが共に結果ファイル２３に書き出されることは、該２以上のレコードがひとまとまりで結果ファイル２３に記録されることを意味する。印が設定されたレコードのソートキーは、最後に結果ファイル２３に書き出された対象レコードのソートキーと同じである。したがって、マージ部１５は、他の一時ファイルから選択されている１以上の候補レコードのレコードキーと比較する必要がない。ステップＳ１４５の後に処理はステップＳ１４３に進む。ステップＳ１４３ではマージ部１５は対象レコードが書き出された一時ファイル２２から次のレコードを選択し、そのレコードについてステップＳ１４４の処理を実行する。

キーチェックフラグが０である場合には（ステップＳ１４４においてＮＯ）、処理はステップＳ１４６に進む。ステップＳ１４６では、マージ部１５は全てのレコードを結果ファイル２３に書き出したか否かを判定する。未処理のレコードが存在する場合には（ステップＳ１４６においてＮＯ）、処理はステップＳ１４２に戻り、マージ部１５はステップＳ１４２以降の処理を実行する。全てのレコードが結果ファイル２３に書き出された場合には（ステップＳ１４６においてＹＥＳ）、マージ部１５はステップＳ１４を終了する。

ステップＳ１４では、全ての一時レコードの書き出しが終わるタイミングは複数の一時ファイル２２の間で互いに異なる。或る一時ファイル２２について全ての一時レコードが結果ファイル２３に書き出された以降には、その一時ファイル２２についてのステップＳ１４３～Ｓ１４５の処理は実行されない。

図４に戻って、ステップＳ１５では、出力部１６が結果ファイル２３を出力する。出力部１６は結果ファイル２３を、モニタ上に表示してもよいし、所与のデータベースに格納してもよいし、他のコンピュータに送信してもよいし、印刷してもよい。

図９～１１を参照しながら、データ処理システム１によるソートの一例を説明する。図９は、一つのレコードグループ２１から一つの一時ファイル２２を生成する例を示す図である。図１０は複数の一時ファイル２２の例を示し、図１１はそれらの一時ファイル２２から生成される結果ファイル２３の例を示す。図９に示す一時ファイル２２は、図１０に示す３個の一時ファイル２２のうちの一つと同じである。図９～図１１の例では、レコードグループ２１の複数のカラムは、販売月、店舗コード、都道府県コード、地域名、店舗タイプ、店舗住所、店舗連絡先、商品コード、商品名、小カテゴリ、中カテゴリ、大カテゴリ、販売数量、および販売金額である。指定カラムは販売月、店舗コード、都道府県コード、中カテゴリ、および販売数量である。ソートキーは中カテゴリおよび店舗コードによって生成され、第１優先順位が中カテゴリの降順であり、第２優先順位が店舗コードの昇順である。中カテゴリおよび店舗コードはいずれも整数型である。

一例では、データ処理システム１は中カテゴリについて、符号ビットを反転させ、値の補数をビックエンディアンに変換する。また、データ処理システム１は店舗コードについて、符号ビットを判定し、値をビックエンディアンに変換する。そして、データ処理システム１は変換された中カテゴリおよび店舗コードを結合してソートキーを生成する。データ処理システム１はレコードグループ２１をそのソートキーに基づいて昇順にソートする。そして、データ処理システム１はソートされたレコードグループ２１に対してキーチェックフラグとソートキーの削除とによる印を設定しつつ、一時ファイル２２を生成する。図９の例では、レコードグループ２１は、中カテゴリ「５１６」および店舗コード「２」の組合せを有する４レコードを含む。一時ファイル２２では、その４レコードのうち１レコードにソートキーが設定され、残りの３レコードでは、キーチェックフラグ「１」が設定され、ソートキーが削除される。

図１０の例では、３個の一時ファイル２２のいずれも、印が設定されたレコードを含む。元ファイル２０の内容によっては、少なくとも一つの一時ファイル２２において、全ての一時レコードに印が設定されない場合があり得ることに留意されたい。

データ処理システム１はその３個の一時ファイル２２を統合して結果ファイル２３を生成する。ソートキーが「ＦＤＦＢ０００２ｈ」である４レコードは共に結果ファイル２３に書き出される。ソートキーが「ＦＥＥＤ００２Ｃｈ」である３レコード、およびソートキーが「ＦＤＣＤ００３Ｄｈ」である４レコードについても、同様にひとまとまりで結果ファイル２３に書き出される。結果ファイル２３の各レコードは、中カテゴリの降順にかつ店舗コードの昇順にソートされている。図１１の例では、結果ファイル２３は中カテゴリ「２７４」および店舗コード「４４」の組合せを有する３レコードを含み、中カテゴリ「２７４」および店舗コード「４８」の組合せを有する１レコードを含む。図１１の例では、第１優先順位が中カテゴリの降順であり、第２優先順位が店舗コードの昇順であるので、中カテゴリ「２７４」および店舗コード「４４」の組合せを有する３レコードが、中カテゴリ「２７４」および店舗コード「４８」の組合せを有する１レコードの上に位置している。

［変形例］
以上、本開示での様々な例に基づいて詳細に説明した。しかし、本開示は上記の例に限定されるものではない。本開示の技術については、その要旨を逸脱しない範囲で様々な変形が可能である。

上記の例では、マーキング部１４が、キーチェックフラグの設定とソートキーの削除とを印の設定として実行するが、キーチェックフラグの設定とソートキーの削除との一方が省略されてもよい。あるいは、データ処理システムは他の手法を印の設定として実行してもよい。

指定カラムに対応するレコードデータ部が生成されるタイミングは上記の例に限定されない。例えば、データ生成システムは元ファイルを複数のレコードグループに分割する際にレコードデータ部を生成してもよいし、複数の一時ファイルを生成する際にレコードデータ部を生成してもよい。

本開示において、「少なくとも一つのプロセッサが、第１の処理を実行し、第２の処理を実行し、…第ｎの処理を実行する。」との表現、またはこれに対応する表現は、第１の処理から第ｎの処理までのｎ個の処理の実行主体、すなわちプロセッサが途中で変わる場合を含む概念を示す。すなわち、この表現は、ｎ個の処理のすべてが同じプロセッサで実行される場合と、ｎ個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。

少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップの一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。

二つの数値の大小関係の比較では、「以上」および「よりも大きい」という二つの基準のどちらが用いられてもよく、「以下」および「未満」という二つの基準のうちのどちらが用いられてもよい。

［付記］
上記の様々な例から把握されるとおり、本開示は以下に示す態様を含む。
（付記１）
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
複数のカラムおよび複数のレコードを含む元ファイルを取得し、
前記元ファイルを複数のレコードグループに分割し、
前記複数のレコードグループのそれぞれについて、前記複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートし、
前記ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じ前記ソートキーを含むレコードに所定の印を設定し、
前記ソートされた複数のレコードグループと、前記印とに基づいて、前記ソートキーに基づいてソートされた前記複数のレコードを含む結果ファイルを生成する、
データ処理システム。
（付記２）
前記少なくとも一つのプロセッサが、前記印が設定されたレコードを前記一つ前のレコードと共に結果ファイルに書き出す、
付記１に記載のデータ処理システム。
（付記３）
前記少なくとも一つのプロセッサが、
前記一つ前のレコードを対象レコードとして前記結果ファイルに書き出し、
前記対象レコードに対応する前記レコードグループから、前記対象レコードの次のレコードを選択し、
前記選択されたレコードに前記印が設定されている場合には、前記対象レコードに続けて、該選択されたレコードを前記結果ファイルに書き出す、
付記２に記載のデータ処理システム。
（付記４）
前記少なくとも一つのプロセッサが、
前記ソートされた複数のレコードグループのそれぞれから、ソート順に基づいて１レコードを候補レコードとして選択し、
前記ソートキーに基づいて、複数の前記候補レコードのうちの一つを前記対象レコードとして前記結果ファイルに書き出す、
付記３に記載のデータ処理システム。
（付記５）
前記少なくとも一つのプロセッサが、前記一つ前のレコードと同じ前記ソートキーを含む前記レコードに、所定のフラグ値を前記印として設定する、
付記１～４のいずれか一つに記載のデータ処理システム。
（付記６）
前記少なくとも一つのプロセッサが、前記印として、前記一つ前のレコードと同じ前記ソートキーを含む前記レコードから前記ソートキーを削除する、
付記１～５のいずれか一つに記載のデータ処理システム。
（付記７）
複数のカラムおよび複数のレコードを含む元ファイルを取得するステップと、
前記元ファイルを複数のレコードグループに分割するステップと、
前記複数のレコードグループのそれぞれについて、前記複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートするステップと、
前記ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じ前記ソートキーを含むレコードに所定の印を設定するステップと、
前記ソートされた複数のレコードグループと、前記印とに基づいて、前記ソートキーに基づいてソートされた前記複数のレコードを含む結果ファイルを生成するステップと、
をコンピュータに実行させるデータ処理プログラム。
（付記８）
少なくとも一つのプロセッサを備えるデータ処理システムによって実行されるデータ処理方法であって、
複数のカラムおよび複数のレコードを含む元ファイルを取得するステップと、
前記元ファイルを複数のレコードグループに分割するステップと、
前記複数のレコードグループのそれぞれについて、前記複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートするステップと、
前記ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じ前記ソートキーを含むレコードに所定の印を設定するステップと、
前記ソートされた複数のレコードグループと、前記印とに基づいて、前記ソートキーに基づいてソートされた前記複数のレコードを含む結果ファイルを生成するステップと、
を含むデータ処理方法。

付記１，７，８においては、ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じソートキーを含むレコードに所定の印が設定される。そして、ソートされた複数のレコードグループと印とに基づいて、全レコードがソートされた結果ファイルが生成される。その印を参照することで、結果ファイルを生成するときに一つ前のレコードと同じソートキーを含むレコードをソートする負荷を軽減することができる。したがって、データを高速にソートすることができる。

付記２においては、印が設定されたレコードが他のレコードと比較されることなく結果ファイルに書き出される。その比較の回数が減る分だけデータを高速にソートすることができる。

付記３においては、印が設定されたレコードが、他のレコードと比較されることなく、一つ前のレコードに続けて結果ファイルに書き出される。その比較の回数が減る分だけデータを高速にソートすることができる。

付記４においては、複数のレコードグループから選択された複数の候補レコードがソートキーに基づいて比較され、該複数の候補レコードのうちの一つが対象レコードとして結果ファイルに書き出される。必要な場合に限ってレコードグループ間でのレコードの比較が行われるので、データを高速にソートすることができる。

付記５によれば、フラグ値を参照するという簡単な操作によって、一つ前のレコードと同じソートキーを含むレコードを特定することができる。

付記６によれば、他のレコードとの比較が不要なレコードのソートキーが削除されるので、ソートに必要な記憶領域を節約しつつ、データを高速にソートすることができる。

１…データ処理システム、１１…取得部、１２…分割部、１３…ソート部、１４…マーキング部、１５…マージ部、１６…出力部、２０…元ファイル、２１…レコードグループ、２２…一時ファイル、２３…結果ファイル。

Claims

少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
複数のカラムおよび複数のレコードを含む元ファイルを取得し、
前記元ファイルを複数のレコードグループに分割し、
前記複数のレコードグループのそれぞれについて、前記複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートし、
前記ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じ前記ソートキーを含むレコードに所定の印を設定し、
前記ソートされた複数のレコードグループと、前記印とに基づいて、前記ソートキーに基づいてソートされた前記複数のレコードを含む結果ファイルを生成する、
データ処理システム。
前記少なくとも一つのプロセッサが、前記印が設定されたレコードを前記一つ前のレコードと共に結果ファイルに書き出す、
請求項１に記載のデータ処理システム。
前記少なくとも一つのプロセッサが、
前記一つ前のレコードを対象レコードとして前記結果ファイルに書き出し、
前記対象レコードに対応する前記レコードグループから、前記対象レコードの次のレコードを選択し、
前記選択されたレコードに前記印が設定されている場合には、前記対象レコードに続けて、該選択されたレコードを前記結果ファイルに書き出す、
請求項２に記載のデータ処理システム。
前記少なくとも一つのプロセッサが、
前記ソートされた複数のレコードグループのそれぞれから、ソート順に基づいて１レコードを候補レコードとして選択し、
前記ソートキーに基づいて、複数の前記候補レコードのうちの一つを前記対象レコードとして前記結果ファイルに書き出す、
請求項３に記載のデータ処理システム。
前記少なくとも一つのプロセッサが、前記一つ前のレコードと同じ前記ソートキーを含む前記レコードに、所定のフラグ値を前記印として設定する、
請求項１～４のいずれか一項に記載のデータ処理システム。
前記少なくとも一つのプロセッサが、前記印として、前記一つ前のレコードと同じ前記ソートキーを含む前記レコードから前記ソートキーを削除する、
請求項１～４のいずれか一項に記載のデータ処理システム。
複数のカラムおよび複数のレコードを含む元ファイルを取得するステップと、
前記元ファイルを複数のレコードグループに分割するステップと、
前記複数のレコードグループのそれぞれについて、前記複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートするステップと、
前記ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じ前記ソートキーを含むレコードに所定の印を設定するステップと、
前記ソートされた複数のレコードグループと、前記印とに基づいて、前記ソートキーに基づいてソートされた前記複数のレコードを含む結果ファイルを生成するステップと、
をコンピュータに実行させるデータ処理プログラム。
少なくとも一つのプロセッサを備えるデータ処理システムによって実行されるデータ処理方法であって、
複数のカラムおよび複数のレコードを含む元ファイルを取得するステップと、
前記元ファイルを複数のレコードグループに分割するステップと、
前記複数のレコードグループのそれぞれについて、前記複数のカラムのうちの少なくとも一つによって設定されたソートキーに基づいて、該レコードグループをソートするステップと、
前記ソートされた複数のレコードグループのそれぞれについて、一つ前のレコードと同じ前記ソートキーを含むレコードに所定の印を設定するステップと、
前記ソートされた複数のレコードグループと、前記印とに基づいて、前記ソートキーに基づいてソートされた前記複数のレコードを含む結果ファイルを生成するステップと、
を含むデータ処理方法。