JP6197578B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP6197578B2
JP6197578B2 JP2013221305A JP2013221305A JP6197578B2 JP 6197578 B2 JP6197578 B2 JP 6197578B2 JP 2013221305 A JP2013221305 A JP 2013221305A JP 2013221305 A JP2013221305 A JP 2013221305A JP 6197578 B2 JP6197578 B2 JP 6197578B2
Authority
JP
Japan
Prior art keywords
information processing
processes
tuple
unit
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013221305A
Other languages
English (en)
Other versions
JP2015082293A (ja
Inventor
純平 上村
純平 上村
岳彦 柏木
岳彦 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013221305A priority Critical patent/JP6197578B2/ja
Priority to US15/030,473 priority patent/US20160253287A1/en
Priority to PCT/JP2014/065117 priority patent/WO2015059952A1/ja
Publication of JP2015082293A publication Critical patent/JP2015082293A/ja
Application granted granted Critical
Publication of JP6197578B2 publication Critical patent/JP6197578B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関し、特に、タプルを列指向データベースに格納する情報処理装置、情報処理方法およびプログラムに関する。
近年、位置情報などの時々刻々と変化する大量のデータに対して、リアルタイムに分析を行う技術が必要とされている。このため、データベースに対して、高速な参照性能に加えて、高速なデータの挿入性能が求められている。
高速な参照性能が求められる場合には、列指向データベースが用いられる。列指向データベースはデータを属性(カラム、列)毎に分割して保持しており、IO(Input/Output)効率が良く、高速に参照クエリを実行することができる(非特許文献1)。
関連技術として、特許文献1には、共有記憶装置上の共有データへの複数のシステムからのアクセスにおいて、それらのアクセスが1つのシステムに集中することを回避すると共に、ロック機構等の排他制御の必要性をなくした共有データ処理システムが記載されている。また、特許文献2には、ジョブを並列実行する複数のメモリ共用プロセッサと、データの一貫性を保証する手段とを備えた処理システムが記載されている。
特開平08−235046号公報 特表2002−530738号公報
Stonebraker, Mike, et al., "C-Store: A Column-oriented DBMS," Proceedings of the 31st VLDB Conference, Trondheim, Norway (2005).
上記特許文献および非特許文献の全開示内容は、本書に引用をもって繰り込み記載されているものとする。以下の分析は、本発明者らによってなされたものである。
大量に発生するデータに対してリアルタイムにデータ分析を行うためには、高速にデータを格納することが求められる。そこで、マルチコアCPU(Central Processing Unit)や複数の計算機などの計算資源を活用することによって、データ格納処理を並列化し、処理時間を短くする技術が必要とされる。ただし、データ格納処理を並列化した場合においても、1件1件のデータは完全な形で取り出せるようにデータベースに格納されなければならない。この性質は、データベースのトランザクションが備えるべきACID(Atomicity, Consistency, Isolation, Durability)属性のうちの「独立性(I:Isolation)」と呼ばれる。
ここで、列指向データベースにおけるデータの管理方法について、具体例に基づいて説明する。まず、図11、図12を参照しつつ、表形式のデータについて説明する。図11の表形式データは、3つの列(属性)、ColA、ColB、ColCを有している。また、図11の表形式データは、3件以上のタプル(行)を有している。さらに、図11の表形式データには、説明の便宜上、タプル(行)を一意に識別するためにタプル識別子(TID:Tuple Identifier)が設定されている。
列指向データベースでは、N列(N個の属性)から成るタプルをM(≦N)列毎に分割して管理する。図12は、一例として、タプルを1列毎に分割して管理する場合を示す。列毎にデータをまとめて管理することで、異なる列に対するデータ操作を同時並列的に実行でき、マルチコアCPUや複数の計算機などの計算資源を用いた処理性能の向上が可能となる。
図11および図12を参照して説明したようにデータを管理する列指向データベースにおいて、新たに2件のタプルデータとして、(タプル1)={MS−05,1981,3000}と(タプル2)={MS−09,1982,2000}を格納する場合に生じうる問題について説明する。
第1の方法として、タプル間の処理を排他制御する方法が考えられる。例えば、タプル1のデータ格納が完了した後、タプル2の格納を行う方法である。1件のタプルの格納処理は、3つのカラムの格納処理になる。
第1の方法において各列の処理を逐次的に行う場合、同時に実行される処理は列1つ分の格納処理となり、マルチコアCPUや複数の計算機などの計算資源を用いた性能向上を図ることができなくなってしまう。
一方、第1の方法において列データを並列処理する場合にも、次の問題が生じる。タプル間の処理を排他制御し、タプル内のカラム間の処理を並列実行する場合の手順は以下のようになる。(1)ロックを取得する。(2)各列の処理を並列に実行する。(3)すべての列処理の終了を待つ。(4)ロックを開放する。このうち、(3)では処理の同期が行われ、計算コストが大きく、高い並列化効率を得ることが難しい。特に、列の格納処理をするプログラムが別のプロセスや計算機である場合、処理の同期のためのコストはさらに増大する。
以上のように、タプル間の処理を排他制御する第1の方法によると、マルチコアCPUや複数の計算機などの計算資源を十分に用いた性能向上を図ることができないという問題がある。
第2の方法として、タプル間の排他制御を行うことなく、列間の処理を並列に行う方法が考えられる。しかしながら、第2の方法によると、各列でタプルデータの処理順に不整合が生じるおそれがある。例えば、ColAにはタプル1、タプル2の順にデータが格納され、ColBにはタプル2、タプル1の順にデータが格納されると、タプル1とタプル2の値が混合したタプルとして格納されることになり、データ処理の独立性を保障することができない。
なお、特許文献1、2に記載された技術によっても、上述の問題を解消することはできない。
そこで、複素の属性から成る複数のタプルデータをテーブルに格納する処理を、独立性を保証しつつ高速化することが要望される。本発明の目的は、かかる要望に寄与する情報処理装置、情報処理方法およびプログラムを提供することにある。
本発明の第1の視点に係る情報処理装置は、
タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして保持する記憶部と、
複数のタプルを前記複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割し、前記複数の第2の処理の処理順序を決定する順序決定部と、
前記処理順序に従って前記複数の第2の処理をパイプライン方式で実行するパイプライン処理部と、を備える。
本発明の第2の視点に係る情報処理方法は、
情報処理装置が、タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして記憶部に保持する工程と、
複数のタプルを前記複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割する工程と、
前記複数の第2の処理の処理順序を決定する工程と、
前記処理順序に従って前記複数の第2の処理をパイプライン方式で実行する工程と、を含む。
本発明の第3の視点に係るプログラムは、
情報処理装置が、タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして記憶部に保持する処理と、
複数のタプルを前記複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割する処理と、
前記複数の第2の処理の処理順序を決定する処理と、
前記処理順序に従って前記複数の第2の処理をパイプライン方式で実行する処理と、をコンピュータに実行させる。
なお、プログラムは、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)に記録されたプログラム製品として提供することができる。
本発明に係る情報処理装置、情報処理方法およびプログラムによると、複素の属性から成る複数のタプルデータをテーブルに格納する処理を、独立性を保証しつつ高速化することが可能となる。
一実施形態に係る情報処理装置の構成を一例として示すブロック図である。 第1の実施形態に係る情報処理装置の構成を一例として示すブロック図である。 第1の実施形態における情報処理装置におけるパイプライン処理の準備動作を一例として示すフロー図である。 第1の実施形態における情報処理装置におけるステージ実行部の動作を一例として示すフロー図である。 第2の実施形態における情報処理装置の構成を一例として示すブロック図である。 第2の実施形態における情報処理装置におけるステージ実行部の動作を一例として示すフロー図である。 第2の実施形態における情報処理装置におけるデータ参照部の動作を一例として示すフロー図である。 第3の実施形態に係る情報処理装置のユーザインタフェースの構成を一例として示す図である。 第3の実施形態に係る情報処理装置の動作を一例として示すフロー図である。 第4の実施形態における情報処理装置の構成を一例として示すブロック図である。 データベースに格納されるテーブルの例を示す図である。 属性(カラム、列)ごとにデータを記憶する例を説明するための図である。
はじめに、一実施形態の概要について説明する。なお、この概要に付記する図面参照符号は、専ら理解を助けるための例示であり、本発明を図示の態様に限定することを意図するものではない。
図1は、一実施形態に係る情報処理装置100の構成を一例として示すブロック図である。図1を参照すると、情報処理装置100は、記憶部30、順序決定部10およびパイプライン処理部20を備えている。記憶部30は、タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして保持する(図11および図12参照)。順序決定部10は、複数のタプルを複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割し、分割後の複数の第2の処理の処理順序を決定する。パイプライン処理部20は、決定された処理順序に従って複数の第2の処理をパイプライン方式で実行する。
図11および図12に示した例の場合、第1の処理は、TID=1、2、3の3つのタプルを図12に示す3つのテーブルに挿入する処理となる。また、複数の第2の処理は、属性「ColA」の属性データ{MX−30、MS−06、MA−11}を図12の左側のテーブルに挿入する処理(「処理P」という。)と、属性「ColB」の属性データ{2010、1990、1990}を図12の中央のテーブルに挿入する処理(「処理Q」という。)と、属性「ColC」の属性データ{3000、2000、1000}を図12の右側のテーブルに挿入する処理(「処理R」という。)の3つの処理となる。ただし、本発明は1つの第2の処理に対して1つの属性を割り当てる場合に限定されず、1つの第2の処理に対して複数の属性を割り当てるようにしてもよい。
ここで、パイプライン処理部20は、複数の第2の処理をパイプライン方式で実行する複数のステージ実行部22P、22Q、…、22Xを備え、順序決定部10は、複数の第2の処理を、決定された処理順序に従って複数のステージ実行部22P、22Q、…、22Xに割り当てるようにしてもよい。ここで、複数のステージ実行部22P、22Q、…、22Xは、複数の第2の処理のうちの割り当てられた処理を、複数のタプルについて同一の順序で実行する。
図11および図12に示した例の場合、3つのステージ実行部22P、22Q、22Rを用いる。順序決定部10は、一例として、処理P、処理Q、処理Rを、それぞれ、ステージ実行部22P、22Q、22Rに割り当てるようにしてもよい。このとき、ステージ実行部22P、22Q、22Rは、それぞれ、割り当てられた処理P、処理Q、処理Rを、複数のタプルについて同一の順序(例えば、TID=1、2、3の順序)で実行する。なお、1つのステージ実行部に割り当てられる第2の処理の個数は1つに限定されず、1つのステージ実行部に対して複数の第2の処理を割り当てるようにしてもよい。
図2は、パイプライン処理部20の詳細な構成を例示するブロック図である。図2を参照すると、ステージ実行部22P、22Q、22Rは、タプルを識別する識別子を保持するキュー24P、24Q、24Rと、キュー24P、24Q、24Rからデキューした識別子が示すタプルに含まれる属性データを、複数のテーブルのうちの該当するテーブルに挿入するデータ処理部26P、26Q、26Rと、を有することが好ましい。このとき、データ処理部26P(26Q)は、キュー24P(24Q)から識別子をデキューすると、デキューした識別子を後段のステージ実行部22Q(22R)に設けられたキュー24Q(24R)にエンキューする。
かかる情報処理装置によると、複素の属性から成る複数のタプルデータをテーブルに格納する処理を、独立性を保証しつつ高速化することが可能となる。
<実施形態1>
次に、第1の実施形態に係る情報処理装置について、図面を参照して詳細に説明する。本実施形態では、情報処理装置は、複数属性から成るタプルを属性毎にまとめて格納する。
図2は、本実施形態の情報処理装置110の構成を一例として示すブロック図である。図2を参照すると、情報処理装置110は、順序決定部10、パイプライン処理部20、および、記憶部30を備えている。
パイプライン処理部20は、複数のステージ実行部22P、22Q、22Rを備えている。ステージ実行部22P、22Q、22Rは、それぞれ、処理を格納するFIFO(First In First Out)型のキュー24P、24Q、24Rと、データ処理部26P、26Q、26Rを備えている。
ステージ実行部22Pのデータ処理部26Pは、キュー24Pから取り出した(デキューした)処理を実行し、次段のステージ実行部22Qのキュー24Qに処理を追加(エンキュー)する。同様に、ステージ実行部22Qのデータ処理部26Qは、キュー24Qから取り出した処理を実行し、次段のステージ実行部22Rのキュー24Rに処理を追加する。
記憶部30は、1列(属性)毎にデータをまとめて格納する。
なお、本実施形態では、記憶部30は、1列毎にデータをまとめて管理するものとしたが、本発明はこれに限定されない。例えば、記憶部30は、複数の列ごとにデータを管理するようにしてもよい。また、記憶部30が保持するテーブル間で列の数が異なっていてもよい。さらに、本実施形態では、一例として、ステージ実行部22P、22Q、22Rの個数を3個としたが、本発明はこれに限定されない。
[動作]
図3および図4は、本実施形態に係る情報処理装置110(図2)の動作を一例として示すフロー図である。図2ないし図4を参照して、データが空の状態の情報処理装置110に、図11に示す複数属性から成るタプルデータを格納する動作について説明する。図11では、タプル識別子TID=1、2、3までのタプルデータを示しているが、以下では、タプル識別子TID=1、2、3、4を持つタプルを格納するものとする。タプルを格納でする際には、異なるタプル識別子のデータが混合されないようにし、処理の独立性を保つ必要がある。
<パイプライン処理の準備>
パイプライン処理の準備について、図3を参照して説明する。まず、順序決定部10は、タプルデータの格納処理を複数のステージに分割する(ステップA1)。ここでは、一例として、3列から成るタプルの格納を、列毎に3つのステージに分割する場合を考える。各ステージにおける処理は、記憶部30中の列毎のデータ領域に1つの列データを格納する処理となる。
次に、順序決定部10は、ステージの実行順序を決定する(ステップA2)。ここでは、一例として、ステージの処理順を、ColA、ColB、ColCの順とする。
次に、順序決定部10は、各ステージ処理をパイプライン処理部20に設定する(ステップA3)。ここでは、3つのステージに対して、3つのステージ実行部22P、22Q、22Rを用意する。ステージ実行部22P、22Q、22Rは、それぞれ、ColA、ColB、ColCの格納処理を行う。各ステージ実行部での処理の終了後に次段の処理が行われるように、前段のデータ処理部は、次段のキューの情報の設定を行う。
<タプルの格納処理>
次に、実際にデータを格納する様子について、図2および図4を参照して説明する。まず、処理の識別子がステージ実行部22Pのキュー24Pに格納される(ステップB1)。この場合の、処理の識別子は、ColAの格納処理であることと、処理対象のタプルデータを特定するものである。本実施形態では、処理の識別子として、格納対象タプルの識別子であるTIDを用いるものとし、TIDの小さい順に格納されるものとする。なお、本実施形態におけるタプルの格納順序は例示に過ぎず、本発明はこれに限定されない。
ステージ実行部22P、22Q、22Rは、それぞれ、図4のフロー図に従って動作する。ステージ実行部22Pのデータ処理部26Pは、キュー24PからTID=1を取り出し(ステップB2)、次段のステージ実行部22Qのキュー24Qに格納する(ステップB3)。次に、データ処理部26Pは、TID=1のタプルのColAのデータ「MX−30」を記憶部30中のColAの領域32Pに格納する(ステップB4)。
なお、図4のステップB3とステップB4の実行順序は、逆であってもよい。
次に、ステージ実行部22Pのデータ処理部26Pは、TID=2のタプルデータに対しての格納処理を開始する。ステージ実行部22PのTID=2のタプルデータの処理開始に平行して、ステージ実行部22Qのデータ処理部26Qは、キュー24QからTID=1を取り出し(ステップB2)、TID=1を次段のステージ実行部22Rのキュー24Rに格納する(ステップB3)。次に、データ処理部26Qは、TID=1のタプルのColBのデータ「2010」を記憶部30中のColBの領域32Qに格納する(ステップB4)。
同様の処理が、ステージ実行部22Rでも行われ、各カラムの格納処理が同時並列的に行われる。
図2は、上記の処理がステージ実行部22PにおいてTID=3まで終了した状態を示す。図2示した状態において、データ処理部26P、26Q、26Rは、それぞれ、TID=4、3、2の処理を実行することになる。したがって、複数のタプルの挿入処理が、パイプライン処理部により並列処理可能となる。
また、各カラムに対する処理は、最初のキュー24Pに投入された順序が保持されることになるため、処理の独立性を保つことが可能となる。
以上より、本実施形態の情報処理装置110によると、複数属性から成るデータを、1つ以上の属性毎に分割格納する際、データの完全性を損なうことなく、並列処理することを可能にし、データ格納処理を高速化することが可能となる。
<実施形態2>
次に、第2の実施形態に係る情報処理装置について、図面を参照して説明する。本実施形態においても、情報処理装置は、複数属性から成るタプルを属性毎にまとめて格納する。
図5は、本実施形態の情報処理装置120の構成を一例として示すブロック図である。図5を参照すると、情報処理装置120は、格納処理終了済みのタプルを処理対象とするデータ参照部40をさらに備え、記憶部30は格納処理が終了したタプルのTIDを保持する領域34を有する点において、第1の実施形態の情報処理装置110(図2)と相違する。
[動作]
図6および図7は、本実施形態の情報処理装置120の動作を一例として示すフロー図である。図5ないし図7を参照して、データが空の状態の情報処理装置120に、図11に示す複数属性から成るタプルデータを格納する動作について説明する。図11にはタプル識別子TID=1、2、3までのタプルデータを示している。以下では、タプル識別子TID=1、2、3、4を持つタプルを格納するものとする。タプル格納では、異なるタプル識別子のデータが混合されないようにし、処理の独立性を保つ必要がある。
<パイプライン処理の準備>
パイプライン処理の準備については、第1の実施形態に係る情報処理装置110と同様であることから、説明を省略する。
<タプルの格納処理>
実際にデータを格納する動作について、図6を参照して説明する。まず、処理の識別子がステージ実行部22Pのキュー24Pに格納される(ステップC1)。この場合の処理の識別子は、ColAの格納処理であることと、処理対象のタプルデータを特定するものである。本実施形態では、処理の識別子として、格納対象タプルの識別子であるTIDを用いることとし、TIDは小さい順に格納されるものとする。なお、本実施形態におけるタプルの格納順序は例示に過ぎず、本発明はこれに限定されない。
ステージ実行部22P、22Q、22Rは、それぞれ、図6のフロー図に従って動作する。ステージ実行部22Pのデータ処理部26Pは、キュー24PからTID=1を取り出し(ステップC2)、データ処理部26Pは、TID=1のタプルのColAのデータ「MX−30」を記憶部30中のColAの領域32Pに格納する(ステップC3)。
次に、データ処理部26Pは、最後のステージでないため(ステップC4のNo)、TID=1を次段のステージ実行部22Qのキュー24Qに格納する(ステップC5)。次に、ステージ実行部22Pのデータ処理部26Pは、TID=2のタプルデータに対する格納処理を開始する。
ステージ実行部22PのTID=2のタプルデータ処理の開始に平行して、ステージ実行部22Qのデータ処理部26Qは、キュー24QからTID=1を取り出し(ステップC2)、TID=1のタプルのColBのデータ「2010」を記憶部30中のColBの領域32Qに格納する(ステップC3)。
次に、データ処理部26Qは、最後のステージではないため(ステップC4のNo)、TID=1を次段のステージ実行部22Rのキュー24Rに格納する(ステップC5)。
同様に、ステージ実行部22QのTID=2のタプルデータの開始に平行して、ステージ実行部22Rのデータ処理部26Rは、キュー24RからTID=1を取り出し(ステップC2)、TID=1のタプルのColCのデータ「3000」を記憶部30中のColCの領域32Rに格納する(ステップC3)。
次に、データ処理部26Rはタプルデータを処理する最後のステージであるため(ステップC4のYes)、記憶部30中のMaxTIDを格納する領域34のMaxTIDの値を更新(例えば、インクリメント)する。(ステップC6)。
図5は、上記の処理がステージ実行部22PにおいてTID=3まで終了した状態を示している。
本実施形態の情報処理装置120によると、第1の実施形態の情報処理装置110と同様に、タプル処理の独立性を確保しつつ、並列にタプルの格納処理を行うことが可能となる。さらに、本実施形態によると、記憶部30中のMaxTIDの値を参照することにより、タプル挿入処理が終了したタプルのTIDを把握することが可能となる。
本実施形態では、図11の入力データに付与したTIDが図5の格納後のTIDと等しい場合について説明したが、本発明はかかる場合に限定されない。格納後のTIDは、パイプライン処理部への入力順に付けられる連続するタプル管理識別子であればよく、MaxTIDは、現在格納済みのタプル管理識別子であればよい。
<タプルの参照処理>
次に、図5の状態において、データを参照する処理について、図7を参照して説明する。ここでは、参照処理の一例として、ColBの値が2013以下であるタプルの属性「ColA」の値を取得する処理を考える。
まず、データ参照部40は、記憶部30中のMaxTIDの値を格納する領域34を参照し、当該領域に格納された値を取得する(ステップD1)。ここでは、データ参照部40は、MaxTID=1を取得する。
次に、データ参照部40は、TID≦1の範囲で、ColBの値が2013以下であるタプルを検索する(ステップD2)。ここでは、結果として、TID={1}が取得される。データ参照部40は、TID={1}のColAの値「MX−30」を結果として返却する。
本実施形態の情報処理装置120では、上記のようにMaxTIDを用いて参照処理を行うことによって、参照処理開始時点で格納処理が終了しているタプルに対してのみ、参照処理を行うことが可能となる。
<実施形態3>
次に、第3の実施形態に係る情報処理装置について、図面を参照して説明する。
本実施形態の情報処理装置は、第1の実施形態の情報処理装置110(図2)、または、第2の実施形態の情報処理装置120(図5)において、さらに、図8に示すユーザインタフェース50を備えている。情報処理装置のユーザは、ユーザインタフェース50を介して、順序決定部10の動作内容を規定するパラメータを設定する。順序決定部10は、ユーザがユーザインタフェース50に入力した情報に基づいて、図3のステップA1、A2の処理内容を決定する。
図8を参照すると、ユーザインタフェース50は、テーブルを指定する領域52とステージ数(すなわち、複数のタプルをテーブルに挿入する処理の列方向についての分割数)を入力する領域54と、各ステージを示す領域56P、56Q、56Rと各ステージが担当するカラムを選択する領域58P、58Q、58Rを備える。
図8のユーザインタフェース50の動作を、図9のフロー図を参照して説明する。まず、ユーザはテーブル指定領域52にテーブル名を入力する。なお、ユーザは提示されたテーブル名から処理対象のテーブル名を選択するようにしてもよい。順序決定部10は、領域52に入力されたテーブル名に応じて、対象テーブルを取得する(ステップE1)。
次に、ユーザは、ステージ数を入力する領域54にステージ数を入力する。順序決定部10は、領域54に入力されたステージ数を取得する(ステップE2)。
次に、ユーザインタフェース50は、領域54に入力されたステージ数分のカラム選択領域56P、56Q、56Rを表示する(ステップE3)。図8に示した例は、ユーザは、カラムA〜Eから成るテーブルXの挿入処理を3ステージのパイプラインで実行するよう入力した場合を示す。ユーザインタフェース50には、3つのステージを示す領域56P、56Q、56Rの中に、テーブルXのカラムA〜Eを表示する領域58P、58Q、58Rが表示される。
ユーザは、各ステージの担当するカラムを選択する領域58P、58Q、58Rに対して、各ステージが担当するカラムにチェックを入れる。図8は、ユーザが、ステージ1としてカラムAとカラムCの処理を行い、ステージ2としてカラムBの処理を行い、ステージ3としてカラムDとカラムEの処理を行うよう入力した場合を示す。順序決定部10は、ユーザの入力に基づいて、各ステージの処理内容を取得する(ステップE4)。
本実施形態の情報処理装置では、図8に示すユーザインタフェース50を設けたことにより、ユーザが各ステージにおける処理内容を個別に設定することが可能となる。
<実施形態4>
次に、第4の実施形態に係る情報処理装置について、図面を参照して説明する。
図10は、本実施形態の情報処理装置140の構成を一例として示すブロック図である。図10を参照すると、情報処理装置140は、計算機60P、60Q、60R、および、記憶部70を備えている。また、計算機60Pは、順序決定部10およびステージ実行部22Pを備えている。さらに、計算機60Q、60Rは、それぞれ、ステージ実行部22Q、22Rを備えている。また、記憶部70は、記憶ノード72P、72Q、72Rを備えている。
すなわち、本実施形態の情報処理装置140は、第1の実施形態の情報処理装置110(図2)のパイプライン処理部20に含まれるステージ実行部22P、22Q、22Rを、それぞれ、計算機60P、60Q,60Rに分散して配置した構成を有する。さらに、情報処理装置140は、図2に示した領域32P、32Q、32Rのテーブルをそれぞれ保持する記憶ノード72P、72Q、72Rを備えている。
本実施形態におけるステージ実行部22P、22Q、22Rの詳細構成、ならびに、順序決定部10およびステージ実行部22P、22Q、22Rの動作は、第1の実施形態の情報処理装置(図2ないし図4)と同様であるため、説明を省略する。
本実施形態の情報処理装置140によると、複素の列(属性)から成る複数のタプルデータをデータベースに格納する処理を、複数の計算機と複数の記憶ノードを用いて、独立性を保証しつつ高速化することが可能となる。
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成および詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。例えば、パイプライン処理部の各ステージ実行部、記憶部は1つの計算機内に設ける必要はなく、仮想的および物理的に複数の計算機に分散されていてもよい。また、第2の実施形態において、MaxTIDの値は、順序決定部10によって決定されたカラム格納処理の順序において最後のカラムの処理済みTIDと等しい。したがって、記憶部30にMaxTID用の領域34を設ける代わりに、データ参照部40は当該最後のカラムのTIDの値を直接参照するようにしてもよい。
なお、本発明において、下記の形態が可能である。
[形態1]
上記第1の視点に係る情報処理装置のとおりである。
[形態2]
前記パイプライン処理部は、前記複数の第2の処理をパイプライン方式で実行する複数のステージ実行部を備え、
前記順序決定部は、前記複数の第2の処理を前記処理順序に従って前記複数のステージ実行部に割り当てる、形態1に記載の情報処理装置。
[形態3]
前記複数のステージ実行部は、前記複数の第2の処理のうちの割り当てられた処理を、前記複数のタプルについて同一の順序で実行する、形態2に記載の情報処理装置。
[形態4]
前記複数のステージ実行部は、タプルを識別する識別子を保持するキューと、
前記キューからデキューした識別子が示すタプルに含まれる属性データを、前記複数のテーブルのうちの該当するテーブルに挿入するデータ処理部と、を有する、形態3に記載の情報処理装置。
[形態5]
前記データ処理部は、前記キューから識別子をデキューすると、デキューした識別子を後段のステージ実行部に設けられたキューにエンキューする、形態4に記載の情報処理装置。
[形態6]
前記記憶部は、前記複数のタプルのうちの最終段のステージ実行部が処理したタプルの個数を表すカウント値を保持する、形態2ないし5のいずれか1項に記載の情報処理装置。
[形態7]
前記最終段のステージ実行部に設けられたデータ処理部は、前記キューから識別子をデキューすると、デキューした識別子が示すタプルに含まれる属性データを前記複数のテーブルのうちの該当するテーブルに挿入し、前記記憶部が保持するカウント値を更新する、形態6に記載の情報処理装置。
[形態8]
前記順序決定部は、前記第1の処理の分割数を受け付け、受け付けた分割数に応じて前記第1の処理を前記複数の第2の処理に分割する、形態1ないし7のいずれか1項に記載の情報処理装置。
[形態9]
前記順序決定部は、前記複数のタプルに含まれる複数の属性の前記複数の第2の処理への割当てを受け付け、受け付けた割当てに応じて前記複数の属性を前記複数の第2の処理に割り当てる、形態8に記載の情報処理装置。
[形態10]
上記第2の視点に係る情報処理方法のとおりである。
[形態11]
前記複数の第2の処理をパイプライン方式で処理する複数のステージ実行部に対して、前記複数の第2の処理を前記処理順序に従って割り当てる工程を含む、形態10に記載の情報処理方法。
[形態12]
前記複数のステージ実行部は、前記複数の第2の処理のうちの割り当てられた処理を、前記複数のタプルについて同一の順序で実行する、形態11に記載の情報処理方法。
[形態13]
前記複数のステージ実行部が、タプルを識別する識別子をキューに保持する工程と、
前記キューからデキューした識別子が示すタプルに含まれる属性データを、前記複数のテーブルのうちの該当するテーブルに挿入する工程と、を含む、形態12に記載の情報処理方法。
[形態14]
前記複数のステージ実行部は、前記キューから識別子をデキューすると、デキューした識別子を後段のステージ実行部に設けられたキューにエンキューする、形態13に記載の情報処理方法。
[形態15]
前記記憶部が、前記複数のタプルのうちの最終段のステージ実行部が処理したタプルの個数を表すカウント値を保持する工程を含む、形態11ないし14のいずれか1項に記載の情報処理方法。
[形態16]
前記最終段のステージ実行部は、前記キューから識別子をデキューすると、デキューした識別子が示すタプルに含まれる属性データを前記複数のテーブルのうちの該当するテーブルに挿入し、前記記憶部が保持するカウント値を更新する、形態15に記載の情報処理方法。
[形態17]
上記第3の視点に係るプログラムのとおりである。
[形態18]
前記複数の第2の処理をパイプライン方式で実行する複数のステージ実行部に対して、前記複数の第2の処理を前記処理順序に従って割り当てる処理を、前記コンピュータに実行させる、形態17に記載のプログラム。
[形態19]
前記複数の第2の処理のうちの割り当てられた処理を、前記複数のタプルについて同一の順序で実行する処理を、前記複数のステージ実行部に実行させる、形態18に記載のプログラム。
[形態20]
タプルを識別する識別子をキューに保持する処理と、
前記キューからデキューした識別子が示すタプルに含まれる属性データを、前記複数のテーブルのうちの該当するテーブルに挿入する処理と、を前記複数のステージ実行部に実行させる、形態19に記載のプログラム。
[形態21]
前記キューから識別子をデキューすると、デキューした識別子を後段のステージ実行部に設けられたキューにエンキューする処理を、前記複数のステージ実行部に実行させる、形態20に記載のプログラム。
なお、上記特許文献および非特許文献の全開示内容は、本書に引用をもって繰り込み記載されているものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各請求項の各要素、各実施形態の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
10 順序決定部
20 パイプライン処理部
22P、22Q、22R、…、22X ステージ実行部
24P、24Q、24R キュー
26P、26Q、26R データ処理部
30、70 記憶部
32P、32Q、32R、34 領域
40 データ参照部
50 ユーザインタフェース
60P、60Q、60R 計算機
72P、72Q、72R 記憶ノード
52、54、56P、56Q、56R、58P、58Q、58R 領域
100、110、120、140 情報処理装置

Claims (10)

  1. タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして保持する記憶部と、
    複数のタプルを前記複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割し、前記複数の第2の処理の処理順序を決定する順序決定部と、
    前記処理順序に従って前記複数の第2の処理をパイプライン方式で実行するパイプライン処理部と、を備える、情報処理装置。
  2. 前記パイプライン処理部は、前記複数の第2の処理をパイプライン方式で実行する複数のステージ実行部を備え、
    前記順序決定部は、前記複数の第2の処理を前記処理順序に従って前記複数のステージ実行部に割り当てる、請求項1に記載の情報処理装置。
  3. 前記複数のステージ実行部は、前記複数の第2の処理のうちの割り当てられた処理を、前記複数のタプルについて同一の順序で実行する、請求項2に記載の情報処理装置。
  4. 前記記憶部は、前記複数のタプルのうちの最終段のステージ実行部が処理したタプルの個数を表すカウント値を保持する、請求項3に記載の情報処理装置。
  5. 前記複数のステージ実行部は、タプルを識別する識別子を保持するキューと、
    前記キューからデキューした識別子が示すタプルに含まれる属性データを、前記複数のテーブルのうちの該当するテーブルに挿入するデータ処理部と、を有する、請求項に記載の情報処理装置。
  6. 前記データ処理部は、前記キューから識別子をデキューすると、デキューした識別子を後段のステージ実行部に設けられたキューにエンキューする、請求項に記載の情報処理装置。
  7. 前記最終段のステージ実行部に設けられたデータ処理部は、前記キューから識別子をデキューすると、デキューした識別子が示すタプルに含まれる属性データを前記複数のテーブルのうちの該当するテーブルに挿入し、前記記憶部が保持するカウント値を更新する、請求項5又は6に記載の情報処理装置。
  8. 情報処理装置が、タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして記憶部に保持する工程と、
    複数のタプルを前記複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割する工程と、
    前記複数の第2の処理の処理順序を決定する工程と、
    前記処理順序に従って前記複数の第2の処理をパイプライン方式で実行する工程と、を含む、情報処理方法。
  9. 前記複数の第2の処理をパイプライン方式で処理する複数のステージ実行部に対して、前記複数の第2の処理を前記処理順序に従って割り当てる工程を含む、請求項8に記載の情報処理方法。
  10. 情報処理装置が、タプルに含まれる複数の属性データを属性ごとに異なる複数のテーブルとして記憶部に保持する処理と、
    複数のタプルを前記複数のテーブルに挿入する第1の処理を、属性を単位として複数の第2の処理に分割する処理と、
    前記複数の第2の処理の処理順序を決定する処理と、
    前記処理順序に従って前記複数の第2の処理をパイプライン方式で実行する処理と、をコンピュータに実行させる、プログラム。
JP2013221305A 2013-10-24 2013-10-24 情報処理装置、情報処理方法およびプログラム Active JP6197578B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013221305A JP6197578B2 (ja) 2013-10-24 2013-10-24 情報処理装置、情報処理方法およびプログラム
US15/030,473 US20160253287A1 (en) 2013-10-24 2014-06-06 Information processing device, information processing method, and recording medium
PCT/JP2014/065117 WO2015059952A1 (ja) 2013-10-24 2014-06-06 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013221305A JP6197578B2 (ja) 2013-10-24 2013-10-24 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015082293A JP2015082293A (ja) 2015-04-27
JP6197578B2 true JP6197578B2 (ja) 2017-09-20

Family

ID=52992563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013221305A Active JP6197578B2 (ja) 2013-10-24 2013-10-24 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20160253287A1 (ja)
JP (1) JP6197578B2 (ja)
WO (1) WO2015059952A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357535A (zh) * 2017-07-20 2017-11-17 郑州云海信息技术有限公司 一种确定数据冷热等级的方法及装置
US11516152B2 (en) * 2019-09-28 2022-11-29 Tencent America LLC First-in first-out function for segmented data stream processing

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873075A (en) * 1997-06-30 1999-02-16 International Business Machines Corporation Synchronization of SQL actions in a relational database system
US9626421B2 (en) * 2007-09-21 2017-04-18 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh ETL-less zero-redundancy system and method for reporting OLTP data
JP5256685B2 (ja) * 2007-10-18 2013-08-07 日本電気株式会社 情報処理装置
US20110264667A1 (en) * 2010-04-27 2011-10-27 Stavros Harizopoulos Column-oriented storage in a row-oriented database management system
JP5999351B2 (ja) * 2012-03-26 2016-09-28 日本電気株式会社 データベース処理装置、方法、プログラム及びデータ構造

Also Published As

Publication number Publication date
JP2015082293A (ja) 2015-04-27
US20160253287A1 (en) 2016-09-01
WO2015059952A1 (ja) 2015-04-30

Similar Documents

Publication Publication Date Title
US20160188669A1 (en) Partitioning and repartitioning for data parallel operations
JP5730386B2 (ja) 計算機システム及び並列分散処理方法
US9195701B2 (en) System and method for flexible distributed massively parallel processing (MPP) database
CN104615736B (zh) 基于数据库的大数据快速解析存储方法
WO2015027425A1 (zh) 存储数据的方法和装置
JP5939123B2 (ja) 実行制御プログラム、実行制御方法および情報処理装置
JP2011039820A (ja) ストリームデータ処理方法及び装置
CN110955732B (zh) 一种用于在Spark环境中实现分区负载均衡的方法和系统
CN114756629B (zh) 基于sql的多源异构数据交互分析引擎及方法
CN107633001A (zh) 哈希分区优化方法和装置
US20230342399A1 (en) System, method, and apparatus for data query using network device
JP6197578B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN112000845B (zh) 一种基于gpu加速的超空间哈希索引方法
WO2021004266A1 (zh) 数据插入方法、装置、设备和储存介质
US9317809B1 (en) Highly scalable memory-efficient parallel LDA in a shared-nothing MPP database
Glatter et al. Scalable data servers for large multivariate volume visualization
WO2014051071A1 (ja) 分散ストレージ装置、ストレージノード、データ提供方法およびプログラム
JP5464017B2 (ja) 分散メモリデータベースシステム、データベースサーバ、データ処理方法およびそのプログラム
AU2020200649A1 (en) Apparatus and method for managing storage of primary database and replica database
CN102087655A (zh) 一种能体现人际关系网的网站系统
Fukuda et al. Improving response time for Cassandra with query scheduling
US10019472B2 (en) System and method for querying a distributed dwarf cube
CN107784032A (zh) 一种数据查询结果的渐进式输出方法、装置及系统
CN106570038A (zh) 一种分布式数据处理方法及系统
CN117827848B (zh) 哈希连接方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170807

R150 Certificate of patent or registration of utility model

Ref document number: 6197578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150