JP2019035996A - 分散処理システム、分散処理方法、及び分散処理プログラム - Google Patents

分散処理システム、分散処理方法、及び分散処理プログラム Download PDF

Info

Publication number
JP2019035996A
JP2019035996A JP2017155083A JP2017155083A JP2019035996A JP 2019035996 A JP2019035996 A JP 2019035996A JP 2017155083 A JP2017155083 A JP 2017155083A JP 2017155083 A JP2017155083 A JP 2017155083A JP 2019035996 A JP2019035996 A JP 2019035996A
Authority
JP
Japan
Prior art keywords
processing
unit
data
flow
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017155083A
Other languages
English (en)
Other versions
JP6940325B2 (ja
Inventor
隆文 小池
Takafumi Koike
隆文 小池
宏明 郡浦
Hiroaki Konoura
宏明 郡浦
貴央 小川
Takahisa Ogawa
貴央 小川
大剛 関根
Daigo Sekine
大剛 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017155083A priority Critical patent/JP6940325B2/ja
Publication of JP2019035996A publication Critical patent/JP2019035996A/ja
Application granted granted Critical
Publication of JP6940325B2 publication Critical patent/JP6940325B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】複数の区画からなる所定のデータを区画ごとに処理する処理部を複数備える所定の処理において、データを安定的に分散して処理する。【解決手段】処理部の処理を複数の情報処理装置のうち少なくともいずれかに割り当てることにより処理部を並列的に実行可能な分散処理システムの仮想マシン管理サーバは、、区画のデータに対する複数の処理部の処理順序を記憶するフローテーブル記憶部211と、処理部が行う区画のデータの処理による情報処理装置に対する負荷を、区画ごとに算出する処理負荷算出部201と、各処理部の現在の実行状態、各処理部の処理順序及び各処理部について算出した負荷に基づき、並列的に実行される処理部及び当該処理部を実行する情報処理装置の組み合わせを決定するフロー管理部202と、決定した組み合わせが示す並列的な処理を各情報処理装置に実行させるマシン制御部203と、を備える。【選択図】図3

Description

本発明は、分散処理システム、分散処理方法、及び分散処理プログラムに関する。
近年、大量のデータを分析することにより新たな知見を得、これを活用していくというビッグデータ技術が注目されている。このような大量のデータを分析する手法としては、統計解析や機械学習等、様々な手法が存在する。さらに、データの整形といった他の手法を組み合わせることも行われている。これらの複数の手法を組み合わせる場合には、例えば、データの処理順序を分析フローに対応づけて予め決定しておき、前提となる処理が完了し次第、その処理の結果得られたデータを、次の処理の入力データとして用いることにより、最終的な結果を得ることができる。その結果を参照しても適当な知見が得られなければ、手法や条件を変更することで新たな分析フローを決定する。このように、大量のデータの分析は試行錯誤の繰り返しが必要となるため、データの処理量が多くなって分析に要する時間が長くなる場合が多い。
そこで一般的には、処理の時間を短縮するために、単一の計算機でデータを処理するのではなく、複数の計算機が分散して並列処理を行う。例えば、分析対象のデータを、分散ファイルシステム等を用いたデータレイクと呼ばれるシステムに格納しておく。そして、複数の計算機が、このデータレイクにおけるデータを複数の区間に分割して読み出し、読み出したデータを整形し又は分析し、分析したデータをデータレイク等に格納し、その内容をユーザに表示する。さらに、データの分析処理は一時的な処理であることから、構築が容易な仮想マシンシステムを活用する。すなわち、データの分析処理が必要なときに各仮想マシンを起動してこれらに分析処理を分散して実行させることで、当該分析処理に係るリソースの使用量を抑えることができる。
仮想マシンにリソースを割り当てる際には、動作が不安定とならないようにするべく、予め定めた量を超えて各仮想マシンにリソース配分を行わないように配分を管理する手法が知られている。例えば、特許文献1には、計算機管理システムが、仮想マシンのうちで、リソースの平均使用率が予め決められているポリシー値を超えているものがあった場合に、ポリシー値を満たすように、ポリシー値を満たす他の仮想マシンからリソースを確保し、リソースを引き受ける仮想マシンのある物理サーバの余剰リソースより、前記確保したリソース容量が大きい場合、物理サーバのリソース容量を超えないようにリソース配分する変更指示を出すことが記載されている。
特開2014−130413号公報
しかしながら、仮想マシン上で複数のデータ分析を実行する場合、データの分析内容が異なれば処理に利用するリソースの配分も異なってくるので、その結果、データ処理を効率よく行えない場合が生じる。特許文献1に記載の技術では、分析処理中、各データ分析の実行順序制約と物理サーバのリソース容量制約とを固定的に保持したままであるので、各データ分析の間でのリソースの配分も固定的となる。その結果、データ処理が不安定となり、処理の遅延が発生する等の問題が生じる可能性がある。
本発明はこのような現状に鑑みてなされたものであり、データを安定的に分散して処理することが可能な分散処理システム、分散処理方法、及び分散処理プログラムを提供することにある。
以上の課題を解決するための本発明の一つは、複数の情報処理装置を含んで構成され、複数の区画からなる所定のデータを前記区画ごとに処理する処理部を複数備える所定の処理について、前記処理部の処理を前記複数の情報処理装置のうち少なくともいずれかに割り当てることにより前記処理部を並列的に実行可能な、プロセッサ及びメモリを備える分散処理システムであって、前記区画のデータに対する前記複数の処理部の処理順序を記憶するフローテーブル記憶部と、前記処理部が行う前記区画のデータの処理による前記情報処理装置に対する負荷を、前記区画ごとに算出する処理負荷算出部と、各前記処理部の現在の実行状態、各前記処理部の処理順序、及び各前記処理部について算出した前記負荷に基づき、並列的に実行される前記処理部、及び当該処理部を実行する前記情報処理装置の組み合わせを決定するフロー管理部と、前記決定した組み合わせが示す並列的な処理を各前記情報処理装置に実行させるマシン制御部と、を備える。
本発明によれば、データを安定的に分散して処理することができる。
図1は、本実施形態に係る分散処理システム100の構成の一例を示す図である。 図2は、分散処理システム100における各情報処理装置(仮想マシン管理サーバ101、仮想マシン実行サーバ102、データレイク104、及びユーザ操作端末105)が備えるハードウェア構成の一例を示す図である。 図3は、各情報処理装置が備える機能の一例を説明する図である。 図4は、分析フローテーブル300の一例を示す図である。 図5は、処理状態管理テーブル400の一例を示す図である。 図6は、VM管理テーブル500の一例を示す図である。 図7は、分散処理システム100が行う分析処理の一例を示すシーケンス図である。 図8は、フロー実行対象判定処理の詳細を説明するフローチャートである。 図9は、仮想マシン割当判定処理の詳細を示すフローチャートである。 図10は、ユーザ操作端末105が表示する、分析処理の経過又は結果を示す画面の一例である。 図11は、従来の分散処理システムにおいて分析処理を実行した場合における、仮想マシン実行サーバ102及びデータレイク104のハードウェアリソースの使用状況の時系列変化の一例を示す図である。 図12は、本実施形態の分散処理システム100において分析処理を実行した場合における仮想マシン実行サーバ102及びデータレイク104のハードウェアリソース使用状況の時系列変化の一例を示す図である。
<システム構成>
図1は、本実施形態に係る分散処理システム100の構成の一例を示す図である。分散処理システム100は、所定のデータ(以下、対象データという)の変化を分析する処理(以下、分析処理という)を行う情報処理システムである。
対象データは、例えば、温度、圧力、速度の時間変化のデータであり、大量に存在する
、いわゆるビッグデータ(Big Data)である。この対象データは複数のデータ区画からなり、例えば、所定の時間帯ごとに区切られたデータからなる。
図1に示すように、分散処理システム100は、対象データを記憶するデータベースであるデータレイク104と、データレイク104から対象データを読み込んで分析処理を実行する少なくとも1台の仮想マシン103(いわゆる仮想サーバ)を備える仮想マシン実行サーバ102と、仮想マシン103のそれぞれに対して分析処理に関する指示を行う仮想マシン管理サーバ101と、分散処理システム100の管理者や使用者等(以下、ユーザという)が使用する、分析処理に関する指示や分析処理に関する情報の表示を行うユーザ操作端末105とを含んで構成されている。
なお、仮想マシン管理サーバ101、仮想マシン実行サーバ102、データレイク104、及びユーザ操作端末105の各情報処理装置の間は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等からなるネットワ
ーク108により通信可能に接続されている。
分析処理は、対象データを処理する複数の処理部(以下、分析フローともいう)を含んで構成されている。分析フローは、例えば、種々の統計解析の処理や、機械学習に係る処理等、ビッグデータを処理、分析するための様々な処理があり得る。
仮想マシン103は、分散処理システム100において少なくとも2台以上設けられており、分散処理システム100は、分析処理における各分析フロー(より具体的には、各データ区画におけるデータの処理)を複数の仮想マシン103のうち少なくともいずれかに割り当てることにより各分析フローを複数の仮想マシン103により並列的に実行可能である。
なお、図2は、分散処理システム100における各情報処理装置(仮想マシン管理サーバ101、仮想マシン実行サーバ102、データレイク104、及びユーザ操作端末105)が備えるハードウェア構成の一例を示す図である。同図に示すように、各情報処理装置は、CPU(Central Processing Unit)などのプロセッサ51と、RAM(Random Access Memory)、ROM(Read Only Memory)等の主記憶装置52と、HDD(Hard Disk
Drive)、SSD(Solid State Drive)等の補助記憶装置53と、キーボード、マウス
、タッチパネル等からなる入力装置54と、モニタ(ディスプレイ)等からなる出力装置55とを備える。
なお、図1には示していないが、データレイク104に対して、対象データの時間変化を計測する情報処理装置(各種サーバ、センサ等)を接続し、これらの情報処理装置がその測定値(対象データ)をデータレイク104に送信して記憶させるものとしてもよい。
次に、各情報処理装置が備える機能について説明する。
<機能>
図3は、各情報処理装置が備える機能の一例を説明する図である。
まず、仮想マシン管理サーバ101は、フローテーブル記憶部211、処理状態管理テーブル記憶部212、処理負荷算出部201、フロー管理部202、マシン管理テーブル記憶部213、及びマシン制御部203を備える。
フローテーブル記憶部211は、前記区画のデータに対する前記複数の処理部の処理順序を記憶する。
すなわち、フローテーブル記憶部211は、分析フローテーブル300を備える。分析
フローテーブル300の詳細は後述する。
処理状態管理テーブル記憶部212は、各分析フローの現在の実行状態を処理状態管理テーブル400に記憶する。処理状態管理テーブル400の詳細は後述する。
マシン管理テーブル記憶部213は、前記情報処理装置(仮想マシン103)による前記処理部の並列的な実行に関する制約条件を記憶する。
具体的には、前記マシン管理テーブル記憶部213は、前記制約条件として、並列的に前記処理部を実行可能な前記情報処理装置の最大数を記憶する。
すなわち、マシン管理テーブル記憶部213は、VM管理テーブル500を備える。VM管理テーブル500の詳細は後述する。
処理負荷算出部201は、前記処理部(分析フロー)が行う前記区画のデータの処理による前記情報処理装置(仮想マシン103)に対する負荷を、前記区画ごとに算出する。
具体的には、前記処理負荷算出部201は、前記負荷として、前記処理部の処理の実行に係る予測時間を各前記処理部について算出する。
フロー管理部202は、各前記処理部(分析フロー)の現在の実行状態、各前記処理部の処理順序、及び処理負荷算出部201が各前記処理部について算出した前記負荷に基づき、並列的に実行される前記処理部、及び当該処理部を実行する前記情報処理装置の組み合わせを決定する。
具体的には、前記フロー管理部202は、前記制約条件を満たす前記情報処理装置を、前記処理部を並列的に実行する前記情報処理装置(仮想マシン103)として決定する。
また、前記フロー管理部202は、並列的に実行される前記処理部(分析フロー)が複数ある場合、処理負荷算出部201が前記算出した予測時間に基づき、前記複数の処理部のそれぞれに対して割り当てる前記情報処理装置(仮想マシン103)又はその割り当てに関する優先度を決定する。
また、前記フロー管理部202は、前記並列的に実行される複数の処理部のうち前記予測時間を算出していない前記処理部がある場合には、前記複数の処理部のそれぞれを実行する前記情報処理装置の台数を互いに均等とする。
また、前記フロー管理部202は、並列的に実行される前記処理部を決定する際に、当該処理部が処理可能な前記データの区画が複数ある場合には、予め定められた、最初に処理される前記データの区画のみを前記処理部が処理することを決定する。
マシン制御部203は、フロー管理部202が前記決定した組み合わせが示す並列的な処理を各前記情報処理装置に実行させる。
次に、仮想マシン実行サーバ102は、仮想マシン103を動作させる。仮想マシン103は、送受信部204及び分析処理部205を備える。
送受信部204は、分析処理に関するデータの送受信を行う。分析処理部205は、種々の統計解析機能を備え、例えば、データの抽出、分析、及び記憶を行うことで分析処理における各分析フローを実行する。
データレイク104は、データ保存部206及びデータ読み書き部207を備える。データ保存部206は、対象データを記憶し、また、仮想マシン103からのデータの読み出し要求や書き込み要求に応じて、対象データを含む種々のデータの送受信を行う。データ読み書き部207は、対象データを含む各種データの読み出し及びデータの書き込みを行う。
データレイク104が記憶している対象データは、例えば、所定のフォーマットに従った複数のデータの集合である。例えば、対象データが時系列のデータである場合、対象データはその時刻又は時間帯に対応して前記の複数のデータ区画に分割されている。分析フローは、各データ区画のデータに対して所定の分析処理を行う。
なお、以下では、分析フローにおいて、あるデータ区画のデータを処理する処理を、区間フローという。
ユーザ操作端末105は、出力部208を備える。出力部208は、各前記情報処理装置が実行した前記処理部の処理の結果、又は前記処理部の処理により発生したデータの入出力量に関する情報を出力する。
次に、分散処理システム100が記憶している各テーブル(データベース)について説明する。
<分析フローテーブル>
図4は、分析フローテーブル300の一例を示す図である。同図に示すように、分析フローテーブル300は、分析フローの識別情報(以下、フロー名という)が格納されるフロー名611、フロー名611が示す分析フローに入力されるデータ(又はその種類)を特定する情報が格納される入力612、フロー名611が示す分析フローが実行する処理の種類を示す情報(例えば、統計解析や機械学習の種類に関する情報)が格納される処理方法613、及び、フロー名611が示す分析フローから出力されるデータ(又はその種類)を特定する情報が格納される出力614の各項目を有する、少なくとも1つ以上のレコードで構成されている。
なお、以下では、フロー名611が示す分析フローが分析処理において最初に実行される処理である場合に入力612に格納されるデータを、初期入力データという。また、フロー名611が示す分析フローが分析処理において最後に実行される処理である場合に出力614に格納されるデータを、最終出力データという。そして、それ以外の場合の入力612又は出力614に格納されるデータを、中間データという。
同図の例では、「分析処理A」は最初からデータレイク104に保存されている対象データを読み込み(受信し)、「分析処理B」は「分析処理A」が出力した「中間データA」を読み込み(受信し)、「分析処理C」は「分析処理B」が出力した「中間データB」を読み込む(受信する)。「分析処理A」に入力されるデータは初期入力データであり、また、「分析処理A」と「分析処理B」が出力するデータは中間データであり、「分析処理C」が出力するデータは最終出力データである。
このように、分析フローテーブル300は、各分析フローが送信又は受信するデータを特定する情報を記憶することで、分析処理における各分析フロー間の処理順序について規定している。なお、分析フローテーブル300の内容は、例えば、分析処理の前にユーザによって予め入力される。
<処理状態管理テーブル>
図5は、処理状態管理テーブル400の一例を示す図である。処理状態管理テーブル400は、分析フローテーブル300が規定する分析フローの処理順序を前提に、その分析フローにおける区間フローの実行状態について記憶している。
すなわち、処理状態管理テーブル400は、フロー名が格納されるフロー名621、フロー名621が示す分析フローにおける区間フローの識別情報(以下、区間名という)が格納される区間名622、区間名622が示す区間フローの現在の実行状態(例えば、実行中であるか(「実行中」)、実行が完了したか(「実行完了」)、実行されていないが実行が可能な状態であるか(「実行可能」)、又は、実行を開始するのに必要なデータが生成されていないため実行が不可能であるか(「実行不可」)等)を示す情報が格納される実行状態623、実行状態623に「実行完了」が格納されている場合に、その実行に要した時間(以下、実行時間という)が格納される処理時間624、及び、区間名622が示す区間フローの実行に要する時間の推定時間(予測時間)が格納される予測時間625の各項目を有する、少なくとも1つ以上のレコードで構成されている。なお、予測時間625には、処理時間624に実行時間が格納されていない場合(すなわち、区間名622が示す区間フローの実行が完了していない場合)に、予測時間が格納される。
予測時間は、後述するように、例えば、過去に実行された他の区間フローの実行時間に基づいて算出される。
同図の例では、「分析処理A」の区間フローである「区間A」は実行が完了しているため、処理時間624に「12分」が記録されている。また、「分析処理A」の「区間C」は、同じ種類の統計解析が行われた「区間A」の実行が完了していることから、前記と同じ「12分」が予測時間625に記録されている。なお、予測時間625には、各区間フローの間の予測時間の正確な比較のために、単一の仮想マシン103が当該区間フローを実行した場合の予測時間が格納される。
処理状態管理テーブル400の内容は、所定のタイミング、又は所定の時間間隔で更新される。
<VM管理テーブル>
図6は、VM管理テーブル500の一例を示す図である。同図に示すように、VM管理テーブル500は、仮想マシン実行サーバ102の識別情報(以下、実行サーバ名という)が格納される実行サーバ名711、実行サーバ名711が示す仮想マシン実行サーバ102における仮想マシン103に対して分析フロー(における区間フロー)を割り当てることが可能な仮想マシン103の最大の台数(以下、最大数という)を示す情報が格納される最大VM割当可能数712、及び、実行サーバ名711が示す仮想マシン実行サーバ102に現在割り当てられている仮想マシン103の台数(以下、現在台数という)を示す情報が格納される割当VM数713の各項目を有する、少なくとも1つ以上のレコードで構成される。
なお、VM管理テーブル500の割当VM数713の内容は、所定のタイミング(例えば、所定の時間間隔、仮想マシン103の起動時、又は仮想マシン103の停止時)にて更新される。その他の項目は、例えば、ユーザによって分析処理の実行前に入力される。
同図の例では、「実行サーバA」、「実行サーバB」、及び「実行サーバC」の3台の仮想マシン実行サーバ102が登録されており、全ての仮想マシン実行サーバ102の最大数が「4」である。
以上に説明した各情報処理装置の機能は、各情報処理装置のハードウェアによって、もしくは、各情報処理装置のプロセッサ51が、主記憶装置52や補助記憶装置53に記憶されている各プログラムを読み出して実行することにより実現される。なお、このプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、又は、ICカード、SDカード、DVDなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。
次に、分散処理システム100で行われる各処理について説明する。
<分析処理>
図7は、分散処理システム100が行う分析処理の一例を示すシーケンス図である。この処理は、例えば、ユーザ操作端末105から仮想マシン管理サーバ101に、実行する分析処理を指定する情報が入力された際に開始される。
まず、仮想マシン管理サーバ101のフロー管理部202は、指定された分析処理において、仮想マシン103により並列的に実行する分析フロー(以下、対象フローという)及びその区間フロー(以下、対象区間フローという)を特定する処理(以下、フロー実行対象判定処理という)を実行する(S301)。この処理の詳細は後述する。
次に、フロー管理部202は、S301で特定した各対象フロー及び対象区間フローの情報を付帯させた、各仮想マシン103への処理の割り当ての指示を、マシン制御部203に送信する(S302)。
マシン制御部203は、前記の指示を受信すると、各対象フローにおける各対象区間フローを、仮想マシン103のいずれに割り当てて並列処理を各仮想マシン103に実行させるかを決定する処理(以下、仮想マシン割り当て判定処理という)を実行する(S303)。この処理の詳細は後述する。なお、この処理の終了後、マシン制御部203はVM管理テーブル500を更新する。
マシン制御部203は、S303により処理を割り当てた各仮想マシン103に対して、当該仮想マシン103の起動の指示を送信する(S304)。そして、フロー管理部202は、S304により起動した各仮想マシン103に対して、当該仮想マシン103に割り当てられた対象区間フローの実行(並列処理の実行)の指示を、各仮想マシン103に送信する(S305)。
指示の送信を仮想マシン管理サーバ101から受信した各仮想マシン103の送受信部204は、分析処理部205に、対象区間フローを実行する指示を行う(S306)。
S306により指示を受けた各仮想マシン103の各分析処理部205は、自身に割り当てられた対象区間フローを実行する(S307)。
例えば、ある分析処理部205は、データレイク104のデータ保存部206から対象フローの初期入力データを読み出して対象区間フローを実行する。また、他の分析処理部205は、中間データに基づき対象区間フローを実行する。また、さらに他の分析処理部205は、対象区間フローを実行して最終出力データを出力し、これをデータレイク104のデータ保存部206に送信する。
なお、複数の仮想マシン103(分析処理部205)が同一の対象フローの同一の対象区間フローを並列して実行する場合、その各分析処理部205は、例えば、初期入力データ又は中間データを分割して当該分析処理部205に割り当て、各分析処理部205は割り当てられたデータに基づき、対象区間フローを並列して実行する。
各仮想マシン103の各分析処理部205は、自身に割り当てられた対象区間フローの実行を終えると、その旨の通知を送受信部204に送信する(S308)。
各仮想マシン103の送受信部204は、前記の通知を分析処理部205から受信すると、対象区間フローの実行が終了した旨の通知を、仮想マシン管理サーバ101のフロー管理部202に送信する(S309)。
フロー管理部202は、S305で実行の指示を送信した全ての仮想マシン103から前記の終了の通知を受信すると、マシン制御部203に、S302で指示した割り当てを解放する旨の指示を送信する(S310)。この指示を受信したマシン制御部203は、割り当ての対象となっていた全ての仮想マシン103の動作(実行)を停止させる(S311)。
その後、マシン制御部203は、現在の各仮想マシン103の各分析フロー(区間フロー)の実行状態を各仮想マシン103から取得し、取得した状態に基づきVM管理テーブル500を更新する(S312)。具体的には、例えば、マシン制御部203は、VM管理テーブル500の割当VM数713の値を、現在、分析フロー(区間フロー)を実行している仮想マシン103の数で更新する。
次に、フロー管理部202は、分析処理の実行状態に関する情報を生成して更新する(S313)。
具体的には、まず、フロー管理部202は、各仮想マシン103が行った対象区間フローの実行時間を算出する。例えば、フロー管理部202は、S304の処理を行った時刻からS309の処理を行った時刻までの時間を実行時間として算出する。
また、フロー管理部202は、処理負荷算出部201に、算出した対象区間フローの実行時間に基づき、未だ実行していない区間フローの予測時間を算出する旨を指示する。具体的には、例えば、処理負荷算出部201は、前記で実行時間を算出した対象区間フローと同じ種類の統計解析を行う、未実行の分析フローの各区間フローの予測時間を前記の実行時間と同じにする。なお、実行時間を算出した対象区間フローが複数の仮想マシン103で実行されていた場合には、これに基づく予測時間を、単一の仮想マシン103が処理を実行した場合の時間に変換する。
フロー管理部202は、以上のようにして算出した実行時間及び予測時間を、処理状態管理テーブル400に記憶する。具体的には、処理状態管理テーブル記憶部212は、算出した各対象区間フローの実行時間を処理状態管理テーブル400の各レコードの処理時間624に格納し、各予測時間を処理状態管理テーブル400の各レコードの予測時間625に格納する。
以上のS301からS313までの処理が、全ての分析フローが実行を完了するまで繰り返される。以上で分析処理は終了する。
次に、前記のフロー実行対象判定処理及び仮想マシン割り当て判定処理の詳細を説明する。
<フロー実行対象判定処理>
図8は、フロー実行対象判定処理の詳細を説明するフローチャートである。同図に示すように、フロー管理部202は、まず、現在実行可能な分析フローが1つだけであるか否
かを判断する(S401)。具体的には、例えば、フロー管理部202は、処理状態管理テーブル400の各レコードの実行状態623のうちで、「実行可能」が格納されているレコードの数を確認する。これにより、同時に実行可能なフローの数を、各分析フローの実行順序の制約を崩さずに判定できる。
現在実行可能な分析フローが1つだけである場合(S401:YES)、フロー管理部202は、その分析フローを対象フローとして記憶する(S402)。例えば、フロー管理部202は、その対象フローが記憶されている処理状態管理テーブル400のレコードを記憶する。その後はS410の処理が行われる。
他方、現在実行可能な分析フローが複数ある場合(S401:NO)、フロー管理部202は、その複数の全ての分析フローの予測時間が算出されているか否かを判断する(S403)。具体的には、例えば、フロー管理部202は、処理状態管理テーブル400における前記の複数の分析フローのそれぞれのレコードの予測時間625を参照し、予測時間が格納されているか否かを確認する。
その複数の全ての分析フローの予測時間が算出されている場合は(S403:YES)、フロー管理部202は、分析フローを実行する仮想マシン103の台数又は優先度に関して適当な重み付けをする旨を、仮想マシン割当判定処理のために記憶すると共に、S401で実行可能とした全ての分析フロー(S403で予測時間が算出されている全ての分析フロー)を対象フローとして記憶し(S404)、その後はS410の処理が行われる。
例えば、フロー管理部202は、処理状態管理テーブル400のうち全ての実行状態623が「実行可能」である(「実行中」の区間がない)分析フローのレコードを対象フローとして記憶する。
他方、予測時間が予測されていない分析フローがある場合は(S403:NO)、フロー管理部202は、分析フローを実行する仮想マシン103の台数又は優先度を各分析フローの間で均等にする旨を、仮想マシン割当判定処理のために記憶すると共に、S401で実行可能とした全ての分析フローを対象フローとして記憶し(S405)、その後はS410の処理が行われる。
S410において、まずフロー管理部202は、S404又はS405で実行を決定した各対象フローのうち一つを選択し、その対象フローにおいて実行可能な区間フローが複数存在するか否かを判定する(S406)。具体的には、例えば、フロー管理部202は、処理状態管理テーブル400における、前記で選択した対象フローにおける各区画のレコードの実行状態623を参照し、「実行可能」が格納されているレコードの数を確認する。
前記で選択した対象フローに実行可能な区間フローが複数存在する場合には(S406:YES)、フロー管理部202は、そのうち最先の区間フロー(最初に実行される、例えば対象データの時間が最も早い区間フロー)のみを、前記で選択した対象フローにおける対象区間フローとする(S407)。他方、前記で選択した対象フローに実行可能な区間が1つのみ存在する場合には(S406:NO)、フロー管理部202は、その1つの区間を、前記で選択した対象フローにおける対象区間フローとする(S408)。
このような処理を行うことで、一部の対象フローが他の対象フローと比較して実行可能な区間フローが多い場合に、一部の対象フローに区間フローが多く割り当てられてしまい、各対象フローの間で並列処理を平準化できなくなることを防ぐことができる。
フロー管理部202は、以上のS406、S407、及びS408の処理を全ての対象フローについて繰り返す。以上でフロー実行対象判定処理は終了する(S409)。
<仮想マシン割り当て判定処理>
図9は、仮想マシン割当判定処理の詳細を示すフローチャートである。まず、マシン制御部203は、フロー実行対象判定処理で決定した各対象区間フローを割り当て可能な仮想マシン103が存在するか否かを判定する(S501)。具体的には、例えば、マシン制御部203は、VM管理テーブル500の各レコードの割当VM数713及び最大VM割当可能数712を参照して判断する。
対象区間フローを割り当て可能な仮想マシン103が存在しない場合は(S501:NO)、マシン制御部203は、仮想マシン割り当て判定処理を終了する(S507)。他方、対象区間フローを割り当て可能な仮想マシン103が存在する場合は(S501:YES)、S502の処理が行われる。
S502においてマシン制御部203は、フロー実行対象判定処理で決定した対象フローの数(以下、対象フロー数という)が1か、もしくは1より大きい(2以上)か否かを確認する(S502)。対象フロー数が1の場合は(S502:NO)、マシン制御部203は、その対象フローの処理を、S501で特定した割り当て可能な仮想マシン103の全てに割り当てる旨を記憶し(決定し)(S503)、仮想マシン割り当て判定処理は終了する(S507)。
他方、対象フロー数が2以上の場合は(S502:YES)、マシン制御部203はS504の処理を実行する。
すなわち、S504においてマシン制御部203は、重み付けにより分析フローを実行する旨がフロー実行対象判定処理で記憶されていた場合には(S504:重み付け)、各対象フローにおける対象区間フローの予測時間に基づき、各対象フローにおける対象区間フローの終了時刻が互いに概ね同じになるように、各対象フローにおける対象区間フローを割り当てる仮想マシン103を決定する(S505)。その後、仮想マシン割り当て判定処理は終了する(S507)。
この割り当ては、例えば、マシン制御部203は、予測時間の逆数を各対象フローにおける対象区間フローについて算出し、この各逆数に対応する比率にて、各対象区間フローを割り当てる仮想マシン103の台数を決定するといった方法で実行される。なお、適当な台数が算出できない場合(例えば、自然数としての台数が算出できない場合)は、マシン制御部203は、各仮想マシン103に処理の優先度(例えば、CPUやメモリのリソース配分量)を設定することで、各対象フローにおける対象区間フローを割り当てる。
他方、分析フローを均等割り付けにより実行する旨がフロー実行対象判定処理で記憶されていた場合には(S504:均等割り)、マシン制御部203は、各対象フローにおける対象区間フローの処理を実行する仮想マシン103の台数が互いに概ね同数になるように、各対象フロー(対象区間フロー)を割り当てる仮想マシン103を決定する(S506)。その後、仮想マシン割り当て判定処理は終了する(S507)。
以上のような仮想マシン割り当て判定処理により、複数の対象区間フローを同時に並列して実行することができ、かつ、複数の対象区間フローの実行に要する時間を互いに同じ時間に調整することができる。これにより、一部の分析フローのみが長時間引き続き実行されることを防止することができる。
以上のようにして実行される分散処理の経過又は結果は、ユーザ操作端末105等に表示される。
<ユーザ操作端末105による表示例>
図10は、ユーザ操作端末105が表示する、分析処理の経過又は結果を示す画面の一例である。同図に示すように、この表示画面1000には、分析処理の実行状態又は実行結果を示すテーブル1010が表示される。このテーブル1010には、仮想マシン実行サーバ102における各仮想マシン103ごとに、各分析フローにおける各区間フローの現在の処理状況1011(又はその処理結果)が時系列に沿って表示される。そして、この処理状況1011には、その処理により発生したI/O量も表示される。また、分析処理によって発生したI/O量の合計1012が、各時間帯ごとに(各データ区画ごとに)表示される。
このように、表示画面1000には、各仮想マシン103による分析フローの結果の情報、又はその分析フローにより発生したデータの入出力量に関する情報が出力されるので、ユーザは、分散処理システム100により分析フローが順次並列処理されていることや、これによりI/Oに係る負荷が分散され、安定して分散処理が実行されていることを確認することができる。
以上のように、本実施形態の分散処理システム100によれば、対象データの区画データに対する処理部(分析フロー)の処理順序を記憶し、各処理部(分析フロー)が行う対象データの各区画データの処理による情報処理装置(仮想マシン103)に対する負荷を、そのデータ区画ごとに算出し、そして、各処理部の現在の実行状態、各処理部の処理順序、及び各処理部について算出した負荷に基づき、並列的に実行される処理部及びその処理部を実行する情報処理装置の組み合わせを決定し、これらを各情報処理装置に並列的に実行させる。このように、本実施形態の分散処理システム100は、対象データの各データ区画に係る処理の負荷に応じて、分析フローの処理を各仮想マシン103にデータ区画単位で割り当てることができる。これにより、対象データの処理をデータ区画単位で各仮想マシン103に分散させて処理することができ、対象データを安定的に分散して処理することができる。
この効果について具体的に説明すると、以下のようになる。
まず、図11は、従来の分散処理システムにおいて分析処理を実行した場合における、仮想マシン実行サーバ102及びデータレイク104のハードウェアリソースの使用状況の時系列変化の一例を示す図である。
この分析処理は、分析フローである分析処理Aの生成した中間データを用いて分析処理B(分析フロー)を実行し、分析処理Bの生成した中間データを用いて分析処理C(分析フロー)を実行し、これにより最終出力データを出力するものである。すなわち、分析処理Aの実行完了後、分析処理Bが実行され、その実行完了後、分析処理Cが実行される。
この場合、各仮想マシン103に対する処理の割り当ての時系列変化は以下の通りである。まず、全ての仮想マシン103が分析処理Aの区間Aを実行し(符号801)、その処理の終了後、次の区間(分析処理Aの区間B)の処理が実行される(符号802)。そして、分析処理Aの全区間の処理の実行が終了後、次の分析フローである分析処理Bの区間Aの処理が実行され(符号803)、その後、分析処理Bの分析フローの全区間の処理の実行が完了する。そして、その次の分析フローである分析処理Cの区間Aの処理が実行され(符号804)、その後、分析処理Cの全区間の処理が実行される。
このような処理が実行されると、分析処理Aの実行中におけるデータレイク104へのデータの単位時間あたりの読み書き量811と比べ、分析処理Bの実行中におけるデータレイク104へのデータの単位時間あたりの読み書き量812の方が少なくなるため、データレイクのI/O(Input/Output)に係るリソースの使用量は、分析処理Bにおいて余裕があり、I/Oに係るリソースが余剰となる。
他方で、分析処理Cを実行中のデータレイクへの単位時間あたりの読み書き量813は、分析処理Bの実行中におけるデータレイク104へのデータの単位時間あたりの読み書き量812よりも多くなるため、分析処理Cにおけるデータレイク104への読み書きに遅延が発生し、分析処理の実行時間が長くなる可能性がある。すなわち、I/Oに係るリソースが不足する状態となる。
このように、従来の分散処理システムでは、単に各分析フローの間の実行順序に基づいて処理を行うため、各分析フローのI/O量が処理の種類によって大きく変化する結果、その際に処理上の遅延が発生し、分析処理の効率が低下する可能性がある。特に、各分析フロー間でのI/O量の違いが大きく異なると、実行する分析フローが切り替わる際に予期しない大きなボトルネックが発生して処理が大幅に遅延し、処理の安定性、信頼性を損ねることになる。
一方、図12は、本実施形態の分散処理システム100において分析処理を実行した場合における仮想マシン実行サーバ102及びデータレイク104のハードウェアリソース使用状況の時系列変化の一例を示す図である。
本実施形態の分散処理システム100は、各区間のデータ処理が終わるごとに、対象フロー及び対象区間フローを決定し、これらの処理を、適当な配分割合にて(例えば、各区間での処理が概ね同時に終了するように)仮想マシン103に割り当てる(図7のS301及びS303)。
すなわち、最初に行われたフロー実行対象判定処理においては、対象フローが分析処理Aのみと判定され、さらに、先頭のデータ区画に対応する区間フローのみが対象区間フローであると判定される結果(図8のS407)、分析処理Aの区間Aのみが実行される(符号901)。
そして、次に行われるフロー実行対象判定処理においては、まず、対象フローが分析処理A及び分析処理Bの複数の分析フローと判定され、さらに、分析処理Bの予測時間が算出されていないため均等割付と判定される結果(図8のS405)、分析処理Aの区間Bの処理、及び分析処理Bの区間Aの処理が均等に(同じ台数の)各仮想マシン103に割り当てられ、これらの処理が並列して実行される(符号902、符号903)。
さらに、その次に行われるフロー実行対象判定処理においては、まず、対象フローが、前記の分析処理A(の区間Bの処理)及び分析処理B(の区間Aの処理)に加えて分析処理Cである旨判定され、その分析処理Cの対象区間フローが区間Aと判定される結果、分析処理Aの区間Bの処理、分析処理Bの区間Aの処理、及び分析処理Cの区間Aの処理が並列して実行される(符号904)。
このように、分析フローにおける各区間の処理が並列して実行することにより、分析フローに係る処理が、分析フロー単位だけなく、さらにその区間単位でも分散されるため、前記した従来の分散処理システムと比較して、分析処理がより安定的に分散され、処理に係る負荷も分散される。すなわち、リソースの分散による安定化のみならず、時間軸方向
の処理の分散による安定化が実現される。
さらに、本実施形態の分散処理システム100では、分析フローは、処理するデータの時系列(データ区画)に応じて複数の区間フローに分割されているので、CPU等の演算処理に係る負荷だけでなく、入出力処理(I/O)に係る負荷も時間軸方向に分散されることになる。
例えば、最初に行われたフロー実行対象判定処理では分析処理Aのみが実行されるため、分析処理Aの実行に係る、データレイク104への単位時間あたりのデータの読み書き量911(以下、単位I/O量という)が発生する(符号911)。
そして、2回目のフロー実行対象判定処理においては、分析処理Aを単独で実行している場合、及び分析処理Bを単独で実行している場合の間の中間程度の単位I/O量が発生することになる(符号912)。さらに、3回目のフロー実行対象判定処理においては、分析処理Aを単独で実行している場合、分析処理Bを単独で実行している場合、及び分析処理Cを単独で実行している場合の間の三者の中間程度の単位I/O量が発生することになる(符号913)。
このように、本実施形態の分散処理システム100によれば、データレイク104への単位時間あたりのデータの読み書き量が、前記した通常の分散処理システムの場合と比較して、時間軸方向により詳細に平準化される。これにより、例えば、データレイク104へのデータの読み書きが分析処理におけるボトルネックとなることを防ぎ、分析処理を安定して行うことができるようになる。
すなわち、本実施形態の分散処理システム100によれば、分析処理におけるリソースとして、単にプロセッサに係る負荷だけでなく、I/Oに係る負荷も平準化させる結果、分散処理システム100における処理負荷全体を安定化させることができる。
以上の効果に加えて、本実施形態の分散処理システム100は、情報処理装置(仮想マシン103)による処理部(分析フロー)の並列的な実行に関する制約条件を記憶し(VM管理テーブル500)、その制約条件を満たす仮想マシン103を、処理部を並列的に実行する仮想マシン103として決定するので、不可抗力的な仮想マシン103の制約の範囲内で、分散処理及びこれによるデータ処理を安定的に行うことができる。
例えば、制約条件として、並列的に分析フローの処理を実行可能な仮想マシン103の最大数を記憶することで、例えば仮想マシン実行サーバ102や仮想マシン103のハードウェアないしソフトウェアの仕様を満たした、安定的な分散処理及びデータ処理を行うことができる。
また、本実施形態の分散処理システム100は、情報処理装置(仮想マシン実行サーバ102又は仮想マシン103)に対する負荷として、処理部(分析フロー)の処理の実行に係る予測時間を各処理部について算出し、この予測時間に基づき、処理部の部分の処理を並列的に実行させる各情報処理装置の配分(処理の優先度等)を決定するので、仮想マシン実行サーバ102又は仮想マシン103の実際の稼動実績に基づき合理的な処理の分配を行うことができる。これにより、安定的な分散処理及びデータ処理を行うことができる。
また、本実施形態の分散処理システム100は、並列的に実行する複数の処理部(分析フロー)のうち予測時間を算出していない処理部がある場合には、複数の処理部のそれぞれを実行する情報処理装置(仮想マシン103)の台数を互いに均等とするので、例えば
ある仮想マシン103の稼動実績が少なく分析フローの処理時間が不明又は不正確である場合であっても、合理的に分散処理を行うことができる。
また、本実施形態の分散処理システム100は、並列的に実行する処理部(分析フロー)を決定する際に、当該処理部において処理可能なデータの区画が複数ある場合には、処理順序が最先である区画のデータのみを処理するので、実行可能な区間フローの数が分析フローの間で異なる場合であっても、一部の分析フローのみが偏って実行され、並列処理を平準化できなくなることを防ぐことができる。
以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。
例えば、本実施形態では、分析処理を行う主体は複数の仮想マシン103としたが、複数の物理サーバがこれらの分析処理を行うものとしてもよい。本実施形態の分散処理システム100は、いずれのタイプの情報処理装置による分散処理にも対応することができるので、ハードウェアリソース及びソフトウェアリソースを効率的に使用することができる。
例えば、本実施形態では、データの記憶形式としてテーブル(データベース)を示したが、データの記憶形式はデータベースに限られず、いかなる方法であってもよい。
また、本実施形態では、仮想マシン実行サーバ102は複数台あるものとしたが、1台の仮想マシン実行サーバ102のみを設け、この仮想マシン実行サーバ102に複数の仮想マシン103を設けてもよい。
100 分散処理システム、101 仮想マシン管理サーバ、102 仮想マシン実行サーバ、103 仮想マシン、104 データレイク、211 フローテーブル記憶部、201 処理負荷算出部、202 フロー管理部、203 マシン制御部

Claims (12)

  1. 複数の情報処理装置を含んで構成され、複数の区画からなる所定のデータを前記区画ごとに処理する処理部を複数備える所定の処理について、前記処理部の処理を前記複数の情報処理装置のうち少なくともいずれかに割り当てることにより前記処理部を並列的に実行可能な、プロセッサ及びメモリを備える分散処理システムであって、
    前記区画のデータに対する前記複数の処理部の処理順序を記憶するフローテーブル記憶部と、
    前記処理部が行う前記区画のデータの処理による前記情報処理装置に対する負荷を、前記区画ごとに算出する処理負荷算出部と、
    各前記処理部の現在の実行状態、各前記処理部の処理順序、及び各前記処理部について算出した前記負荷に基づき、並列的に実行される前記処理部、及び当該処理部を実行する前記情報処理装置の組み合わせを決定するフロー管理部と、
    前記決定した組み合わせが示す並列的な処理を各前記情報処理装置に実行させるマシン制御部と、
    を備える分散処理システム。
  2. 前記情報処理装置による前記処理部の並列的な実行に関する制約条件を記憶するマシン管理テーブル記憶部を備え、
    前記フロー管理部は、前記制約条件を満たす前記情報処理装置を、前記処理部を並列的に実行する前記情報処理装置として決定する、
    請求項1に記載の分散処理システム。
  3. 前記マシン管理テーブル記憶部は、前記制約条件として、並列的に前記処理部を実行可能な前記情報処理装置の最大数を記憶する、請求項2に記載の分散処理システム。
  4. 前記処理負荷算出部は、前記負荷として、前記処理部の処理の実行に係る予測時間を各前記処理部について算出し、
    前記フロー管理部は、並列的に実行される前記処理部が複数ある場合、前記算出した予測時間に基づき、前記複数の処理部のそれぞれに対して割り当てる前記情報処理装置又はその割り当てに関する優先度を決定する、
    請求項1に記載の分散処理システム。
  5. 前記フロー管理部は、前記並列的に実行される複数の処理部のうち前記予測時間を算出していない前記処理部がある場合には、前記複数の処理部のそれぞれを実行する前記情報処理装置の台数を互いに均等とする、請求項4に記載の分散処理システム。
  6. 前記フロー管理部は、並列的に実行される前記処理部を決定する際に、当該処理部が処理可能な前記データの区画が複数ある場合には、予め定められた、最初に処理される前記データの区画のみを前記処理部が処理することを決定する、請求項1に記載の分散処理システム。
  7. 各前記情報処理装置が実行した前記処理部の処理の結果、又は前記処理部の処理により発生したデータの入出力量に関する情報を出力する出力部を備える、請求項1に記載の分散処理システム。
  8. 前記情報処理装置による前記処理部の並列的な実行に関する制約条件を記憶するマシン管理テーブル記憶部と、
    各前記情報処理装置が実行した前記処理部の処理の結果、又は前記処理部の処理により発生したデータの入出力量に関する情報を出力する出力部とをさらに備え、
    前記マシン管理テーブル記憶部は、前記制約条件として、並列的に前記処理部を実行可能な前記情報処理装置の最大数を記憶し、
    前記処理負荷算出部は、前記負荷として、前記処理部の処理の実行に係る予測時間を各前記処理部について算出し、
    前記フロー管理部は、
    前記制約条件を満たす前記情報処理装置を、前記処理部を並列的に実行する前記情報処理装置として決定し、
    並列的に実行される前記処理部が複数ある場合、前記算出した予測時間に基づき、前記複数の処理部のそれぞれに対して割り当てる前記情報処理装置又はその割り当てに関する優先度を決定し、
    前記並列的に実行される複数の処理部のうち前記予測時間を算出していない前記処理部がある場合には、前記複数の処理部のそれぞれを実行する前記情報処理装置の台数を互いに均等とし、
    並列的に実行される前記処理部を決定する際に、当該処理部が処理可能な前記データの区画が複数ある場合には、予め定められた、最初に処理される前記データの区画のみを前記処理部が処理することを決定する、
    請求項1に記載の分散処理システム。
  9. 複数の情報処理装置を含んで構成され、複数の区画からなる所定のデータを前記区画ごとに処理する処理部を複数備える所定の処理について、前記処理部の処理を前記複数の情報処理装置のうち少なくともいずれかに割り当てることにより前記処理部を並列的に実行可能な分散処理システムにおける分散処理方法であって、
    プロセッサ及びメモリを備えるマシン管理サーバが、
    前記区画のデータに対する前記複数の処理部の処理順序を記憶するフローテーブル記憶処理と、
    前記処理部が行う前記区画のデータの処理による前記情報処理装置に対する負荷を、前記区画ごとに算出する処理負荷算出処理と、
    各前記処理部の現在の実行状態、各前記処理部の処理順序、及び各前記処理部について算出した前記負荷に基づき、並列的に実行される前記処理部、及び当該処理部を実行する前記情報処理装置の組み合わせを決定するフロー管理処理と、
    前記決定した組み合わせが示す並列的な処理を各前記情報処理装置に実行させるマシン制御処理と、
    を実行する、分散処理方法。
  10. 前記マシン管理サーバは、前記情報処理装置による前記処理部の並列的な実行に関する制約条件を記憶するマシン管理テーブル記憶処理をさらに実行し、
    前記フロー管理処理は、前記制約条件を満たす前記情報処理装置を、前記処理部を並列的に実行する前記情報処理装置として決定する、
    請求項9に記載の分散処理方法。
  11. 複数の情報処理装置を含んで構成され、複数の区画からなる所定のデータを前記区画ごとに処理する処理部を複数備える所定の処理について、前記処理部の処理を前記複数の情報処理装置のうち少なくともいずれかに割り当てることにより前記処理部を並列的に実行可能な、プロセッサ及びメモリを備える分散処理システムに、
    前記区画のデータに対する前記複数の処理部の処理順序を記憶するフローテーブル記憶処理と、
    前記処理部が行う前記区画のデータの処理による前記情報処理装置に対する負荷を、前記区画ごとに算出する処理負荷算出処理と、
    各前記処理部の現在の実行状態、各前記処理部の処理順序、及び各前記処理部について算出した前記負荷に基づき、並列的に実行される前記処理部、及び当該処理部を実行する
    前記情報処理装置の組み合わせを決定するフロー管理処理と、
    前記決定した組み合わせが示す並列的な処理を各前記情報処理装置に実行させるマシン制御処理と、
    を実行させる、分散処理プログラム。
  12. 前記情報処理装置による前記処理部の並列的な実行に関する制約条件を記憶するマシン管理テーブル記憶処理をさらに実行させ、
    前記フロー管理処理は、前記制約条件を満たす前記情報処理装置を、前記処理部を並列的に実行する前記情報処理装置として決定する、
    請求項11に記載の分散処理プログラム。
JP2017155083A 2017-08-10 2017-08-10 分散処理システム、分散処理方法、及び分散処理プログラム Active JP6940325B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017155083A JP6940325B2 (ja) 2017-08-10 2017-08-10 分散処理システム、分散処理方法、及び分散処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017155083A JP6940325B2 (ja) 2017-08-10 2017-08-10 分散処理システム、分散処理方法、及び分散処理プログラム

Publications (2)

Publication Number Publication Date
JP2019035996A true JP2019035996A (ja) 2019-03-07
JP6940325B2 JP6940325B2 (ja) 2021-09-29

Family

ID=65637518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017155083A Active JP6940325B2 (ja) 2017-08-10 2017-08-10 分散処理システム、分散処理方法、及び分散処理プログラム

Country Status (1)

Country Link
JP (1) JP6940325B2 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0965023A (ja) * 1995-08-25 1997-03-07 Fuji Xerox Co Ltd 画像処理装置
JP2003208323A (ja) * 2002-01-11 2003-07-25 Hitachi Ltd バッチジョブの実行方法、システムおよびプログラム
JP2011053995A (ja) * 2009-09-03 2011-03-17 Hitachi Ltd データ処理制御方法および計算機システム
WO2012105056A1 (ja) * 2011-02-04 2012-08-09 株式会社日立製作所 並列分散処理システムのデータ転送制御方法、並列分散処理システム及び記憶媒体
WO2012164689A1 (ja) * 2011-05-31 2012-12-06 株式会社日立製作所 ジョブ管理サーバ及びジョブ管理方法
US20130290976A1 (en) * 2012-04-30 2013-10-31 Ludmila Cherkasova Scheduling mapreduce job sets
WO2015001596A1 (ja) * 2013-07-01 2015-01-08 株式会社日立製作所 系列データ並列分析基盤およびその並列分散処理方法
JP2015090688A (ja) * 2013-11-07 2015-05-11 株式会社日立製作所 MapReduceジョブ管理システム、MapReduceジョブ管理方法
WO2015125225A1 (ja) * 2014-02-19 2015-08-27 株式会社日立製作所 データ処理システム及びデータ処理方法
JP2017016494A (ja) * 2015-07-03 2017-01-19 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0965023A (ja) * 1995-08-25 1997-03-07 Fuji Xerox Co Ltd 画像処理装置
JP2003208323A (ja) * 2002-01-11 2003-07-25 Hitachi Ltd バッチジョブの実行方法、システムおよびプログラム
JP2011053995A (ja) * 2009-09-03 2011-03-17 Hitachi Ltd データ処理制御方法および計算機システム
WO2012105056A1 (ja) * 2011-02-04 2012-08-09 株式会社日立製作所 並列分散処理システムのデータ転送制御方法、並列分散処理システム及び記憶媒体
WO2012164689A1 (ja) * 2011-05-31 2012-12-06 株式会社日立製作所 ジョブ管理サーバ及びジョブ管理方法
US20130290976A1 (en) * 2012-04-30 2013-10-31 Ludmila Cherkasova Scheduling mapreduce job sets
WO2015001596A1 (ja) * 2013-07-01 2015-01-08 株式会社日立製作所 系列データ並列分析基盤およびその並列分散処理方法
JP2015090688A (ja) * 2013-11-07 2015-05-11 株式会社日立製作所 MapReduceジョブ管理システム、MapReduceジョブ管理方法
WO2015125225A1 (ja) * 2014-02-19 2015-08-27 株式会社日立製作所 データ処理システム及びデータ処理方法
JP2017016494A (ja) * 2015-07-03 2017-01-19 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"特集:Pentaho「データから価値を創る」 〜攻めのビジネスを支えるデータ統合・分析基盤〜", はいたっく, vol. 通巻595号, JPN6021022417, 1 December 2016 (2016-12-01), JP, pages 2 - 4, ISSN: 0004526146 *

Also Published As

Publication number Publication date
JP6940325B2 (ja) 2021-09-29

Similar Documents

Publication Publication Date Title
JP6241300B2 (ja) ジョブスケジューリング装置、ジョブスケジューリング方法、およびジョブスケジューリングプログラム
US9483288B2 (en) Method and system for running a virtual appliance
JP6172649B2 (ja) 情報処理装置、プログラム、及び、情報処理方法
JP6191691B2 (ja) 異常検出装置、制御方法、及びプログラム
WO2015001850A1 (ja) タスク割り当て判定装置、制御方法、及びプログラム
EP3255553A1 (en) Transmission control method and device for direct memory access
JP2015517147A5 (ja)
JP6519111B2 (ja) データ処理制御方法、データ処理制御プログラムおよびデータ処理制御装置
CN113641457A (zh) 容器创建方法、装置、设备、介质及程序产品
JP2017041191A (ja) リソース管理装置、リソース管理プログラム、及びリソース管理方法
JP6885193B2 (ja) 並列処理装置、ジョブ管理方法、およびジョブ管理プログラム
Xue et al. Managing data center tickets: Prediction and active sizing
JP2019079334A (ja) 情報処理装置、情報処理システムおよび情報処理方法
JP5471822B2 (ja) 入出力制御プログラム、情報処理装置および入出力制御方法
US10754547B2 (en) Apparatus for managing disaggregated memory and method thereof
JP6666553B2 (ja) 情報処理装置、ジョブ管理方法およびジョブ管理プログラム
JP6940325B2 (ja) 分散処理システム、分散処理方法、及び分散処理プログラム
US11093281B2 (en) Information processing apparatus, control method, and program to control allocation of computer resources for different types of tasks
JP5867499B2 (ja) 仮想サーバシステム、管理サーバ装置及びシステム管理方法
JP6374059B2 (ja) コンピュータ資源配分決定方法、コンピュータ資源配分決定方法プログラムおよび制御用コンピュータ
JP6059259B2 (ja) 計算機システム及び計算機リソースの割当方法
JP6724631B2 (ja) 情報処理装置及びプログラム
US20170147408A1 (en) Common resource updating apparatus and common resource updating method
WO2018173300A1 (ja) I/o制御方法およびi/o制御システム
JP4999932B2 (ja) 仮想計算機システム及び仮想計算機重み付け設定処理方法及び仮想計算機重み付け設定処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210902

R150 Certificate of patent or registration of utility model

Ref document number: 6940325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150