JP5018133B2 - ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム - Google Patents
ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム Download PDFInfo
- Publication number
- JP5018133B2 JP5018133B2 JP2007046434A JP2007046434A JP5018133B2 JP 5018133 B2 JP5018133 B2 JP 5018133B2 JP 2007046434 A JP2007046434 A JP 2007046434A JP 2007046434 A JP2007046434 A JP 2007046434A JP 5018133 B2 JP5018133 B2 JP 5018133B2
- Authority
- JP
- Japan
- Prior art keywords
- job
- node
- information
- execution
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 255
- 238000012545 processing Methods 0.000 claims description 71
- 238000000034 method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 27
- 238000010348 incorporation Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 14
- 238000007726 management method Methods 0.000 description 255
- 238000010586 diagram Methods 0.000 description 32
- 238000004891 communication Methods 0.000 description 14
- 238000011084 recovery Methods 0.000 description 9
- 238000013138 pruning Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 244000141353 Prunus domestica Species 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000989 no adverse effect Toxicity 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Retry When Errors Occur (AREA)
- Hardware Redundancy (AREA)
Description
すなわち、通常のOS(オペレーティングシステム)ではファイルへ情報を書き込んでも、システムの高速化のためにメモリ上で書き込むのみである。そして、その後の所定のタイミングで更新されたファイルの内容がディスクに書き込まれる。このように、即座にディスクへは反映されないため、情報反映に常に遅延が発生する。その結果、ジョブの実行状態が最新状態とならず、高信頼化の妨げになってしまう。
(1)並列ジョブへの対応が考慮されていない。
並列ジョブでは、複数の計算ノードが連携してジョブを実行する必要がある。そのために、並列ジョブを実行する複数の計算ノードの1つがジョブマスタとなり、ジョブの実行状況の詳細を管理する。どの計算ノードがジョブマスタなのかといった並列ジョブ特有の情報を復旧できるようにしないと、並列ジョブに対しては対応が難しい。
ジョブの実行に必要な情報はすべて計算ノード側で保存する必要があり、場合によっては、膨大な情報を転送しなければならない場合がある。
管理ノードと同時に一部の計算ノードが停止してしまうと、停止した計算ノードで実行されていたジョブの存在が無くなってしまう事になる。ジョブの存在自体が無くなってしまうと、該当するジョブをシステム外部から再投入する必要が生じる。そのため、システム外部で、投入したジョブが失われていないかどうかを確認する必要が生じる。すなわち、システム外部で、投入したジョブが存続しているか否かを管理しない限り、失われたジョブを再生することができず、クラスタシステムの信頼性が損なわれていた。
情報を集めるために、すべての計算ノードへアクセスする必要があり、通信処理が非効率である。特に、科学技術計算に用いるシステムでは、ノード数が増加傾向にあり、すべての計算ノードの管理情報を1つの計算ノードに転送するには、膨大な量のデータ転送が発生する。
計算ノードだけで情報を保護しようとしているため、計算ノードがダウンしてしまうと、実行していたジョブの再実行をすることもできない。
本発明はこのような点に鑑みてなされたものであり、効率的な処理によって管理ノードの高信頼化を図ることができるジョブ管理装置、クラスタシステム、およびジョブ管理プログラムを提供することを目的とする。
図1は、発明の概要を示す図である。図1に示すクラスタシステムは、管理ノード1、ストレージデバイス2、および複数の計算ノード3,4で構成され、ジョブ投入装置5から投入されたジョブ実行依頼に応じてジョブを実行する。
ジョブDB1aは、メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶する。ジョブ情報は、ジョブ投入情報1aa、ジョブ配置情報1ab、およびジョブを実行する計算ノードにおいてジョブの実行に使用する資源を示す実行資源情報1ac,1adが含まれる。
ところで、本発明を特許文献1記載の発明(特開平6−96041号公報)と比較したとき、本発明では一部の情報をストレージデバイス2に格納している点が大きく異なる。すなわち、本発明に係るクラスタシステムは、並列ジョブにも適用可能な構成となっている。並列ジョブに適用するには、並列ジョブがどの計算ノードに割り当てたのかを認識している必要がある。特許文献1の請求項3を参照すると、システム上で共有されるデータに関しては、複写が各計算機に配置される。すると、管理ノードがダウンした際に、その情報を収集する際に、膨大な量の無駄が生じることとなる。最近のクラスタシステムでは、数百台あるいはそれ以上のノードが接続されることがある。それらのノードすべてから共有の情報を収集したのでは、通信の混雑を招き管理ノードの運用再開を遅延させる原因となる。
[第1の実施の形態]
図2は、本実施の形態のクラスタシステム構成例を示す図である。本実施の形態に係るクラスタシステムは、1台の管理ノード100と複数の計算ノード200,300,400,500,600で構成されている。
複数の計算ノード200,300,400,500,600は、ネットワーク21を介して互いに接続されていると共に、管理ノード100に接続されている。計算ノード200,300,400,500,600は、管理ノード100によって割り当てられたジョブを実行する。
図3は、本実施の形態に用いる管理ノードのハードウェア構成例を示す図である。管理ノード100は、複数のCPU(Central Processing Unit)101a,101b,・・・によって装置全体が制御されている。CPU101,101b,・・・には、バス109を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、複数の通信インタフェース106,107、およびストレージデバイスインタフェース108が接続されている。
通信インタフェース107は、ネットワーク22に接続されている。通信インタフェース107は、ネットワーク22を介して、ジョブ投入装置30との間でデータの送受信を行う。
次に、ジョブDB130の内容について詳細に説明する。
このように、ジョブDB130には、クラスタシステムにおけるジョブの管理に必要な情報が格納されている。このジョブDB130に格納された情報の一部が、ハードディスク上に設けられたストレージデバイス110に格納される。
図9は、ジョブの実行例を示す図である。図9の例では、クラスタシステムにおいて、2つの並列ジョブ31,32が実行されている。
図10は、管理ノードダウン時の状態を示す図である。管理ノード100がダウンすると、管理ノード100のジョブDB130内に格納されていたジョブ情報130a,130bは失われる。ただし、この場合でも計算ノード200,300,400,500,600では、並列ジョブ31,32が継続して実行される。
図12は、並列ジョブを実行するまでの処理手順を示すシーケンス図である。以下、図12に示す処理をステップ番号に沿って説明する。なお、以下の説明では、並列ジョブのジョブ実行依頼に応じて、2台の計算ノード200,300にジョブを実行させるものとする。
[ステップS17]計算ノード300のジョブ制御部311は、ジョブ実行依頼に応じた並列ジョブ実行プロセス312を起動し、ジョブを実行させる。以後、計算ノード200の並列ジョブ実行プロセス212と計算ノード300の並列ジョブ実行プロセス312とが連携して、処理を実行する。
図13は、管理ノードの復旧処理手順を示すシーケンス図である。以下、図13に示す処理をステップ番号に沿って説明する。この例は、2台の計算ノード200,300で並列ジョブを実行中に、管理ノード100がダウンしたときの復旧処理を示している。
[ステップS22]同様に、計算ノード300の並列ジョブ実行プロセス312は処理を継続する。
[ステップS26]起動された管理ノード100では、ジョブ実行指示部122が計算ノード200,300に対してノード組み込み依頼を送信する。ノード組み込み依頼は、クラスタを構成する計算ノードとして機能することを要求するメッセージである。
[ステップS28]計算ノード300のジョブ制御部311は、管理ノード100からのノード組み込み依頼を受信する。
[ステップS32]ジョブ実行指示部122は、起動中の計算ノード情報を構築する。具体的には、ジョブ実行指示部122は、起動している計算ノードのリストを作成し、その計算ノードのノードIDに対応付けて資源情報を管理する。
[ステップS34]計算ノード200のジョブ制御部211は、実行資源情報収集依頼を受信する。
[ステップS36]計算ノード200のジョブ制御部211は、実行資源情報を管理ノード100に通知する。具体的には、ジョブ制御部211は、計算ノード内ジョブDB220から実行資源情報221を取得する。この実行資源情報221には、計算ノード200自身のノード別実行資源情報に加え、並列ジョブのジョブスレーブノードとなる計算ノード300のノード別実行資源情報も含まれている。そして、ジョブ制御部211によって実行資源情報221が管理ノード100に送信される。
[ステップS38]ジョブDB再構築部123は、ジョブDB130を再構築する。すなわち、ストレージデバイス110からジョブ投入情報131とジョブ配置情報132を取得して、ジョブ毎のジョブ情報130aを作成する。そして、ジョブDB再構築部123は、作成したジョブ情報130aに対して、計算ノード200から取得した実行資源情報133を登録する。
[ステップS41]計算ノード200のジョブ制御部211は、ジョブ運用再開の通知を受けて、管理ノード100との間の通信を再開する。すなわち、待ち合わせ状態の要求がある場合、その要求が管理ノード100に送られる。また、ジョブが終了している場合、処理結果が管理ノード100に送られる。
このようにして、管理ノード100がダウンした場合にも、計算ノード200,300に対して並列ジョブをそのまま継続して実行させることができる。なお、管理ノード100への要求が発生した場合には待ち合わせとなるが、管理ノード100を再起動させた後にその状態から処理を続行できる。その結果、並列ジョブを最初から実行し直す必要が無くなり、処理の効率化が図れる。
図14は、管理ノードとジョブマスタノードとが同時にダウンした状態を示す図である。このように、管理ノード100とジョブマスタノードとして機能する計算ノード200とが同時にダウンすると、並列ジョブ31の一部の処理が実行できなくなり、並列ジョブ31を継続して実行することはできない。
以上のようにして、管理ノード100とジョブマスタノードとして機能する計算ノード200とが同時にダウンしても、クラスタシステム内の処理でジョブの再実行が可能である。すなわち、ジョブ投入装置30から依頼されたジョブを紛失せずに再度実行可能である。ただし、並列ジョブ31の処理は、最初からやり直すこととなる。
図25は、管理ノードと計算ノードとが同時にダウンした場合の復旧処理手順を示すシーケンス図である。以下、図25に示す処理をステップ番号に沿って説明する。この例は、2台の計算ノード200,300で並列ジョブを実行中に、管理ノード100と計算ノード200とがダウンしたときの復旧処理を示している。
[ステップS52]計算ノード300の並列ジョブ実行プロセス312において管理ノード100への要求が発生すると、並列ジョブ実行プロセス312はエラー処理とはせずにその要求を待ち合わせ状態とする。
[ステップS54]計算ノード200の障害の原因が取り除かれると、計算ノード200が起動される。
[ステップS57]計算ノード300のジョブ制御部311は、管理ノード100からのノード組み込み依頼を受信する。
[ステップS61]ジョブ実行指示部122は、起動中の計算ノード情報を構築する。具体的には、ジョブ実行指示部122は、起動している計算ノードのリストを作成し、その計算ノードのノードIDに対応付けて資源情報を管理する。
[ステップS63]計算ノード200のジョブ制御部211は、実行資源情報収集依頼を受信する。
[ステップS65]計算ノード200のジョブ制御部211は、実行資源情報を管理ノード100に通知する。具体的には、ジョブ制御部211は、計算ノード内ジョブDB220から実行資源情報を取得を試みる。しかし、計算ノード内ジョブDB220内は空があるため、ジョブ制御部211は内容が空情報を実行資源情報として管理ノード100に送信する。
[ステップS75]計算ノード300のジョブ制御部311は、ジョブ実行依頼に応じた並列ジョブ実行プロセス312を起動し、ジョブを実行させる。以後、計算ノード200の並列ジョブ実行プロセス212と計算ノード300の並列ジョブ実行プロセス312とが連携して、処理を実行する。
次に、第2の実施の形態について説明する。第2の実施の形態は、複数の管理ノードを有するクラスタシステムにおいて、効率的な障害復旧を可能としたものである。すなわち、第1の実施の形態では管理ノードが1台しかないため、管理ノードを再起動してからジョブDBの再構築を行っていた。そのため、管理ノードの障害を取り除き再起動するまでの時間、計算ノードからの要求の待ち合わせが発生していた。
なお、上記の例では、待機系の管理ノード700を個別に用意しているが、計算ノードの中の1台を待機系の管理ノードとして使用することもできる。その場合、運用系の管理ノードがダウンすると、管理ノードとしての機能を有する計算ノードが、管理ノードとしての処理を実行する。ダウンした管理ノードが再起動したら、その管理ノードを運用系とすることで、元の状態に戻すことができる。これにより、計算ノード内に管理ノードとしての機能を併存させる期間を最小限に抑えることができる。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶するジョブDBと、
ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記ジョブDBとに格納するジョブ実行依頼受付手段と、
前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記ジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納するジョブ実行指示手段と、
再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築するジョブDB再構築手段と、
を有することを特徴とするジョブ管理装置。
前記ジョブDB再構築手段は、再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブマスタノードから前記ジョブ被配置計算ノードすべての実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築することを特徴とする付記1記載のジョブ管理装置。
ストレージデバイスと、
複数の計算ノードと、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶するジョブDBと、ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記ジョブDBとに格納するジョブ実行依頼受付手段と、前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記ジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納するジョブ実行指示手段と、再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築するジョブDB再構築手段と、を具備する管理ノードと、
を有することを特徴とするクラスタシステム。
前記管理ノードの前記ジョブDB管理手段は、再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブマスタノードから前記ジョブ被配置計算ノードすべての実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築することを特徴とする付記4記載のクラスタシステム。
前記計算ノードは、ジョブマスタとして指定される場合のみ、実行資源情報収集依頼に応答して前記計算ノードに対して前記実行資源情報を送信することを特徴とする付記5記載のクラスタシステム。
ストレージデバイスと、
複数の計算ノードと、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶する第1のジョブDBと、ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記第1のジョブDBとに格納するジョブ実行依頼受付手段と、前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記第1のジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納する第1のジョブ実行指示手段と、を具備する第1の管理ノードと、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶する第2のジョブDBと、前記第1の管理ノードの機能が停止したことを検出した場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記第2のジョブDB内に前記ジョブ情報を構築するジョブDB再構築手段と、前記第1の管理ノードの機能が停止したことを検出した場合、複数の前記計算ノードに対してノード組み込み依頼を送信する第2のジョブ実行指示手段と、を具備する第2の管理ノードと、
を有することを特徴とするクラスタシステム。
コンピュータを、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶するジョブDB、
ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記ジョブDBとに格納するジョブ実行依頼受付手段、
前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記ジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納するジョブ実行指示手段、
再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築するジョブDB再構築手段、
として機能させることを特徴とするジョブ管理プログラム。
1a,3a,4a ジョブDB
1aa,2a ジョブ投入情報
1ab,2b ジョブ配置情報
1ac,1ad,3aa,3ab,4aa 実行資源情報
1b ジョブ実行依頼受付手段
1c ジョブ実行指示手段
1d ジョブDB再構築手段
2 ストレージデバイス
3,4 計算ノード
5 ジョブ投入装置
6 並列ジョブ
Claims (6)
- 複数の計算ノードにジョブの実行を指示すると共に、ストレージデバイスが接続されたジョブ管理装置において、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶するジョブDBと、
ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記ジョブDBとに格納するジョブ実行依頼受付手段と、
前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記ジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納するジョブ実行指示手段と、
再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築するジョブDB再構築手段と、
を有することを特徴とするジョブ管理装置。 - 前記ジョブ実行指示手段は、前記ジョブ被配置計算ノードの中の1台をジョブマスタノード、前記ジョブマスタノード以外の前記計算ノードをジョブスレーブノードとし、前記ジョブマスタノードに対してすべての前記ジョブ被配置計算ノードの前記実行資源情報を付加したジョブ実行指示を送信し、前記ジョブスレーブノードに対して前記ジョブスレーブノード自身の実行資源情報を付加したジョブ実行指示を送信し、
前記ジョブDB再構築手段は、再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブマスタノードから前記ジョブ被配置計算ノードすべての実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築することを特徴とする請求項1記載のジョブ管理装置。 - 前記ジョブ実行指示手段は、再起動処理が行われた場合、複数の前記計算ノードに対してノード組み込み依頼を送信し、前記ノード組み込み依頼に応じて前記計算ノードから通知されるノード情報を取得し、前記ジョブ配置情報に含まれるすべての前記ジョブ被配置計算ノードから前記ノード情報を取得できたか否かにより、前記ジョブを続行できるかどうかを判断し、続行できる場合、ジョブ運用再開を前記ジョブ被配置計算ノードに対して送信し、続行できない場合、前記ジョブ被配置計算ノードに対してジョブの中止を指示すると共に、前記ジョブ被配置計算ノードに対して前記ジョブ被配置計算ノード自身の前記実行資源情報を付加した前記ジョブ実行指示を送信することを特徴とする請求項1記載のジョブ管理装置。
- 投入されたジョブを実行するクラスタシステムにおいて、
ストレージデバイスと、
複数の計算ノードと、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶するジョブDBと、ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記ジョブDBとに格納するジョブ実行依頼受付手段と、前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記ジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納するジョブ実行指示手段と、再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築するジョブDB再構築手段と、を具備する管理ノードと、
を有することを特徴とするクラスタシステム。 - 投入されたジョブを実行するクラスタシステムにおいて、
ストレージデバイスと、
複数の計算ノードと、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶する第1のジョブDBと、ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記第1のジョブDBとに格納するジョブ実行依頼受付手段と、前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記第1のジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納する第1のジョブ実行指示手段と、を具備する第1の管理ノードと、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶する第2のジョブDBと、前記第1の管理ノードの機能が停止したことを検出した場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記第2のジョブDB内に前記ジョブ情報を構築するジョブDB再構築手段と、前記第1の管理ノードの機能が停止したことを検出した場合、複数の前記計算ノードに対してノード組み込み依頼を送信する第2のジョブ実行指示手段と、を具備する第2の管理ノードと、
を有することを特徴とするクラスタシステム。 - 複数の計算ノードにジョブの実行を指示すると共に、ストレージデバイスが接続された
コンピュータを、
メインメモリ内に設けられ、ジョブ毎のジョブ情報を記憶するジョブDB、
ジョブ実行依頼が入力されると、前記ジョブ実行依頼の内容、依頼されたジョブのジョブID、および前記ジョブ実行依頼の投入元の識別情報を含むジョブ投入情報を前記ストレージデバイスと前記ジョブDBとに格納するジョブ実行依頼受付手段、
前記ジョブ実行依頼受付手段が受け付けた前記ジョブ実行依頼の割り当て先となる1台以上の前記計算ノードをジョブ被配置計算ノードに決定し、前記ジョブ被配置計算ノードに対して前記ジョブの実行に使用すべき資源を示す実行資源情報を付加したジョブ実行指示を送信し、前記ジョブIDに対応付けて、前記ジョブ被配置計算ノードの一覧を含むジョブ配置情報と前記ジョブ被配置計算ノードそれぞれの前記実行資源情報とを前記ジョブDBに格納し、前記ジョブIDに対応付けて前記ジョブ配置情報を前記ストレージデバイスに格納するジョブ実行指示手段、
再起動処理によって前記ジョブDBの内容が失われた場合、前記ストレージデバイスから前記ジョブ投入情報と前記ジョブ配置情報とを収集し、前記ジョブ被配置計算ノードから前記実行資源情報を収集し、前記ジョブDB内に前記ジョブ情報を再構築するジョブDB再構築手段、
として機能させることを特徴とするジョブ管理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007046434A JP5018133B2 (ja) | 2007-02-27 | 2007-02-27 | ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム |
US12/027,499 US8074222B2 (en) | 2007-02-27 | 2008-02-07 | Job management device, cluster system, and computer-readable medium storing job management program |
EP08101842A EP2012234A3 (en) | 2007-02-27 | 2008-02-21 | Job management device, cluster system, and job management program |
KR1020080017363A KR100987746B1 (ko) | 2007-02-27 | 2008-02-26 | 작업 관리 장치, 클러스터 시스템 및 작업 관리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007046434A JP5018133B2 (ja) | 2007-02-27 | 2007-02-27 | ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008210164A JP2008210164A (ja) | 2008-09-11 |
JP5018133B2 true JP5018133B2 (ja) | 2012-09-05 |
Family
ID=39717413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007046434A Expired - Fee Related JP5018133B2 (ja) | 2007-02-27 | 2007-02-27 | ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8074222B2 (ja) |
EP (1) | EP2012234A3 (ja) |
JP (1) | JP5018133B2 (ja) |
KR (1) | KR100987746B1 (ja) |
Families Citing this family (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010071884A2 (en) * | 2008-12-19 | 2010-06-24 | Watchguard Technologies, Inc. | Self-monitoring cluster of network security devices |
US8832173B2 (en) * | 2009-01-20 | 2014-09-09 | Sap Ag | System and method of multithreaded processing across multiple servers |
JP5276456B2 (ja) * | 2009-01-23 | 2013-08-28 | アルパイン株式会社 | データ処理システム |
US20100333094A1 (en) * | 2009-06-24 | 2010-12-30 | Mark Restall | Job-processing nodes synchronizing job databases |
US8205113B2 (en) * | 2009-07-14 | 2012-06-19 | Ab Initio Technology Llc | Fault tolerant batch processing |
JP2011123817A (ja) * | 2009-12-14 | 2011-06-23 | Fujitsu Ltd | ジョブ振分装置、ジョブ振分プログラム及びジョブ振分方法 |
WO2012101785A1 (ja) * | 2011-01-26 | 2012-08-02 | 富士通株式会社 | 管理装置、管理方法および管理プログラム |
US8863133B2 (en) * | 2011-06-02 | 2014-10-14 | Microsoft Corporation | License management in a cluster environment |
US8621473B2 (en) | 2011-08-01 | 2013-12-31 | Honeywell International Inc. | Constrained rate monotonic analysis and scheduling |
US8875146B2 (en) * | 2011-08-01 | 2014-10-28 | Honeywell International Inc. | Systems and methods for bounding processing times on multiple processing units |
FR2980007B1 (fr) * | 2011-09-13 | 2013-09-27 | Bull Sas | Procede, dispositif et programme d'ordinateur pour allouer dynamiquement des ressources d'un cluster a l'execution de processus d'une application |
KR101827289B1 (ko) * | 2011-11-08 | 2018-03-23 | 한국전자통신연구원 | 실시간 운영체제에서 태스크 스케줄링 방법 |
US9207977B2 (en) | 2012-02-06 | 2015-12-08 | Honeywell International Inc. | Systems and methods for task grouping on multi-processors |
JP2013243802A (ja) * | 2012-05-18 | 2013-12-05 | Mitsubishi Electric Corp | 電力系統監視制御システム |
US9612868B2 (en) | 2012-10-31 | 2017-04-04 | Honeywell International Inc. | Systems and methods generating inter-group and intra-group execution schedules for instruction entity allocation and scheduling on multi-processors |
KR101446723B1 (ko) * | 2012-11-30 | 2014-10-06 | 한국과학기술정보연구원 | 작업 실행 관리 방법, 작업 실행 관리 장치, 및 작업 실행을 관리하는 프로그램을 저장하는 저장매체 |
US8943353B2 (en) * | 2013-01-31 | 2015-01-27 | Hewlett-Packard Development Company, L.P. | Assigning nodes to jobs based on reliability factors |
JP6192423B2 (ja) | 2013-08-12 | 2017-09-06 | キヤノン株式会社 | 情報処理装置及び情報処理方法、情報処理システム、プログラム |
US9613094B2 (en) * | 2013-10-29 | 2017-04-04 | Sap Se | Constant mapping optimization in a database |
US9413849B2 (en) * | 2013-12-05 | 2016-08-09 | International Business Machines Corporation | Distributing an executable job load file to compute nodes in a parallel computer |
US9847918B2 (en) * | 2014-08-12 | 2017-12-19 | Microsoft Technology Licensing, Llc | Distributed workload reassignment following communication failure |
US10048974B1 (en) | 2014-09-30 | 2018-08-14 | Amazon Technologies, Inc. | Message-based computation request scheduling |
US9715402B2 (en) | 2014-09-30 | 2017-07-25 | Amazon Technologies, Inc. | Dynamic code deployment and versioning |
US9323556B2 (en) | 2014-09-30 | 2016-04-26 | Amazon Technologies, Inc. | Programmatic event detection and message generation for requests to execute program code |
US9678773B1 (en) | 2014-09-30 | 2017-06-13 | Amazon Technologies, Inc. | Low latency computational capacity provisioning |
US9600312B2 (en) | 2014-09-30 | 2017-03-21 | Amazon Technologies, Inc. | Threading as a service |
US9830193B1 (en) | 2014-09-30 | 2017-11-28 | Amazon Technologies, Inc. | Automatic management of low latency computational capacity |
US9146764B1 (en) | 2014-09-30 | 2015-09-29 | Amazon Technologies, Inc. | Processing event messages for user requests to execute program code |
CN107111532B (zh) * | 2014-10-20 | 2021-03-05 | 起元科技有限公司 | 计算不确定性情况下的恢复和容错 |
US9413626B2 (en) | 2014-12-05 | 2016-08-09 | Amazon Technologies, Inc. | Automatic management of resource sizing |
JP6067039B2 (ja) * | 2015-01-28 | 2017-01-25 | キヤノン株式会社 | 印刷に要する時間の予測値を求める画像処理装置、画像処理方法およびそのプログラム |
US9733967B2 (en) | 2015-02-04 | 2017-08-15 | Amazon Technologies, Inc. | Security protocols for low latency execution of program code |
US9588790B1 (en) | 2015-02-04 | 2017-03-07 | Amazon Technologies, Inc. | Stateful virtual compute system |
US20160275123A1 (en) * | 2015-03-18 | 2016-09-22 | Hitachi, Ltd. | Pipeline execution of multiple map-reduce jobs |
US9930103B2 (en) | 2015-04-08 | 2018-03-27 | Amazon Technologies, Inc. | Endpoint management system providing an application programming interface proxy service |
US9785476B2 (en) | 2015-04-08 | 2017-10-10 | Amazon Technologies, Inc. | Endpoint management system and virtual compute system |
EP3255543B1 (en) * | 2015-04-14 | 2019-06-05 | Huawei Technologies Co., Ltd. | Process management method, apparatus and device |
US10185647B2 (en) * | 2015-09-25 | 2019-01-22 | Microsoft Technology Licensing, Llc | Debugging remote vertex code on test machine |
US10437585B2 (en) * | 2015-10-23 | 2019-10-08 | Oracle International Corporation | Managing highly scalable continuous delivery pipelines |
US10754701B1 (en) | 2015-12-16 | 2020-08-25 | Amazon Technologies, Inc. | Executing user-defined code in response to determining that resources expected to be utilized comply with resource restrictions |
US9811434B1 (en) | 2015-12-16 | 2017-11-07 | Amazon Technologies, Inc. | Predictive management of on-demand code execution |
US10067801B1 (en) | 2015-12-21 | 2018-09-04 | Amazon Technologies, Inc. | Acquisition and maintenance of compute capacity |
US9910713B2 (en) | 2015-12-21 | 2018-03-06 | Amazon Technologies, Inc. | Code execution request routing |
US11132213B1 (en) | 2016-03-30 | 2021-09-28 | Amazon Technologies, Inc. | Dependency-based process of pre-existing data sets at an on demand code execution environment |
US10891145B2 (en) | 2016-03-30 | 2021-01-12 | Amazon Technologies, Inc. | Processing pre-existing data sets at an on demand code execution environment |
US10282229B2 (en) | 2016-06-28 | 2019-05-07 | Amazon Technologies, Inc. | Asynchronous task management in an on-demand network code execution environment |
US10102040B2 (en) | 2016-06-29 | 2018-10-16 | Amazon Technologies, Inc | Adjusting variable limit on concurrent code executions |
US10277708B2 (en) * | 2016-06-30 | 2019-04-30 | Amazon Technologies, Inc. | On-demand network code execution with cross-account aliases |
EP3479229A1 (en) * | 2016-06-30 | 2019-05-08 | Amazon Technologies Inc. | On-demand code execution using cross-account aliases |
US10061613B1 (en) | 2016-09-23 | 2018-08-28 | Amazon Technologies, Inc. | Idempotent task execution in on-demand network code execution systems |
US10884787B1 (en) | 2016-09-23 | 2021-01-05 | Amazon Technologies, Inc. | Execution guarantees in an on-demand network code execution system |
US11119813B1 (en) | 2016-09-30 | 2021-09-14 | Amazon Technologies, Inc. | Mapreduce implementation using an on-demand network code execution system |
JP6546235B2 (ja) * | 2017-09-15 | 2019-07-17 | 株式会社日立製作所 | ストレージシステム |
US10564946B1 (en) | 2017-12-13 | 2020-02-18 | Amazon Technologies, Inc. | Dependency handling in an on-demand network code execution system |
US10831898B1 (en) | 2018-02-05 | 2020-11-10 | Amazon Technologies, Inc. | Detecting privilege escalations in code including cross-service calls |
US10733085B1 (en) | 2018-02-05 | 2020-08-04 | Amazon Technologies, Inc. | Detecting impedance mismatches due to cross-service calls |
US10353678B1 (en) | 2018-02-05 | 2019-07-16 | Amazon Technologies, Inc. | Detecting code characteristic alterations due to cross-service calls |
US10725752B1 (en) | 2018-02-13 | 2020-07-28 | Amazon Technologies, Inc. | Dependency handling in an on-demand network code execution system |
US10776091B1 (en) | 2018-02-26 | 2020-09-15 | Amazon Technologies, Inc. | Logging endpoint in an on-demand code execution system |
US10853115B2 (en) | 2018-06-25 | 2020-12-01 | Amazon Technologies, Inc. | Execution of auxiliary functions in an on-demand network code execution system |
US10649749B1 (en) | 2018-06-26 | 2020-05-12 | Amazon Technologies, Inc. | Cross-environment application of tracing information for improved code execution |
US11146569B1 (en) | 2018-06-28 | 2021-10-12 | Amazon Technologies, Inc. | Escalation-resistant secure network services using request-scoped authentication information |
US10949237B2 (en) | 2018-06-29 | 2021-03-16 | Amazon Technologies, Inc. | Operating system customization in an on-demand network code execution system |
US11099870B1 (en) | 2018-07-25 | 2021-08-24 | Amazon Technologies, Inc. | Reducing execution times in an on-demand network code execution system using saved machine states |
US11182209B2 (en) * | 2018-09-21 | 2021-11-23 | Google Llc | Distributed job scheduling system |
US11243953B2 (en) | 2018-09-27 | 2022-02-08 | Amazon Technologies, Inc. | Mapreduce implementation in an on-demand network code execution system and stream data processing system |
US11099917B2 (en) | 2018-09-27 | 2021-08-24 | Amazon Technologies, Inc. | Efficient state maintenance for execution environments in an on-demand code execution system |
US11943093B1 (en) | 2018-11-20 | 2024-03-26 | Amazon Technologies, Inc. | Network connection recovery after virtual machine transition in an on-demand network code execution system |
US10884812B2 (en) | 2018-12-13 | 2021-01-05 | Amazon Technologies, Inc. | Performance-based hardware emulation in an on-demand network code execution system |
KR102257012B1 (ko) * | 2019-01-14 | 2021-05-27 | (주) 익투스지노믹스 | 다양한 클라우드에 적용 가능한 대용량 데이터 처리용 분산 처리 시스템의 설치방법 |
US11010188B1 (en) | 2019-02-05 | 2021-05-18 | Amazon Technologies, Inc. | Simulated data object storage using on-demand computation of data objects |
US11861386B1 (en) | 2019-03-22 | 2024-01-02 | Amazon Technologies, Inc. | Application gateways in an on-demand network code execution system |
US11119809B1 (en) | 2019-06-20 | 2021-09-14 | Amazon Technologies, Inc. | Virtualization-based transaction handling in an on-demand network code execution system |
US11115404B2 (en) | 2019-06-28 | 2021-09-07 | Amazon Technologies, Inc. | Facilitating service connections in serverless code executions |
US11159528B2 (en) | 2019-06-28 | 2021-10-26 | Amazon Technologies, Inc. | Authentication to network-services using hosted authentication information |
US11190609B2 (en) | 2019-06-28 | 2021-11-30 | Amazon Technologies, Inc. | Connection pooling for scalable network services |
US11106477B2 (en) | 2019-09-27 | 2021-08-31 | Amazon Technologies, Inc. | Execution of owner-specified code during input/output path to object storage service |
US11250007B1 (en) | 2019-09-27 | 2022-02-15 | Amazon Technologies, Inc. | On-demand execution of object combination code in output path of object storage service |
US10908927B1 (en) | 2019-09-27 | 2021-02-02 | Amazon Technologies, Inc. | On-demand execution of object filter code in output path of object storage service |
US11023416B2 (en) | 2019-09-27 | 2021-06-01 | Amazon Technologies, Inc. | Data access control system for object storage service based on owner-defined code |
US11550944B2 (en) | 2019-09-27 | 2023-01-10 | Amazon Technologies, Inc. | Code execution environment customization system for object storage service |
US11386230B2 (en) | 2019-09-27 | 2022-07-12 | Amazon Technologies, Inc. | On-demand code obfuscation of data in input path of object storage service |
US11416628B2 (en) | 2019-09-27 | 2022-08-16 | Amazon Technologies, Inc. | User-specific data manipulation system for object storage service based on user-submitted code |
US11656892B1 (en) | 2019-09-27 | 2023-05-23 | Amazon Technologies, Inc. | Sequential execution of user-submitted code and native functions |
US11394761B1 (en) | 2019-09-27 | 2022-07-19 | Amazon Technologies, Inc. | Execution of user-submitted code on a stream of data |
US11360948B2 (en) | 2019-09-27 | 2022-06-14 | Amazon Technologies, Inc. | Inserting owner-specified data processing pipelines into input/output path of object storage service |
US10996961B2 (en) | 2019-09-27 | 2021-05-04 | Amazon Technologies, Inc. | On-demand indexing of data in input path of object storage service |
US11023311B2 (en) | 2019-09-27 | 2021-06-01 | Amazon Technologies, Inc. | On-demand code execution in input path of data uploaded to storage service in multiple data portions |
US11055112B2 (en) | 2019-09-27 | 2021-07-06 | Amazon Technologies, Inc. | Inserting executions of owner-specified code into input/output path of object storage service |
US11263220B2 (en) | 2019-09-27 | 2022-03-01 | Amazon Technologies, Inc. | On-demand execution of object transformation code in output path of object storage service |
US10942795B1 (en) | 2019-11-27 | 2021-03-09 | Amazon Technologies, Inc. | Serverless call distribution to utilize reserved capacity without inhibiting scaling |
US11119826B2 (en) | 2019-11-27 | 2021-09-14 | Amazon Technologies, Inc. | Serverless call distribution to implement spillover while avoiding cold starts |
US11714682B1 (en) | 2020-03-03 | 2023-08-01 | Amazon Technologies, Inc. | Reclaiming computing resources in an on-demand code execution system |
US11188391B1 (en) | 2020-03-11 | 2021-11-30 | Amazon Technologies, Inc. | Allocating resources to on-demand code executions under scarcity conditions |
US11775640B1 (en) | 2020-03-30 | 2023-10-03 | Amazon Technologies, Inc. | Resource utilization-based malicious task detection in an on-demand code execution system |
US11948010B2 (en) * | 2020-10-12 | 2024-04-02 | International Business Machines Corporation | Tag-driven scheduling of computing resources for function execution |
US11550713B1 (en) | 2020-11-25 | 2023-01-10 | Amazon Technologies, Inc. | Garbage collection in distributed systems using life cycled storage roots |
US11593270B1 (en) | 2020-11-25 | 2023-02-28 | Amazon Technologies, Inc. | Fast distributed caching using erasure coded object parts |
US11388210B1 (en) | 2021-06-30 | 2022-07-12 | Amazon Technologies, Inc. | Streaming analytics using a serverless compute system |
US11968280B1 (en) | 2021-11-24 | 2024-04-23 | Amazon Technologies, Inc. | Controlling ingestion of streaming data to serverless function executions |
US12015603B2 (en) | 2021-12-10 | 2024-06-18 | Amazon Technologies, Inc. | Multi-tenant mode for serverless code execution |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5313584A (en) * | 1991-11-25 | 1994-05-17 | Unisys Corporation | Multiple I/O processor system |
JPH0696041A (ja) * | 1992-09-11 | 1994-04-08 | Hitachi Ltd | 高信頼型分散処理システム |
US5566297A (en) * | 1994-06-16 | 1996-10-15 | International Business Machines Corporation | Non-disruptive recovery from file server failure in a highly available file system for clustered computing environments |
JP3451415B2 (ja) | 1996-03-29 | 2003-09-29 | 富士通株式会社 | ネットワーク管理システムのデータベース同期方法 |
US6065018A (en) * | 1998-03-04 | 2000-05-16 | International Business Machines Corporation | Synchronizing recovery log having time stamp to a remote site for disaster recovery of a primary database having related hierarchial and relational databases |
JP2003076660A (ja) * | 2001-09-04 | 2003-03-14 | Fujitsu Ltd | サーバ及びクライアント・サーバシステム |
JP2003345747A (ja) * | 2002-05-27 | 2003-12-05 | Nippon Telegr & Teleph Corp <Ntt> | 処理実行管理方法、処理実行管理装置、プログラム、及びプログラムを記録した記録媒体 |
JP4166056B2 (ja) * | 2002-08-16 | 2008-10-15 | 富士通株式会社 | データベース操作履歴管理装置、データベース操作履歴管理方法、およびデータベース操作履歴管理プログラム |
KR100519453B1 (ko) * | 2002-12-20 | 2005-10-06 | 유징테크주식회사 | 객체지향 응용프로그램에서 사용되는 데이터베이스 작업제어장치 및 방법 |
JP4345334B2 (ja) * | 2003-03-28 | 2009-10-14 | 日本電気株式会社 | 耐障害計算機システム、プログラム並列実行方法およびプログラム |
JP4294353B2 (ja) | 2003-03-28 | 2009-07-08 | 株式会社日立製作所 | ジョブ管理機能を有するストレージ系障害管理方法及び装置 |
US7562254B2 (en) * | 2003-07-01 | 2009-07-14 | International Business Machines Corporation | Checkpointing and restarting long running web services |
JP2005031771A (ja) * | 2003-07-08 | 2005-02-03 | Hitachi Ltd | ジョブスケジューリング管理方法及びシステム並びにプログラム |
US20050022202A1 (en) * | 2003-07-09 | 2005-01-27 | Sun Microsystems, Inc. | Request failover mechanism for a load balancing system |
US7085962B1 (en) * | 2003-09-08 | 2006-08-01 | Veritas Operating Corporation | Method and system for completing a backup job that was interrupted during a backup process |
US7861246B2 (en) * | 2004-06-17 | 2010-12-28 | Platform Computing Corporation | Job-centric scheduling in a grid environment |
US20060089935A1 (en) * | 2004-10-26 | 2006-04-27 | Microsoft Corporation | Failover and load balancing for server clusters |
US7933947B2 (en) * | 2004-12-28 | 2011-04-26 | Sap Ag | Connection manager that supports failover protection |
US20060198386A1 (en) * | 2005-03-01 | 2006-09-07 | Tong Liu | System and method for distributed information handling system cluster active-active master node |
JP4533251B2 (ja) * | 2005-06-09 | 2010-09-01 | キヤノン株式会社 | 情報処理システムおよびジョブ割り当て方法 |
US8284423B2 (en) * | 2006-04-07 | 2012-10-09 | Ricoh Production Print Solutions LLC | Customer-configurable print workflow system |
US7840969B2 (en) * | 2006-04-28 | 2010-11-23 | Netapp, Inc. | System and method for management of jobs in a cluster environment |
US7669081B2 (en) * | 2006-09-27 | 2010-02-23 | Raytheon Company | Systems and methods for scheduling, processing, and monitoring tasks |
US7779298B2 (en) * | 2007-06-11 | 2010-08-17 | International Business Machines Corporation | Distributed job manager recovery |
-
2007
- 2007-02-27 JP JP2007046434A patent/JP5018133B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-07 US US12/027,499 patent/US8074222B2/en not_active Expired - Fee Related
- 2008-02-21 EP EP08101842A patent/EP2012234A3/en not_active Ceased
- 2008-02-26 KR KR1020080017363A patent/KR100987746B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20080079618A (ko) | 2008-09-01 |
JP2008210164A (ja) | 2008-09-11 |
EP2012234A3 (en) | 2009-09-30 |
US8074222B2 (en) | 2011-12-06 |
EP2012234A2 (en) | 2009-01-07 |
US20080209423A1 (en) | 2008-08-28 |
KR100987746B1 (ko) | 2010-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5018133B2 (ja) | ジョブ管理装置、クラスタシステム、およびジョブ管理プログラム | |
US7877560B2 (en) | Storage system with automated resource allocation | |
JP4774085B2 (ja) | ストレージシステム | |
JP3938475B2 (ja) | バックアップ処理方法及びその実施システム並びにその処理プログラム | |
US20060212668A1 (en) | Remote copy method and storage system | |
JP2008015888A (ja) | 負荷分散制御システム及び負荷分散制御方法 | |
JP2002073576A (ja) | バッチジョブ制御システム | |
WO2014080492A1 (ja) | 計算機システム、クラスタ管理方法、及び管理計算機 | |
JP2010128885A (ja) | ストレージシステムのアップデート処理プログラム、アップデート処理方法及びストレージシステム | |
JP5052150B2 (ja) | ストレージシステム | |
JPH07230372A (ja) | 印刷システム | |
JP5250955B2 (ja) | データ処理システムのバックアップ制御装置及びシステム | |
JP4322240B2 (ja) | 再起動方法、システム及びプログラム | |
JP4074442B2 (ja) | データのバックアップのための方法、装置、システム、プログラム及び記憶媒体 | |
JP3748708B2 (ja) | クライアント/サーバシステム、クライアントコンピュータ及び記録媒体 | |
US20050193230A1 (en) | Metadata access during error handling routines | |
JP4869028B2 (ja) | 映像蓄積配信システム及び映像蓄積配信方法 | |
JPH08221372A (ja) | 分散処理システムにおける空き資源管理装置 | |
JP5067075B2 (ja) | 疎結合システム、待機系排他制御装置、疎結合システムのリカバリ方法、プログラムおよび記憶媒体 | |
JP4099115B2 (ja) | ジョブ実行システム及び実行制御方法 | |
JP2008084327A (ja) | データのバックアップのための方法、装置、システム、プログラム及び記憶媒体 | |
JP6128131B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP5297250B2 (ja) | ストレージシステム、および情報格納方法 | |
JP2010140106A (ja) | ジョブ実行システム、該システムに用いられるジョブフロー引継ぎ方法及びジョブフロー引継ぎ制御プログラム | |
JP2669363B2 (ja) | クラスタ結合型マルチプロセッサシステムのシステムコールに伴うプロセス切り換え制御方法およびその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5018133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |