JPH1185707A - Selection method/device for job input computer for parallel computer - Google Patents

Selection method/device for job input computer for parallel computer

Info

Publication number
JPH1185707A
JPH1185707A JP23917897A JP23917897A JPH1185707A JP H1185707 A JPH1185707 A JP H1185707A JP 23917897 A JP23917897 A JP 23917897A JP 23917897 A JP23917897 A JP 23917897A JP H1185707 A JPH1185707 A JP H1185707A
Authority
JP
Japan
Prior art keywords
job
rank
node
computer
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23917897A
Other languages
Japanese (ja)
Inventor
Kazuhiko Watanabe
和彦 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP23917897A priority Critical patent/JPH1185707A/en
Publication of JPH1185707A publication Critical patent/JPH1185707A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To consider the reliability of a node anti to schedule a job at the time of selecting the node being the objet of job input from among plural nodes (computers) constituting a parallel computer. SOLUTION: A reliability data registration part 15 collects reliability data of the respective nodes and a node rank registration part 11 divides data into reliability ranks in accordance with the degree of reliability and registers them in a node rank table 12. A job rank decision part 10 decides the ranks of the jobs from the priority of the inputted job and the ranks of the jobs registered in a job rank table 16. A node selection part 13 refers to the node rank table 12 and selects the node having the same reliability rank as the priority rank of the job as the computer inputting the job. A job supply part 14 supplies the job to the selected node.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、並列計算機におい
てジョブの投入対象とする計算機を選択する方法に係わ
り、特に計算機の信頼度に基づいてジョブ投入計算機を
決定する方法に関する。
The present invention relates to a method for selecting a computer to which a job is to be submitted in a parallel computer, and more particularly to a method for determining a job submission computer based on the reliability of the computer.

【0002】[0002]

【従来の技術】並列計算機を構成する複数の計算機の中
からジョブ投入の対象とする計算機を選択する従来のス
ケジューリング方法として、例えば特開平5−1202
43号公報のように計算機負荷の最も小さい計算機を選
択する方法が知られている。
2. Description of the Related Art A conventional scheduling method for selecting a computer to which a job is to be submitted from among a plurality of computers constituting a parallel computer is disclosed in, for example, Japanese Patent Laid-Open No. 5-1202.
There is known a method of selecting a computer with the smallest computer load as disclosed in JP-A-43-43.

【0003】[0003]

【発明が解決しようとする課題】並列計算機システム
は、複数のノードと呼ばれる計算機から構成され、各ノ
ードはプロセッサを有し、処理が並列に行われる。ノー
ド数を増やすことにより並列計算機の能力を向上させる
ことができ、またノードの追加は比較的容易に行えるた
め、処理能力のニーズに合わせてノードを増設すること
が行われる。その結果として、製造時期の古いノード
(特にプロセッサ)と新しいノードとが混在することが
ある。ノードの製造時期が異なるということは、ノード
の信頼度が異なるということである。従ってジョブ投入
のスケジューリングをするとき、ノードの信頼度を考慮
する必要がある。
The parallel computer system is composed of computers called a plurality of nodes, each of which has a processor, and performs processing in parallel. The capacity of the parallel computer can be improved by increasing the number of nodes, and nodes can be added relatively easily. Therefore, the number of nodes is increased according to the need for processing capacity. As a result, nodes with an old manufacturing time (particularly, processors) and new nodes may be mixed. The fact that the nodes are manufactured at different times means that the reliability of the nodes is different. Therefore, when scheduling the job submission, it is necessary to consider the reliability of the node.

【0004】本発明の目的は、ノードの信頼度を考慮す
るジョブのスケジューリング方法を提供することにあ
る。
An object of the present invention is to provide a job scheduling method that takes into account the reliability of a node.

【0005】[0005]

【課題を解決するための手段】本発明は、並列計算機を
構成する計算機の各々について信頼度データを収集して
信頼度の程度に従って複数の信頼度ランクのいずれかに
区分し、ジョブについての情報を入力しジョブの優先度
の程度に従って信頼度ランクと同じランク数をもつ優先
度ランクのいずれかに区分し、ジョブの優先度ランクと
同じ信頼度ランクをもつ計算機をジョブ投入する計算機
として選択するジョブ投入計算機の選択方法を特徴とす
る。
SUMMARY OF THE INVENTION According to the present invention, reliability data is collected for each of the computers constituting a parallel computer, classified into one of a plurality of reliability ranks according to the degree of reliability, and information about a job is obtained. Is input, the job is classified into any one of the priority ranks having the same rank number as the reliability rank according to the priority level of the job, and the computer having the same reliability rank as the job priority rank is selected as the computer to which the job is input. It is characterized by a method of selecting a job input computer.

【0006】[0006]

【発明の実施の形態】以下、本発明の一実施形態につい
て図面を用いて説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below with reference to the drawings.

【0007】図1は、本実施形態の並列計算機システム
の構成図である。システムは、ジョブの投入を制御する
計算機であるノード1と、ノード1と伝送路20を介し
て接続され、ジョブを実行する複数の計算機であるノー
ド31,32,・・・33から構成される。ここでノー
ドとは、プロセッサとプロセッサに接続される入出力装
置、記憶装置、通信制御装置等を含む計算機である。ノ
ード31,32,・・・33の各々は、並列計算機を構
成する計算機である。ノード1は、この並列計算機を構
成する計算機の1つであってもよいし、別の独立した計
算機であってもよい。入力装置2は、ノード1に接続さ
れ、ジョブについての情報(JCL)を格納する外部記
憶装置などである。ノード1の記憶装置は、ノードラン
クテーブル12及びジョブランクテーブル16を格納す
る。ノードランクテーブル12は、ノード31,32,
・・・33の各ノードを信頼性の観点からランク付けす
るテーブルである。ジョブランクテーブル16は、ジョ
ブを優先度の観点からランク付けするテーブルである。
ノード1の主記憶装置にはノードランク登録部11、信
頼度データ登録部15、ジョブランク判定部10、ノー
ド選択部13及びジョブ投入部14の各プログラムが格
納され、実行される。これらのプログラムは、一般にオ
ペレーティングシステム(OS)の一部であるジョブ管
理プログラムの中に含まれる。信頼度データ登録部15
は、周期的にノード31,32,・・・33の各ノード
から信頼度データを収集し、信頼度データからノードの
MTBF(JIS規格X0014による平均故障間隔)
または故障率を計算してノードランクテーブル12に登
録する。ノードランク登録部11は、信頼度データ登録
部15によって起動され、ノードランクテーブル12か
ら各ノードのMTBF又は故障率を読み出してノードの
ランクを求め、ノードランクテーブル12に登録する。
ジョブランク判定部10は、入力装置2からジョブ情報
を入力し、指定された優先度からジョブのランクを判定
する。ジョブ情報に優先度の指定がなく、ジョブランク
テーブル16にジョブランクが登録されていれば、登録
されたランクを採用する。ノード選択部13は、ノード
ランクテーブル12を参照して決定したジョブの優先度
ランクに等しい信頼度ランクをもつノードを選択する。
ジョブ投入部14は、選択されたノードにジョブを投入
する。ノード31,32,・・・33の各ノードは、O
Sを有し、そのジョブ管理プログラムは投入されたジョ
ブのJCLを受け取ってジョブの実行を開始する。なお
以下の説明では、簡単のためにすべてのノード31,3
2,・・・33のプロセッサ性能が同じとする。また各
ノードは、ジョブを実行するために必要なプログラム、
記憶装置、入出力装置等の資源を備えているものとす
る。またノード1内の上記プログラムを記憶媒体に格納
し、ノード1に接続された駆動装置を介してノード1の
主記憶装置に読み込み、実行することができる。
FIG. 1 is a configuration diagram of a parallel computer system according to the present embodiment. The system includes a node 1 that is a computer that controls the submission of a job, and nodes 31, 32,... 33 that are connected to the node 1 via a transmission line 20 and are a plurality of computers that execute the job. . Here, the node is a computer including a processor and an input / output device connected to the processor, a storage device, a communication control device, and the like. Each of the nodes 31, 32,... 33 is a computer constituting a parallel computer. The node 1 may be one of the computers constituting the parallel computer, or may be another independent computer. The input device 2 is an external storage device that is connected to the node 1 and stores information (JCL) on a job. The storage device of the node 1 stores a node rank table 12 and a job rank table 16. The node rank table 12 includes nodes 31, 32,
.. Is a table for ranking each of the 33 nodes from the viewpoint of reliability. The job rank table 16 is a table for ranking jobs from the viewpoint of priority.
Each program of the node rank registration unit 11, the reliability data registration unit 15, the job rank determination unit 10, the node selection unit 13, and the job submission unit 14 is stored and executed in the main storage device of the node 1. These programs are generally included in a job management program that is a part of an operating system (OS). Reliability data registration unit 15
33 periodically collects reliability data from each of the nodes 31, 32,... 33, and calculates the MTBF (mean failure interval according to JIS standard X0014) of the node from the reliability data.
Alternatively, the failure rate is calculated and registered in the node rank table 12. The node rank registration unit 11 is started by the reliability data registration unit 15, reads out the MTBF or failure rate of each node from the node rank table 12, obtains a node rank, and registers the node rank in the node rank table 12.
The job rank determining unit 10 receives job information from the input device 2 and determines the rank of the job based on the designated priority. If no priority is specified in the job information and the job rank is registered in the job rank table 16, the registered rank is adopted. The node selection unit 13 selects a node having a reliability rank equal to the job priority rank determined with reference to the node rank table 12.
The job submission unit 14 submits a job to the selected node. Each of the nodes 31, 32,...
S, the job management program receives the JCL of the input job and starts executing the job. In the following description, for simplicity, all nodes 31, 3
2,..., 33 have the same processor performance. Each node has the programs required to execute the job,
It is assumed that resources such as a storage device and an input / output device are provided. Further, the program in the node 1 can be stored in a storage medium, read into a main storage device of the node 1 via a driving device connected to the node 1, and executed.

【0008】図2は、ノードランクテーブル12及びジ
ョブランクテーブル16のデータ構成を示す図である。
ノードランクテーブル12は、各ノードごとにノードの
識別子、MTBF、信頼度のランク及び使用中フラグを
格納する。MTBFはそのノード(あるいはそのノード
を構成するプロセッサ)の最新のMTBF値である。ラ
ンクはMTBFから定まるノードのランクであり、A〜
Cのいずれかにランク付けされる。ノードが使用できな
いとき、ノードはDにランク付けされる。MTBFの代
わりにノードの故障率を信頼度の指標としてもよい。そ
のときにはランクは、故障率から定まる信頼度のランク
である。使用中フラグは、ノードが使用されているか否
かを示すフラグである。
FIG. 2 is a diagram showing a data configuration of the node rank table 12 and the job rank table 16.
The node rank table 12 stores a node identifier, an MTBF, a rank of reliability, and a busy flag for each node. MTBF is the latest MTBF value of the node (or the processor constituting the node). The rank is the rank of the node determined from the MTBF.
C is ranked. When a node is unavailable, it is ranked D. The failure rate of the node may be used as an index of the reliability instead of the MTBF. At that time, the rank is a rank of reliability determined from the failure rate. The busy flag is a flag indicating whether or not the node is being used.

【0009】ジョブランクテーブル16は、各ジョブに
ついてジョブ名と対応する優先度のランクを格納する。
ランクはA〜Cのいずれかにランク付けされる。なおジ
ョブのランクを登録する代わりにジョブ名、ユーザ名又
はプログラム名のみを登録してもよい。
The job rank table 16 stores a job name and a priority rank corresponding to each job.
The rank is ranked as any of AC. Instead of registering the rank of the job, only the job name, user name, or program name may be registered.

【0010】図3は、信頼度データ登録部15及びノー
ドランク登録部11の処理の流れを示すフローチャート
である。信頼度データ登録部15及びノードランク登録
部11は、周期的に起動されて実行される。信頼度デー
タ登録部15は、ノード31,32,・・・33に問い
合わせて各ノードの動作時間データを収集する(ステッ
プ41)。動作時間はノードを構成するプロセッサが故
障なく連続して動作した時間であり、各ノードについて
故障回数だけの連続動作時間が存在する。信頼度データ
登録部15が動作時間を収集できないノードは、使用不
可能のノードとみなす。あるいはノードの使用可能性を
別途問い合わせてチェックしてもよい。次に各ノードに
ついて少なくとも1つの連続動作時間からMTBFを計
算し(ステップ42)、ノードランクテーブル12の当
該ノードの欄に格納する(ステップ43)。各ノードが
連続動作時間の代わりに稼動時間積算値と故障回数を記
録していれば、これらのデータを収集し、MTBFの代
わりに故障率(単位時間当りの故障確率)を計算してノ
ードランクテーブル12に格納する。故障回数が0のノ
ードについては、例えば平均のMTBF又は故障率を仮
定できる。
FIG. 3 is a flowchart showing the processing flow of the reliability data registration unit 15 and the node rank registration unit 11. The reliability data registration unit 15 and the node rank registration unit 11 are started and executed periodically. The reliability data registration unit 15 inquires the nodes 31, 32,... 33 to collect operation time data of each node (step 41). The operation time is the time during which the processors constituting the nodes operate continuously without any failure, and there is a continuous operation time for each node corresponding to the number of failures. A node in which the reliability data registration unit 15 cannot collect the operation time is regarded as an unusable node. Alternatively, the availability of the node may be checked by separately inquiring. Next, an MTBF is calculated from at least one continuous operation time for each node (step 42) and stored in the column of the node in the node rank table 12 (step 43). If each node records the accumulated operation time and the number of failures instead of the continuous operation time, collect these data, calculate the failure rate (failure probability per unit time) instead of MTBF, and calculate the node rank. Stored in table 12. For a node where the number of failures is 0, for example, an average MTBF or failure rate can be assumed.

【0011】次にノードランク登録部11は、ノードラ
ンクテーブル12の終端に達していなければ(ステップ
44NO)、次のノードを選択し(ステップ45)、信
頼度データ登録部15からの報告によってノードが使用
可能か否かを判定する(ステップ46)。ノードが使用
可能であれば(ステップ46YES)、ノードのMTB
FからA〜Cのいずれかにランク付けする(ステップ4
7)。ランク付けの方法として、例えばノードのMTB
Fが正規分布に従って分布していると仮定したとき、M
TBFの平均±分散の範囲をランクBとし、この範囲以
上のMTBFをランクA、この範囲以下のMTBFをラ
ンクCとするなどの方法がある。故障率のランク付けに
ついても同様に故障率の逆数についてA〜Cのランク付
けをすることができる。次に決定したランクをノードラ
ンクテーブル12の当該ノードの欄に格納する(ステッ
プ48)。現在ノードが使用可能でなければ(ステップ
46NO)、ランクDとし、ノードランクテーブル12
の当該ノードの欄に格納する(ステップ48)。ある基
準より悪いMTBF又は故障率をもつノードをランクD
にランク付けしてもよい。ノードランクテーブル12の
終端に達し、すべてのノードの処理を終了したとき(ス
テップ44YES)、処理を終了する。
Next, if the end of the node rank table 12 has not been reached (NO in step 44), the node rank registration unit 11 selects the next node (step 45) and, based on the report from the reliability data registration unit 15, It is determined whether or not is available (step 46). If the node is available (step 46 YES), the MTB of the node
Rank from F to A to C (Step 4)
7). As a method of ranking, for example, the MTB of the node
Assuming that F is distributed according to a normal distribution, M
There is a method in which the range of the average ± variance of the TBF is set to rank B, the MTBF above this range is set to rank A, and the MTBF below this range is set to rank C. Regarding the failure rate ranking, A to C can be similarly ranked for the reciprocal of the failure rate. Next, the determined rank is stored in the column of the node in the node rank table 12 (step 48). If the current node is not usable (step 46 NO), the rank is set to D and the node rank table 12
(Step 48). Rank nodes with MTBF or failure rate worse than certain criteria
May be ranked. When the end of the node rank table 12 has been reached and processing of all nodes has been completed (step 44 YES), the processing ends.

【0012】図4は、ジョブランク判定部10の処理の
流れを示すフローチャートである。ジョブランク判定部
10は、入力装置2から各ジョブ、すなわちジョブのJ
CL(ジョブ制御言語)を入力する。最初にジョブの優
先度のランクをCとする(ステップ51)。ジョブのJ
CLに優先度の指定があれば(ステップ52YES)、
指定された優先度によってランクを変更する(ステップ
54)。JCLに記述されたジョブの優先度のレベル分
けとランクA〜Cが一致していない場合には、ジョブの
優先度をランクA〜Cに変換する。ジョブランクテーブ
ル16に登録されたジョブであれば(ステップ53YE
S)、登録されたランクをジョブのランクとする(ステ
ップ54)。優先度の指定はないが、重要なユーザ又は
ジョブとしてユーザ名又はジョブ名が登録されていれば
(ステップ55YES)、ランクCを1つ上げてBにす
る(ステップ56)。またジョブ情報中に実行を指定さ
れているプログラム名が登録されているプログラムであ
れば(ステップ57YES)、ジョブのランクを1つ上
げる(ステップ58)。登録されているプログラムと
は、例えばプログラム実行途中で実行中断されたとき再
実行できないようなプログラムである。
FIG. 4 is a flowchart showing the flow of the process of the job rank determining section 10. The job rank determination unit 10 determines whether each job, that is, the J
Input CL (job control language). First, the rank of the job priority is set to C (step 51). J of the job
If the CL has a priority designation (step 52 YES),
The rank is changed according to the designated priority (step 54). If the job priority levels described in the JCL do not match the ranks A to C, the job priority is converted to ranks A to C. If the job is a job registered in the job rank table 16 (step 53YE
S), the registered rank is set as the job rank (step 54). Although no priority is specified, if a user name or job name is registered as an important user or job (step 55 YES), rank C is increased by one to B (step 56). If the job information is a program in which the program name designated to be executed is registered (step 57 YES), the rank of the job is increased by one (step 58). The registered program is, for example, a program that cannot be re-executed when the execution is interrupted during the execution of the program.

【0013】図5は、ノード選択部13及びジョブ投入
部14の処理の流れを示すフローチャートである。ノー
ド選択部13は、ノードランクテーブル12を参照して
使用中フラグがオフであり、かつジョブのランクに等し
いランクをもつノードを検索する(ステップ61)。該
当するノードがあれば(ステップ62YES)、ステッ
プ64へ行く。該当ノードがなければ(ステップ62N
O)、上位ランクのノードを選択する(ステップ6
3)。次にノードランクテーブル12の選択したノード
の使用中フラグをオンにする(ステップ64)。ジョブ
投入部14は、選択したノードにジョブを投入する(ス
テップ65)。上位ランクの該当するノードがなければ
ジョブの投入を停止する。この後ジョブはノード31〜
33のうちの選択されたノードで実行される。ノードか
らジョブの終了が報告されたとき、ノード選択部13は
ノードランクテーブル12中の当該ノードの使用中フラ
グをオフにする。なお上記実施形態では使用されていな
いノードを選択したが、使用中フラグの代わりに使用ジ
ョブ数を計数し、ジョブのランクに等しいランクをもつ
ノードを選択するとき、使用ジョブ数が最小でありかつ
ジョブのランクに等しいランクをもつノードを選択する
ようにしてもよい。この場合には、使用ジョブ数が所定
数に達していて使用ジョブ数が最小のノードがないとき
に上位ランクのノードを選択する。
FIG. 5 is a flowchart showing the processing flow of the node selection unit 13 and the job submission unit 14. The node selecting unit 13 refers to the node rank table 12 to search for a node whose busy flag is off and which has a rank equal to the job rank (step 61). If there is a corresponding node (step 62 YES), the procedure goes to step 64. If there is no corresponding node (step 62N
O), select a node of higher rank (step 6)
3). Next, the busy flag of the selected node in the node rank table 12 is turned on (step 64). The job submission unit 14 submits a job to the selected node (Step 65). If there is no corresponding node of the higher rank, the job submission is stopped. After this, the jobs are
Executed on selected node out of 33. When the node reports the end of the job, the node selecting unit 13 turns off the busy flag of the node in the node rank table 12. Although the unused nodes are selected in the above embodiment, the number of used jobs is counted instead of the in-use flag, and when selecting a node having a rank equal to the job rank, the number of used jobs is minimum and A node having a rank equal to the rank of the job may be selected. In this case, when the number of used jobs has reached the predetermined number and there is no node with the smallest number of used jobs, a node with a higher rank is selected.

【0014】[0014]

【発明の効果】本発明によれば、各ノードの信頼度ラン
クとジョブの優先度ランクのマッチングによってジョブ
を投入するノードを決定するので、ジョブの優先度に応
じてジョブの実行環境の信頼性を確保することができ
る。
According to the present invention, the node to which a job is input is determined by matching the reliability rank of each node with the job priority rank. Therefore, the reliability of the job execution environment is determined according to the job priority. Can be secured.

【図面の簡単な説明】[Brief description of the drawings]

【図1】実施形態の並列計算機システムの構成図であ
る。
FIG. 1 is a configuration diagram of a parallel computer system according to an embodiment.

【図2】実施形態のノードランクテーブル12及びジョ
ブランクテーブル16のデータ構成を示す図である。
FIG. 2 is a diagram illustrating a data configuration of a node rank table 12 and a job rank table 16 according to the embodiment.

【図3】実施形態の信頼度データ登録部15及びノード
ランク登録部11の処理の流れを示すフローチャートで
ある。
FIG. 3 is a flowchart illustrating a processing flow of a reliability data registration unit 15 and a node rank registration unit 11 according to the embodiment.

【図4】実施形態のジョブランク判定部10の処理手順
を示すフローチャートである。
FIG. 4 is a flowchart illustrating a processing procedure of a job rank determination unit according to the embodiment.

【図5】実施形態のノード選択部13及びジョブ投入部
14の処理の流れを示すフローチャートである。
FIG. 5 is a flowchart illustrating a processing flow of a node selection unit 13 and a job submission unit 14 according to the embodiment.

【符号の説明】[Explanation of symbols]

1:ノード、10:ジョブランク判定部、11:ノード
ランク登録部、12:ノードランクテーブル、13:ノ
ード選択部、14:ジョブ投入部、15:信頼度データ
登録部、16:ジョブランクテーブル、31,32,3
3:ノード
1: node, 10: job rank determination unit, 11: node rank registration unit, 12: node rank table, 13: node selection unit, 14: job input unit, 15: reliability data registration unit, 16: job rank table, 31, 32, 3
3: Node

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】並列計算機を構成する複数の計算機の中か
らジョブ投入の対象とする計算機を選択する方法におい
て、 並列計算機を構成する計算機の各々について信頼度デー
タを収集して信頼度の程度に従って複数の信頼度ランク
のいずれかに区分し、ジョブについての情報を入力しジ
ョブの優先度の程度に従って該信頼度ランクと同じラン
ク数をもつ優先度ランクのいずれかに区分し、ジョブの
優先度ランクと同じ信頼度ランクをもつ計算機をジョブ
投入する計算機として選択することを特徴とするジョブ
投入計算機の選択方法。
1. A method for selecting a computer to which a job is to be submitted from among a plurality of computers constituting a parallel computer, comprising: collecting reliability data for each of the computers constituting the parallel computer; Divide into any of a plurality of reliability ranks, input information about the job, and classify into any of the priority ranks having the same number of ranks as the reliability rank according to the degree of priority of the job. A method for selecting a job input computer, wherein a computer having the same reliability rank as the rank is selected as a computer for inputting a job.
【請求項2】各計算機の故障率に基づいて該信頼度ラン
クを区分することを特徴とする請求項1記載のジョブ投
入計算機の選択方法。
2. The method according to claim 1, wherein said reliability rank is classified based on a failure rate of each computer.
【請求項3】各計算機のMTBF(平均故障間隔)に基
づいて該信頼度ランクを区分することを特徴とする請求
項1記載のジョブ投入計算機の選択方法。
3. The method for selecting a job input computer according to claim 1, wherein said reliability rank is classified based on an MTBF (mean failure interval) of each computer.
【請求項4】並列計算機を構成する複数の計算機の中か
らジョブ投入の対象とする計算機を選択する計算機にお
いて、 並列計算機を構成する計算機の各々について信頼度デー
タを収集して信頼度の程度に従って複数の信頼度ランク
のいずれかに区分する手段と、ジョブについての情報を
入力しジョブの優先度の程度に従って該信頼度ランクと
同じランク数をもつ優先度ランクのいずれかに区分する
手段と、ジョブの優先度ランクと同じ信頼度ランクをも
つ計算機をジョブ投入する計算機として選択する手段と
を有することを特徴とするジョブ投入計算機の選択方
法。
4. A computer for selecting a computer to which a job is to be submitted from among a plurality of computers constituting a parallel computer, collecting reliability data for each of the computers constituting the parallel computer and according to the degree of reliability. Means for classifying into any of a plurality of reliability ranks, means for inputting information about a job, and classifying into any of priority ranks having the same rank number as the reliability rank according to the priority level of the job; Means for selecting a computer having the same reliability rank as the job priority rank as a computer to which a job is to be submitted.
【請求項5】コンピュータ読み取り可能な記憶媒体上に
実体化され、並列計算機を構成する複数の計算機の中か
らジョブ投入の対象とする計算機を選択するコンピュー
タプログラムであって、該プログラムは下記ステップを
含む: (a)並列計算機を構成する計算機の各々について信頼
度データを収集して信頼度の程度に従って複数の信頼度
ランクのいずれかに区分し、 (b)ジョブについての情報を入力しジョブの優先度の
程度に従って該信頼度ランクと同じランク数をもつ優先
度ランクのいずれかに区分し、 (c)ジョブの優先度ランクと同じ信頼度ランクをもつ
計算機をジョブ投入する計算機として選択する。
5. A computer program which is embodied on a computer-readable storage medium and selects a computer to which a job is to be submitted from among a plurality of computers constituting a parallel computer, the program comprising the following steps: Including: (a) collecting reliability data for each of the computers constituting the parallel computer, classifying the data into one of a plurality of reliability ranks according to the degree of reliability, and (b) inputting information about the job and According to the degree of priority, the job is classified into any one of the priority ranks having the same rank number as the reliability rank, and (c) a computer having the same reliability rank as the job priority rank is selected as a computer to which a job is input.
JP23917897A 1997-09-04 1997-09-04 Selection method/device for job input computer for parallel computer Pending JPH1185707A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23917897A JPH1185707A (en) 1997-09-04 1997-09-04 Selection method/device for job input computer for parallel computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23917897A JPH1185707A (en) 1997-09-04 1997-09-04 Selection method/device for job input computer for parallel computer

Publications (1)

Publication Number Publication Date
JPH1185707A true JPH1185707A (en) 1999-03-30

Family

ID=17040891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23917897A Pending JPH1185707A (en) 1997-09-04 1997-09-04 Selection method/device for job input computer for parallel computer

Country Status (1)

Country Link
JP (1) JPH1185707A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131905A (en) * 2001-10-26 2003-05-09 Sitecare Kk Management server system
JP2007241803A (en) * 2006-03-10 2007-09-20 Fujitsu Ltd Security management program, security management device, and security management method
JP2007305101A (en) * 2006-04-10 2007-11-22 Fujitsu Ltd Resource brokering program, recording medium recording this program, resource brokering device, and resource brokering method
WO2008041302A1 (en) * 2006-09-29 2008-04-10 Fujitsu Limited Server disposing program and server disposing method
US7707580B2 (en) 2004-01-28 2010-04-27 Kabushiki Kaisha Toshiba Parallel computing method, parallel computing program and computer
JP2011013822A (en) * 2009-06-30 2011-01-20 Nec Corp Information system, control device, data processing method for the same, and program
WO2011121681A1 (en) * 2010-03-31 2011-10-06 株式会社日立製作所 Job schedule system, job schedule management method, and recording medium
JP2012221037A (en) * 2011-04-05 2012-11-12 Toshiba Corp Assignment plan generation device and program
WO2023240767A1 (en) * 2022-06-16 2023-12-21 长鑫存储技术有限公司 Memory chip evaluation method and apparatus, memory chip access method and apparatus, and storage medium

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131905A (en) * 2001-10-26 2003-05-09 Sitecare Kk Management server system
US7707580B2 (en) 2004-01-28 2010-04-27 Kabushiki Kaisha Toshiba Parallel computing method, parallel computing program and computer
JP2007241803A (en) * 2006-03-10 2007-09-20 Fujitsu Ltd Security management program, security management device, and security management method
JP2007305101A (en) * 2006-04-10 2007-11-22 Fujitsu Ltd Resource brokering program, recording medium recording this program, resource brokering device, and resource brokering method
JP4557949B2 (en) * 2006-04-10 2010-10-06 富士通株式会社 Resource brokering program, recording medium recording the program, resource brokering apparatus, and resource brokering method
WO2008041302A1 (en) * 2006-09-29 2008-04-10 Fujitsu Limited Server disposing program and server disposing method
JPWO2008041302A1 (en) * 2006-09-29 2010-01-28 富士通株式会社 Server deployment program and server deployment method
JP4992905B2 (en) * 2006-09-29 2012-08-08 富士通株式会社 Server deployment program and server deployment method
US8661130B2 (en) 2006-09-29 2014-02-25 Fujitsu Limited Program, method, and apparatus for dynamically allocating servers to target system
JP2011013822A (en) * 2009-06-30 2011-01-20 Nec Corp Information system, control device, data processing method for the same, and program
WO2011121681A1 (en) * 2010-03-31 2011-10-06 株式会社日立製作所 Job schedule system, job schedule management method, and recording medium
JP2011215661A (en) * 2010-03-31 2011-10-27 Hitachi Ltd Job schedule system, job schedule management method, and program
JP2012221037A (en) * 2011-04-05 2012-11-12 Toshiba Corp Assignment plan generation device and program
WO2023240767A1 (en) * 2022-06-16 2023-12-21 长鑫存储技术有限公司 Memory chip evaluation method and apparatus, memory chip access method and apparatus, and storage medium

Similar Documents

Publication Publication Date Title
US7721290B2 (en) Job scheduling management method using system resources, and a system and recording medium for implementing the method
WO2006100752A1 (en) Distributed processing management device, distributed processing management method, and distributed processing management program
JP4428483B2 (en) Information processing apparatus, control method, program, and recording medium
JP4629587B2 (en) Reservation management program
JP3658420B2 (en) Distributed processing system
US9307048B2 (en) System and method for proactive task scheduling of a copy of outlier task in a computing environment
JP4992408B2 (en) Job allocation program, method and apparatus
JP2004302937A (en) Program-mapping method and implementation system thereof, as well as processing program thereof
JP6666555B2 (en) Information processing apparatus, job submission method, and job submission program
JP2017016541A (en) Information processing apparatus, parallel computing system, job schedule setting program, and job schedule setting method
JPH1185707A (en) Selection method/device for job input computer for parallel computer
US20210158248A1 (en) Computer system and resource management method
JP6010975B2 (en) Job management apparatus, job management method, and program
US11212174B2 (en) Network management device and network management method
CN114995974A (en) Task scheduling method and device, storage medium and computer equipment
GB2463546A (en) Handling malfunction/trouble in an information system comprising prioritising, searching and recommending previously executed trouble handling methods
JPH07200496A (en) Processor allocation system
CN117707763A (en) Hierarchical calculation scheduling method, system, equipment and storage medium
JP3429582B2 (en) Multiprocessor system
CN115629854A (en) Distributed task scheduling method, system, electronic device and storage medium
JPH0793262A (en) Application tool execution managing system
JP5056346B2 (en) Information processing apparatus, information processing system, virtual server movement processing control method, and program
JPH11203092A (en) Printing system
JPH11120147A (en) Load distributed control method
JP4363914B2 (en) Cluster system